Các hệ thống thông minh có thể chuyển hoá dữ liệu thành kiến thức

Machine learning phát triển từ một nhánh của lĩnh vực Trí Tuệ Nhân Tạo (Artificial Intelligence - AI) bằng việc sử dụng các thuật toán tự học để thu nạp kiến thức từ dữ liệu nhằm đưa ra các dự đoán.

Machine learning cung cấp một phương pháp hiệu quả để học hỏi dữ liệu thay vì dựa vào con người để phân tích và dự đoán. Machine learning giúp cải thiện các mô hình dự đoán (predictive models) và đưa ra các quyết định dựa trên dữ liệu (data-driven decisions).

Nhờ vào machine learning, chúng ta có các bộ lọc email rác mạnh mẽ, các phần mềm nhận dạng giọng nói và chữ viết tiện dụng, các hệ thống tìm kiếm đáng tin cậy, và, trong tương lai không xa, chúng ta sẽ có các phương tiện tự lái an toàn và hiệu quả.

Ba nhánh của machine learning

Machine learning hiện tại có ba nhánh chính: supervised learning, unsupervised learning, và reinforcement learning. Mỗi nhánh có những vai trò khác nhau:

Các nhánh của machine learning

Supervised learning — Học hỏi để trả lời

Mục đích chính của supervised learning là xây dựng một mô hình từ dữ liệu có sẵn (training data) được gắn nhãn (label) cho phép đưa ra các dự đoán về các dữ liệu chưa biết hay dữ liệu tương lai. Thuật ngữ supervised dùng để chỉ việc kết quả đầu ra đã được biết trước (do được gắn nhãn).

Cách thức hoạt động của supervised learning

Cách thức hoạt động của supervised learning

Mô hình supervised learning sử dụng các nhãn được định nghĩa từ trước (như một email có thể được gắn nhãn “thư rác” hoặc “không phải thư rác”) được gọi là mô hình phân loại (classification). Một dạng mô hình khác của supervised learning gọi là mô hình hồi quy (regression) do kết quả trả dưới dạng giá trị liên tục (continuous values).

Phân loại (Classification)

Phân loại (Classification)

Hồi quy (Regression)

Hồi quy (Regression)

Reinforcement learning — Học hỏi để tiến bộ

Mục đích của mô hình reinforcement learning là phát triển một hệ thống (agent) có thể tự tiến bộ dựa trên các tương tác với môi trường. Mô hình reinforcement learning lấy thông tin/dữ liệu từ môi trường nhưng có thêm các tín hiệu phần thưởng (reward signal) và trả về kết quả dưới dạng hành động. Hành động trả về sau đó được đo lường hiệu quả thông qua một hàm đo lường tín hiệu phần thưởng. Thông qua khả năng tương tác với môi trường, hệ thống reinforce learning sẽ học hỏi các chuỗi hành động nhằm tối đa phần thưởng thông qua phương pháp thử (trial and error) hoặc lên kế hoạch chi tiết trước khi thực hiện.

Mô hình Reinforcement learning

Mô hình Reinforcement learning

Một ví dụ tiêu biểu của reinforcement learning là các mô hình tự chơi các trò chơi như cờ vua hoặc Flappy Bird mà phần thưởng được quy định ở đây là việc thắng hay thua, hoặc điểm số của trò chơi.

Unsupervised learning — Học hỏi để khám phá

Mô hình unsupervised learning giúp khám phá cấu trúc dữ liệu để lấy ra những thông tin hữu ích mà không cần sự hướng dẫn hoặc đo lường hiệu quả.

Clustering (phân nhóm) là một kỹ thuật phân tích dữ liệu thăm dò (exploratory data analysis) giúp tổ chức và sắp xếp thông tin thành những nhóm nhỏ (cluster) có ý nghĩa mà không cần biết thông tin về vị trí của chúng trong các nhóm. Clustering đôi khi còn được gọi unsupervised classification.

Phân nhóm

Unsupervised learning còn được dùng để hạ bậc chiều không gian (dimensionality reduction) cho mục đích nén dữ liệu. Phương pháp hạ bậc thường được dùng trong quá trình xử lý dữ liệu nhằm loại bỏ sự nhiễu trong dữ liệu (noise), cải thiện hiệu suất của các thuật toán, và nén dữ liệu trong khi vẫn giữ lại những thông tin quan trọng.

Hạ bậc chiều không gian


Nguồn: