Học máy được giám sát là gì?
Trong Học tập có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được "gắn nhãn" tốt . Nó có nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời chính xác. Nó có thể được so sánh với việc học tập diễn ra với sự hiện diện của một người giám sát hoặc một giáo viên.
Thuật toán học có giám sát học từ dữ liệu đào tạo được gắn nhãn, giúp bạn dự đoán kết quả cho dữ liệu không lường trước được. Việc xây dựng, mở rộng và triển khai thành công mô hình học máy được giám sát chính xác cần có thời gian và chuyên môn kỹ thuật từ đội ngũ các nhà khoa học dữ liệu có tay nghề cao. Hơn nữa, Nhà khoa học dữ liệu phải xây dựng lại các mô hình để đảm bảo thông tin chi tiết được cung cấp vẫn đúng cho đến khi dữ liệu của nó thay đổi.
Trong hướng dẫn này, bạn sẽ học
- Học máy được giám sát là gì?
- Học không giám sát là gì?
- Tại sao học có giám sát?
- Tại sao học không giám sát?
- Học có giám sát hoạt động như thế nào?
- Học không giám sát hoạt động như thế nào?
- Các loại kỹ thuật học máy được giám sát
- Các loại kỹ thuật học máy không giám sát
- Học tập có giám sát và không giám sát
Học không giám sát là gì?
Học không giám sát là một kỹ thuật học máy, nơi bạn không cần phải giám sát mô hình. Thay vào đó, bạn cần cho phép mô hình tự hoạt động để khám phá thông tin. Nó chủ yếu xử lý các dữ liệu không có nhãn.
Các thuật toán học không giám sát cho phép bạn thực hiện các tác vụ xử lý phức tạp hơn so với học có giám sát. Mặc dù, học không giám sát có thể khó dự đoán hơn so với các phương pháp học sâu và học tăng cường tự nhiên khác.
Tại sao học có giám sát?
- Học tập có giám sát cho phép bạn thu thập dữ liệu hoặc tạo ra kết quả dữ liệu từ trải nghiệm trước đó.
- Giúp bạn tối ưu hóa tiêu chí hiệu suất bằng cách sử dụng trải nghiệm
- Học máy có giám sát giúp bạn giải quyết nhiều loại vấn đề tính toán khác nhau trong thế giới thực.
Tại sao học không giám sát?
Dưới đây là những lý do chính để sử dụng Học không giám sát:
- Học máy không giám sát tìm thấy tất cả các loại mẫu không xác định trong dữ liệu.
- Các phương pháp không được giám sát giúp bạn tìm ra các tính năng có thể hữu ích cho việc phân loại.
- Nó được thực hiện trong thời gian thực, vì vậy tất cả các dữ liệu đầu vào sẽ được phân tích và dán nhãn trước sự chứng kiến của người học.
- Việc lấy dữ liệu chưa được gắn nhãn từ máy tính sẽ dễ dàng hơn so với dữ liệu được gắn nhãn, điều này cần sự can thiệp thủ công.
Học có giám sát hoạt động như thế nào?
Ví dụ, bạn muốn đào tạo một chiếc máy để giúp bạn dự đoán bạn sẽ mất bao lâu để lái xe từ nơi làm việc về nhà. Tại đây, bạn bắt đầu bằng cách tạo một tập hợp dữ liệu được gắn nhãn. Dữ liệu này bao gồm
- Điều kiện thời tiết
- Thời gian trong ngày
- Ngày lễ
Tất cả những chi tiết này là đầu vào của bạn. Đầu ra là lượng thời gian cần thiết để lái xe trở về nhà vào ngày cụ thể đó.
Theo bản năng, bạn biết rằng nếu bên ngoài trời mưa, thì bạn sẽ mất nhiều thời gian hơn để lái xe về nhà. Nhưng máy cần dữ liệu và thống kê.
Bây giờ, hãy xem cách bạn có thể phát triển mô hình học tập có giám sát của ví dụ này để giúp người dùng xác định thời gian đi làm. Điều đầu tiên bạn cần tạo là một tập dữ liệu đào tạo. Tập huấn luyện này sẽ chứa tổng thời gian đi làm và các yếu tố tương ứng như thời tiết, thời gian, v.v. Dựa trên tập huấn luyện này, máy của bạn có thể thấy mối quan hệ trực tiếp giữa lượng mưa và thời gian bạn sẽ về nhà.
Vì vậy, chắc chắn rằng trời càng mưa, bạn sẽ phải lái xe để về nhà càng lâu. Nó cũng có thể thấy mối liên hệ giữa thời gian bạn đi làm và thời gian bạn sẽ đi trên đường.
Càng gần đến 6 giờ tối, bạn càng mất nhiều thời gian để về đến nhà. Máy của bạn có thể tìm thấy một số mối quan hệ với dữ liệu được gắn nhãn của bạn.
Đây là phần bắt đầu của Mô hình Dữ liệu của bạn. Nó bắt đầu ảnh hưởng đến cách mưa tác động đến cách con người lái xe. Nó cũng bắt đầu thấy rằng nhiều người đi du lịch hơn trong một thời gian cụ thể trong ngày.
Học không giám sát hoạt động như thế nào?
Hãy lấy trường hợp của một em bé và con chó trong gia đình cô ấy.
Cô ấy biết và xác định con chó này. Vài tuần sau, một người bạn của gia đình dẫn theo một con chó và cố gắng chơi với em bé.
Bé đã không nhìn thấy con chó này sớm hơn. Nhưng nó nhận ra nhiều đặc điểm (2 tai, 2 mắt, đi bằng 4 chân) giống chú chó cưng của cô. Cô ấy xác định một con vật mới giống như một con chó. Đây là cách học không có giám sát, nơi bạn không được dạy nhưng bạn học từ dữ liệu (trong trường hợp này là dữ liệu về một con chó.) Nếu việc học này được giám sát, người bạn của gia đình sẽ nói với em bé rằng đó là một con chó.
Các loại kỹ thuật học máy được giám sát
Hồi quy:
Kỹ thuật hồi quy dự đoán một giá trị đầu ra duy nhất bằng cách sử dụng dữ liệu huấn luyện.
Ví dụ: Bạn có thể sử dụng hồi quy để dự đoán giá nhà từ dữ liệu đào tạo. Các biến đầu vào sẽ là địa phương, kích thước của một ngôi nhà, v.v.
Phân loại:
Phân loại có nghĩa là nhóm đầu ra bên trong một lớp. Nếu thuật toán cố gắng gắn nhãn đầu vào thành hai lớp riêng biệt, nó được gọi là phân loại nhị phân. Lựa chọn giữa nhiều hơn hai lớp được gọi là phân loại nhiều lớp.
Ví dụ : Xác định xem có ai đó sẽ là người không trả được nợ hay không.
Điểm mạnh : Kết quả đầu ra luôn có diễn giải theo xác suất và thuật toán có thể được quy định hóa để tránh trang bị quá mức.
Điểm yếu : Hồi quy logistic có thể hoạt động kém hiệu quả khi có nhiều ranh giới quyết định hoặc phi tuyến tính. Phương pháp này không linh hoạt nên không nắm bắt được các mối quan hệ phức tạp hơn.
Các loại kỹ thuật học máy không giám sát
Các vấn đề học tập không được giám sát tiếp tục được nhóm lại thành các vấn đề phân cụm và liên kết.
Phân cụm
Phân cụm là một khái niệm quan trọng khi nói đến học không giám sát. Nó chủ yếu giải quyết việc tìm kiếm cấu trúc hoặc mẫu trong tập hợp dữ liệu chưa được phân loại. Các thuật toán phân cụm sẽ xử lý dữ liệu của bạn và tìm các cụm (nhóm) tự nhiên nếu chúng tồn tại trong dữ liệu. Bạn cũng có thể sửa đổi số lượng cụm mà thuật toán của bạn sẽ xác định. Nó cho phép bạn điều chỉnh mức độ chi tiết của các nhóm này.
Hiệp hội
Các quy tắc kết hợp cho phép bạn thiết lập các liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn. Kỹ thuật không giám sát này là về việc khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Ví dụ, những người mua nhà mới có nhiều khả năng mua đồ nội thất mới.
Những ví dụ khác:
- Một nhóm bệnh nhân ung thư được nhóm lại theo các phép đo biểu hiện gen của họ
- Các nhóm người mua sắm dựa trên lịch sử duyệt và mua hàng của họ
- Nhóm phim theo xếp hạng của người xem phim
Học tập có giám sát và không giám sát
Thông số | Kỹ thuật học máy có giám sát | Kỹ thuật học máy không giám sát |
Quá trình | Trong mô hình học có giám sát, các biến đầu vào và đầu ra sẽ được đưa ra. | Trong mô hình học tập không giám sát, chỉ dữ liệu đầu vào sẽ được cung cấp |
Dữ liệu đầu vào | Các thuật toán được đào tạo bằng cách sử dụng dữ liệu có nhãn. | Các thuật toán được sử dụng để chống lại dữ liệu không được gắn nhãn |
Các thuật toán được sử dụng | Hỗ trợ máy vectơ, mạng nơ ron, hồi quy tuyến tính và hậu cần, rừng ngẫu nhiên và cây phân loại. | Thuật toán không được giám sát có thể được chia thành các loại khác nhau: như thuật toán cụm, phương tiện K, phân cụm phân cấp, v.v. |
Tính phức tạp | Học có giám sát là một phương pháp đơn giản hơn. | Học không giám sát rất phức tạp về mặt tính toán |
Sử dụng dữ liệu | Mô hình học có giám sát sử dụng dữ liệu đào tạo để tìm hiểu mối liên hệ giữa đầu vào và đầu ra. | Học không giám sát không sử dụng dữ liệu đầu ra. |
Độ chính xác của kết quả | Phương pháp chính xác cao và đáng tin cậy. | Phương pháp kém chính xác và đáng tin cậy. |
Học thời gian thực | Phương pháp học diễn ra ngoại tuyến. | Phương pháp học diễn ra trong thời gian thực. |
Số lớp | Số lớp đã biết. | Số lớp không được biết. |
Hạn chế chính | Phân loại dữ liệu lớn có thể là một thách thức thực sự trong Học tập có giám sát. | Bạn không thể nhận được thông tin chính xác liên quan đến việc sắp xếp dữ liệu và kết quả đầu ra là dữ liệu được sử dụng trong học tập không có giám sát được gắn nhãn và không được biết đến. |
Tóm lược
- Trong Học tập có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được "gắn nhãn" tốt.
- Học không giám sát là một kỹ thuật học máy, nơi bạn không cần phải giám sát mô hình.
- Học tập có giám sát cho phép bạn thu thập dữ liệu hoặc tạo ra kết quả dữ liệu từ trải nghiệm trước đó.
- Học máy không giám sát giúp bạn tìm tất cả các loại mẫu không xác định trong dữ liệu.
- Ví dụ: bạn sẽ có thể xác định thời gian cần thiết để quay lại căn cứ vào điều kiện thời tiết, Thời gian trong ngày và ngày lễ.
- Ví dụ, Bé có thể xác định những con chó khác dựa trên quá trình học tập có giám sát trong quá khứ.
- Hồi quy và Phân loại là hai loại kỹ thuật học máy có giám sát.
- Clustering và Association là hai loại hình học không giám sát.
- Trong mô hình học tập có giám sát, các biến đầu vào và đầu ra sẽ được đưa ra trong khi với mô hình học tập không có giám sát, chỉ dữ liệu đầu vào sẽ được cung cấp