Học tập không giám sát
Học không giám sát là một kỹ thuật học máy trong đó người dùng không cần giám sát mô hình. Thay vào đó, nó cho phép mô hình tự hoạt động để phát hiện ra các mẫu và thông tin mà trước đây chưa được phát hiện. Nó chủ yếu xử lý các dữ liệu không có nhãn.
Thuật toán học không giám sát
Thuật toán học không giám sát cho phép người dùng thực hiện các tác vụ xử lý phức tạp hơn so với học có giám sát. Mặc dù, học không giám sát có thể khó dự đoán hơn so với các phương pháp học tự nhiên khác. Các thuật toán học không giám sát bao gồm phân cụm, phát hiện bất thường, mạng nơ-ron, v.v.
Trong hướng dẫn này, bạn sẽ học:
- Ví dụ về Học máy không giám sát
- Tại sao học không giám sát?
- Các loại hình học tập không giám sát
- Phân cụm
- Các loại phân nhóm
- Hiệp hội
- Học máy không giám sát và không giám sát
- Các ứng dụng của máy học không giám sát
- Nhược điểm của học không giám sát
Ví dụ về Học máy không giám sát
Hãy lấy trường hợp của một em bé và con chó trong gia đình cô ấy.
Cô ấy biết và xác định con chó này. Vài tuần sau, một người bạn của gia đình dẫn theo một con chó và cố gắng chơi với em bé.
Bé đã không nhìn thấy con chó này sớm hơn. Nhưng nó nhận ra nhiều đặc điểm (2 tai, 2 mắt, đi bằng 4 chân) giống chú chó cưng của cô. Cô xác định con vật mới là một con chó. Đây là cách học không có giám sát, nơi bạn không được dạy nhưng bạn học từ dữ liệu (trong trường hợp này là dữ liệu về một con chó.) Nếu việc học này được giám sát, người bạn của gia đình sẽ nói với em bé rằng đó là một con chó.
Tại sao học không giám sát?
Dưới đây là những lý do chính để sử dụng Học không giám sát:
- Học máy không giám sát tìm thấy tất cả các loại mẫu không xác định trong dữ liệu.
- Các phương pháp không được giám sát giúp bạn tìm ra các tính năng có thể hữu ích cho việc phân loại.
- Nó được thực hiện trong thời gian thực, vì vậy tất cả các dữ liệu đầu vào sẽ được phân tích và dán nhãn trước sự chứng kiến của người học.
- Việc lấy dữ liệu chưa được gắn nhãn từ máy tính sẽ dễ dàng hơn so với dữ liệu được gắn nhãn, điều này cần sự can thiệp thủ công.
Các loại hình học tập không giám sát
Các vấn đề học tập không được giám sát tiếp tục được nhóm lại thành các vấn đề phân cụm và liên kết.
Phân cụm
Phân cụm là một khái niệm quan trọng khi nói đến học không giám sát. Nó chủ yếu giải quyết việc tìm kiếm cấu trúc hoặc mẫu trong tập hợp dữ liệu chưa được phân loại. Các thuật toán phân cụm sẽ xử lý dữ liệu của bạn và tìm các cụm (nhóm) tự nhiên nếu chúng tồn tại trong dữ liệu. Bạn cũng có thể sửa đổi số lượng cụm mà thuật toán của bạn sẽ xác định. Nó cho phép bạn điều chỉnh mức độ chi tiết của các nhóm này.
Có nhiều kiểu phân cụm khác nhau mà bạn có thể sử dụng:
Độc quyền (phân vùng)
Trong phương pháp phân cụm này, Dữ liệu được nhóm theo cách sao cho một dữ liệu chỉ có thể thuộc về một cụm.
Ví dụ: K-mean
Tổng hợp
Trong kỹ thuật phân cụm này, mọi dữ liệu là một cụm. Sự kết hợp lặp đi lặp lại giữa hai cụm gần nhất làm giảm số lượng cụm.
Ví dụ: Phân cụm phân cấp
Qua nối chồng
Trong kỹ thuật này, các tập mờ được sử dụng để phân cụm dữ liệu. Mỗi điểm có thể thuộc hai hoặc nhiều cụm với các cấp độ thành viên riêng biệt.
Tại đây, dữ liệu sẽ được liên kết với một giá trị thành viên thích hợp. Ví dụ: C-Means mờ
Xác suất
Kỹ thuật này sử dụng phân phối xác suất để tạo các cụm
Ví dụ: Các từ khóa sau
- "giày của người đàn ông."
- "giày của phụ nữ."
- "găng tay của phụ nữ."
- "găng tay của đàn ông."
có thể được nhóm lại thành hai loại "giày" và "găng tay" hoặc "đàn ông" và "phụ nữ".
Các loại phân nhóm
- Phân cụm phân cấp
- K-có nghĩa là phân cụm
- K-NN (k hàng xóm gần nhất)
- Phân tích thành phần chính
- Phân rã giá trị đơn lẻ
- Phân tích thành phần độc lập
Phân cụm phân cấp:
Phân cụm phân cấp là một thuật toán xây dựng một hệ thống phân cấp của các cụm. Nó bắt đầu với tất cả dữ liệu được gán cho một nhóm của riêng chúng. Ở đây, hai cụm gần sẽ ở trong cùng một cụm. Thuật toán này kết thúc khi chỉ còn một cụm duy nhất.
K-có nghĩa là phân cụm
K có nghĩa là nó là một thuật toán phân cụm lặp đi lặp lại giúp bạn tìm giá trị cao nhất cho mỗi lần lặp. Ban đầu, số lượng cụm mong muốn được chọn. Trong phương pháp phân cụm này, bạn cần phải phân cụm các điểm dữ liệu thành k nhóm. Một k lớn hơn có nghĩa là các nhóm nhỏ hơn với mức độ chi tiết hơn theo cùng một cách. K thấp hơn có nghĩa là các nhóm lớn hơn với độ chi tiết thấp hơn.
Đầu ra của thuật toán là một nhóm các "nhãn". Nó chỉ định điểm dữ liệu cho một trong k nhóm. Trong phân cụm k-mean, mỗi nhóm được xác định bằng cách tạo một trung tâm cho mỗi nhóm. Các trung tâm giống như trái tim của cụm, lấy các điểm gần chúng nhất và thêm chúng vào cụm.
K-mean clustering xác định thêm hai nhóm con:
- Phân cụm tích hợp
- Dendrogram
Phân cụm tích hợp:
Loại phân cụm K-mean này bắt đầu với một số lượng cụm cố định. Nó phân bổ tất cả dữ liệu vào số lượng chính xác của các cụm. Phương pháp phân cụm này không yêu cầu số lượng cụm K làm đầu vào. Quá trình tổng hợp bắt đầu bằng cách hình thành mỗi dữ liệu dưới dạng một cụm duy nhất.
Phương pháp này sử dụng một số thước đo khoảng cách, giảm số lượng các cụm (một trong mỗi lần lặp lại) bằng quá trình hợp nhất. Cuối cùng, chúng ta có một cụm lớn chứa tất cả các đối tượng.
Dendrogram:
Trong phương pháp phân cụm Dendrogram, mỗi cấp độ sẽ đại diện cho một cụm có thể có. Chiều cao của dendrogram cho thấy mức độ giống nhau giữa hai cụm nối. Càng về cuối quá trình, chúng càng có nhiều cụm tương tự, điều này được tìm thấy của nhóm từ dendrogram, điều này không phải là tự nhiên và chủ yếu là chủ quan.
K- Những người hàng xóm thân thiết nhất
K- láng giềng gần nhất là đơn giản nhất trong tất cả các bộ phân loại học máy. Nó khác với các kỹ thuật học máy khác, ở chỗ nó không tạo ra một mô hình. Nó là một thuật toán đơn giản lưu trữ tất cả các trường hợp có sẵn và phân loại các trường hợp mới dựa trên một thước đo tương tự.
Nó hoạt động rất tốt khi có khoảng cách giữa các ví dụ. Tốc độ học tập chậm lại khi tập huấn luyện lớn, và tính toán khoảng cách cũng không tầm thường.
Phân tích thành phần chính:
Trong trường hợp bạn muốn có một không gian chiều cao hơn. Bạn cần chọn một cơ sở cho không gian đó và chỉ 200 điểm quan trọng nhất của cơ sở đó. Cơ sở này được biết đến như một thành phần chính. Tập hợp con bạn chọn tạo thành một không gian mới có kích thước nhỏ so với không gian ban đầu. Nó duy trì càng nhiều độ phức tạp của dữ liệu càng tốt.
Hiệp hội
Các quy tắc kết hợp cho phép bạn thiết lập các liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn. Kỹ thuật không giám sát này là về việc khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Ví dụ, những người mua nhà mới có nhiều khả năng mua đồ nội thất mới.
Những ví dụ khác:
- Một nhóm bệnh nhân ung thư được nhóm lại theo các phép đo biểu hiện gen của họ
- Các nhóm người mua sắm dựa trên lịch sử duyệt và mua hàng của họ
- Nhóm phim theo xếp hạng của người xem phim
Học máy không giám sát và không giám sát
Thông số | Kỹ thuật học máy có giám sát | Kỹ thuật học máy không giám sát |
Dữ liệu đầu vào | Các thuật toán được đào tạo bằng cách sử dụng dữ liệu có nhãn. | Các thuật toán được sử dụng để chống lại dữ liệu không được gắn nhãn |
Tính phức tạp | Học có giám sát là một phương pháp đơn giản hơn. | Học không giám sát rất phức tạp về mặt tính toán |
Sự chính xác | Phương pháp chính xác cao và đáng tin cậy. | Phương pháp kém chính xác và đáng tin cậy. |
Các ứng dụng của máy học không giám sát
Một số ứng dụng của kỹ thuật học máy không giám sát là:
- Phân cụm tự động chia tập dữ liệu thành các nhóm dựa trên các điểm tương đồng của chúng
- Tính năng phát hiện bất thường có thể phát hiện ra các điểm dữ liệu bất thường trong tập dữ liệu của bạn. Nó rất hữu ích cho việc tìm kiếm các giao dịch gian lận
- Khai thác liên kết xác định các tập hợp các mục thường xuất hiện cùng nhau trong tập dữ liệu của bạn
- Các mô hình biến tiềm ẩn được sử dụng rộng rãi để xử lý trước dữ liệu. Như giảm số lượng tính năng trong tập dữ liệu hoặc phân tách tập dữ liệu thành nhiều thành phần
Nhược điểm của học không giám sát
- Bạn không thể nhận được thông tin chính xác liên quan đến việc sắp xếp dữ liệu và kết quả đầu ra là dữ liệu được sử dụng trong học tập không có giám sát được gắn nhãn và không được biết
- Độ chính xác của kết quả kém hơn là do dữ liệu đầu vào không được mọi người biết trước và không được gắn nhãn trước. Điều này có nghĩa là máy yêu cầu tự làm việc này.
- Các lớp phổ không phải lúc nào cũng tương ứng với các lớp thông tin.
- Người dùng cần dành thời gian giải thích và gắn nhãn các lớp theo phân loại đó.
- Thuộc tính phổ của các lớp cũng có thể thay đổi theo thời gian nên bạn không thể có cùng thông tin về lớp trong khi chuyển từ ảnh này sang ảnh khác.
Tóm lược
- Học không giám sát là một kỹ thuật học máy, nơi bạn không cần phải giám sát mô hình.
- Học máy không giám sát giúp bạn tìm tất cả các loại mẫu không xác định trong dữ liệu.
- Clustering và Association là hai loại hình học không giám sát.
- Bốn loại phương pháp phân cụm là 1) Loại trừ 2) Tổng hợp 3) Chồng chéo 4) Xác suất.
- Các kiểu phân cụm quan trọng là: 1) Phân cụm theo thứ bậc 2) Phân cụm K-mean 3) K-NN 4) Phân tích thành phần chính 5) Phân tích giá trị đơn lẻ 6) Phân tích thành phần độc lập.
- Các quy tắc kết hợp cho phép bạn thiết lập các liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn.
- Trong Học tập có giám sát, Các thuật toán được huấn luyện bằng cách sử dụng dữ liệu có gắn nhãn trong khi trong Học tập không giám sát, Các thuật toán được sử dụng dựa trên dữ liệu không được gắn nhãn.
- Tính năng phát hiện bất thường có thể khám phá các điểm dữ liệu quan trọng trong tập dữ liệu của bạn, điều này rất hữu ích cho việc tìm kiếm các giao dịch gian lận.
- Hạn chế lớn nhất của Học không giám sát là bạn không thể nhận được thông tin chính xác liên quan đến việc sắp xếp dữ liệu.