Học máy được giám sát: Là gì, Thuật toán, Ví dụ

Mục lục:

Anonim

Học máy được giám sát là gì?

Trong Học tập có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được "gắn nhãn" tốt . Nó có nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời chính xác. Nó có thể được so sánh với việc học tập diễn ra với sự hiện diện của một người giám sát hoặc một giáo viên.

Thuật toán học có giám sát học từ dữ liệu đào tạo được gắn nhãn, giúp bạn dự đoán kết quả cho dữ liệu không lường trước được.

Việc xây dựng, mở rộng quy mô và triển khai thành công các mô hình học máy được giám sát chính xác cần có thời gian và chuyên môn kỹ thuật từ đội ngũ các nhà khoa học dữ liệu có tay nghề cao. Hơn nữa, Nhà khoa học dữ liệu phải xây dựng lại các mô hình để đảm bảo thông tin chi tiết được cung cấp vẫn đúng cho đến khi dữ liệu của nó thay đổi.

Trong hướng dẫn này, bạn sẽ học:

  • Học máy được giám sát là gì?
  • Cách hoạt động của việc học có giám sát
  • Các loại thuật toán học máy được giám sát
  • Kỹ thuật học máy được giám sát và không giám sát
  • Những thách thức trong học máy có giám sát
  • Ưu điểm của Học tập có Giám sát:
  • Nhược điểm của Học tập có Giám sát
  • Các phương pháp hay nhất để học có giám sát

Cách hoạt động của việc học có giám sát

Ví dụ, bạn muốn đào tạo một chiếc máy để giúp bạn dự đoán bạn sẽ mất bao lâu để lái xe từ nơi làm việc về nhà. Tại đây, bạn bắt đầu bằng cách tạo một tập hợp dữ liệu được gắn nhãn. Dữ liệu này bao gồm

  • Điều kiện thời tiết
  • Thời gian trong ngày
  • Ngày lễ

Tất cả những chi tiết này là đầu vào của bạn. Đầu ra là lượng thời gian cần thiết để lái xe trở về nhà vào ngày cụ thể đó.

Theo bản năng, bạn biết rằng nếu bên ngoài trời mưa, thì bạn sẽ mất nhiều thời gian hơn để lái xe về nhà. Nhưng máy cần dữ liệu và thống kê.

Bây giờ, hãy xem cách bạn có thể phát triển mô hình học tập có giám sát của ví dụ này để giúp người dùng xác định thời gian đi làm. Điều đầu tiên bạn cần tạo là một tập hợp đào tạo. Tập huấn luyện này sẽ chứa tổng thời gian đi làm và các yếu tố tương ứng như thời tiết, thời gian, v.v. Dựa trên tập huấn luyện này, máy của bạn có thể thấy mối quan hệ trực tiếp giữa lượng mưa và thời gian bạn sẽ về nhà.

Vì vậy, chắc chắn rằng trời càng mưa, bạn sẽ phải lái xe để về nhà càng lâu. Nó cũng có thể thấy mối liên hệ giữa thời gian bạn đi làm và thời gian bạn sẽ đi trên đường.

Càng gần đến 6 giờ tối, bạn càng mất nhiều thời gian để về đến nhà. Máy của bạn có thể tìm thấy một số mối quan hệ với dữ liệu được gắn nhãn của bạn.

Đây là phần bắt đầu của Mô hình Dữ liệu của bạn. Nó bắt đầu ảnh hưởng đến cách mưa tác động đến cách con người lái xe. Nó cũng bắt đầu thấy rằng nhiều người đi du lịch hơn trong một thời gian cụ thể trong ngày.

Các loại thuật toán học máy được giám sát

Hồi quy:

Kỹ thuật hồi quy dự đoán một giá trị đầu ra duy nhất bằng cách sử dụng dữ liệu huấn luyện.

Ví dụ : Bạn có thể sử dụng hồi quy để dự đoán giá nhà từ dữ liệu đào tạo. Các biến đầu vào sẽ là địa phương, kích thước của một ngôi nhà, v.v.

Điểm mạnh : Kết quả đầu ra luôn có diễn giải theo xác suất và thuật toán có thể được quy định hóa để tránh trang bị quá mức.

Điểm yếu : Hồi quy logistic có thể hoạt động kém hiệu quả khi có nhiều ranh giới quyết định hoặc phi tuyến tính. Phương pháp này không linh hoạt nên không nắm bắt được các mối quan hệ phức tạp hơn.

Hồi quy logistic:

Phương pháp hồi quy logistic được sử dụng để ước tính các giá trị rời rạc dựa trên một tập hợp các biến độc lập cho trước. Nó giúp bạn dự đoán xác suất xảy ra một sự kiện bằng cách khớp dữ liệu với một hàm logit. Do đó, nó còn được gọi là hồi quy logistic. Khi nó dự đoán xác suất, giá trị đầu ra của nó nằm trong khoảng từ 0 đến 1.

Dưới đây là một số loại thuật toán hồi quy

Phân loại:

Phân loại có nghĩa là nhóm đầu ra bên trong một lớp. Nếu thuật toán cố gắng gắn nhãn đầu vào thành hai lớp riêng biệt, nó được gọi là phân loại nhị phân. Lựa chọn giữa nhiều hơn hai lớp được gọi là phân loại nhiều lớp.

Ví dụ : Xác định xem có ai đó sẽ là người không trả được nợ hay không.

Điểm mạnh : Cây phân loại hoạt động rất tốt trong thực tế

Điểm yếu : Không được huấn luyện, các cây riêng lẻ dễ bị quá sung.

Dưới đây là một số loại thuật toán phân loại

Bộ phân loại Naïve Bayes

Mô hình Naïve Bayesian (NBN) rất dễ xây dựng và rất hữu ích cho các bộ dữ liệu lớn. Phương pháp này bao gồm các đồ thị xoay chiều trực tiếp với một phụ huynh và một số trẻ em. Nó giả định sự độc lập giữa các nút con tách khỏi nút cha của chúng.

Cây quyết định

Cây quyết định phân loại cá thể bằng cách sắp xếp chúng dựa trên giá trị của đối tượng địa lý. Trong phương pháp này, mỗi chế độ là đặc điểm của một cá thể. Nó phải được phân loại và mọi nhánh đại diện cho một giá trị mà nút có thể giả định. Nó là một kỹ thuật được sử dụng rộng rãi để phân loại. Trong phương pháp này, phân loại là một cây được gọi là cây quyết định.

Nó giúp bạn ước tính các giá trị thực (chi phí mua xe, số cuộc gọi, tổng doanh số hàng tháng, v.v.).

Máy vector hỗ trợ

Máy vectơ hỗ trợ (SVM) là một loại thuật toán học tập được phát triển vào năm 1990. Phương pháp này dựa trên kết quả từ lý thuyết học tập thống kê do Vap Nik giới thiệu.

Máy SVM cũng được kết nối chặt chẽ với các chức năng hạt nhân, đây là khái niệm trung tâm cho hầu hết các tác vụ học tập. Khuôn khổ hạt nhân và SVM được sử dụng trong nhiều lĩnh vực khác nhau. Nó bao gồm truy xuất thông tin đa phương tiện, tin sinh học và nhận dạng mẫu.

Kỹ thuật học máy được giám sát và không giám sát

Dựa trên Kỹ thuật học máy có giám sát Kỹ thuật học máy không giám sát
Dữ liệu đầu vào Các thuật toán được đào tạo bằng cách sử dụng dữ liệu có nhãn. Các thuật toán được sử dụng để chống lại dữ liệu không được gắn nhãn
Tính phức tạp Học có giám sát là một phương pháp đơn giản hơn. Học không giám sát rất phức tạp về mặt tính toán
Sự chính xác Phương pháp chính xác cao và đáng tin cậy. Phương pháp kém chính xác và đáng tin cậy.

Những thách thức trong học máy có giám sát

Dưới đây là những thách thức phải đối mặt trong học máy có giám sát:

  • Tính năng đầu vào không liên quan, dữ liệu đào tạo hiện tại có thể cho kết quả không chính xác
  • Chuẩn bị và xử lý trước dữ liệu luôn là một thách thức.
  • Độ chính xác bị ảnh hưởng khi các giá trị không thể, không chắc và không đầy đủ được nhập làm dữ liệu huấn luyện
  • Nếu không có chuyên gia liên quan, thì cách tiếp cận khác là "vũ phu". Nó có nghĩa là bạn cần nghĩ rằng các tính năng phù hợp (biến đầu vào) để đào tạo máy. Nó có thể không chính xác.

Ưu điểm của Học tập có Giám sát:

  • Học tập có giám sát cho phép bạn thu thập dữ liệu hoặc tạo ra dữ liệu đầu ra từ trải nghiệm trước đó
  • Giúp bạn tối ưu hóa tiêu chí hiệu suất bằng cách sử dụng trải nghiệm
  • Học máy có giám sát giúp bạn giải quyết nhiều loại vấn đề tính toán khác nhau trong thế giới thực.

Nhược điểm của Học tập có Giám sát

  • Ranh giới quyết định có thể bị giới hạn quá mức nếu bộ đào tạo của bạn không có các ví dụ mà bạn muốn có trong một lớp học
  • Bạn cần chọn nhiều ví dụ hay từ mỗi lớp trong khi đào tạo trình phân loại.
  • Phân loại dữ liệu lớn có thể là một thách thức thực sự.
  • Đào tạo cho việc học có giám sát cần nhiều thời gian tính toán.

Các phương pháp hay nhất để học có giám sát

  • Trước khi làm bất cứ điều gì khác, bạn cần quyết định loại dữ liệu nào sẽ được sử dụng làm tập huấn luyện
  • Bạn cần quyết định cấu trúc của hàm đã học và thuật toán học.
  • Thu thập kết quả đầu ra tương ứng từ các chuyên gia con người hoặc từ các phép đo

Tóm lược

  • Trong Học tập có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được "gắn nhãn" tốt.
  • Bạn muốn đào tạo một chiếc máy giúp bạn dự đoán thời gian bạn lái xe từ nơi làm việc về nhà là một ví dụ về học tập có giám sát
  • Hồi quy và Phân loại là hai loại kỹ thuật học máy có giám sát.
  • Học có giám sát là một phương pháp đơn giản hơn trong khi Học không giám sát là một phương pháp phức tạp.
  • Thách thức lớn nhất trong học tập có giám sát là tính năng đầu vào không liên quan, dữ liệu đào tạo hiện tại có thể cho kết quả không chính xác.
  • Ưu điểm chính của học có giám sát là nó cho phép bạn thu thập dữ liệu hoặc tạo ra kết quả dữ liệu từ trải nghiệm trước đó.
  • Hạn chế của mô hình này là ranh giới quyết định có thể bị khai thác quá mức nếu tập huấn luyện của bạn không có các ví dụ mà bạn muốn có trong một lớp học.
  • Là một phương pháp hay nhất để giám sát việc học, trước tiên bạn cần quyết định loại dữ liệu nào nên được sử dụng làm tập huấn luyện.