Ma trận nhầm lẫn là gì?
Ma trận nhầm lẫn là một kỹ thuật đo lường hiệu suất để phân loại Máy học. Đây là một loại bảng giúp bạn biết hiệu suất của mô hình phân loại trên một tập dữ liệu thử nghiệm mà các giá trị thực được biết đến. Bản thân thuật ngữ ma trận nhầm lẫn rất đơn giản, nhưng thuật ngữ liên quan của nó có thể hơi khó hiểu. Ở đây, một số giải thích đơn giản được đưa ra cho kỹ thuật này.
Trong hướng dẫn này, bạn sẽ học,
- Ma trận nhầm lẫn là gì?
- Bốn kết quả của ma trận nhầm lẫn
- Ví dụ về ma trận nhầm lẫn:
- Cách tính toán ma trận nhầm lẫn
- Các thuật ngữ quan trọng khác sử dụng ma trận nhầm lẫn
- Tại sao bạn cần Ma trận nhầm lẫn?
Bốn kết quả của ma trận nhầm lẫn
Ma trận nhầm lẫn trực quan hóa độ chính xác của bộ phân loại bằng cách so sánh các lớp thực tế và các lớp dự đoán. Ma trận nhầm lẫn nhị phân bao gồm các ô vuông:

- TP: True Positive: Giá trị được dự đoán được dự đoán chính xác là giá trị dương thực tế
- FP: Giá trị được dự đoán dự đoán không chính xác về giá trị dương thực tế. tức là, các giá trị âm được dự đoán là dương
- FN: Sai Phủ định: Giá trị dương được dự đoán là âm
- TN: True Negative: Giá trị được dự đoán được dự đoán chính xác là giá trị phủ định thực tế
Bạn có thể tính toán kiểm tra độ chính xác từ ma trận nhầm lẫn:
Ví dụ về Ma trận nhầm lẫn:
Ma trận nhầm lẫn là một phương pháp học máy hữu ích cho phép bạn đo lường Nhớ lại, Độ chính xác, Độ chính xác và đường cong AUC-ROC. Dưới đây là một ví dụ để biết các thuật ngữ Đúng khẳng định, Phủ định thật, Phủ định sai và Phủ định thật.
Tích cực thực sự:
Bạn dự đoán tích cực và hóa ra là đúng. Ví dụ, bạn đã dự đoán rằng Pháp sẽ vô địch thế giới và họ đã giành chiến thắng.
Phủ định Thực sự:
Khi bạn dự đoán tiêu cực, và đó là sự thật. Bạn đã dự đoán rằng Anh sẽ không thắng và đã thua.
Dương tính Sai:
Dự đoán của bạn là tích cực, và nó là sai.
Bạn đã dự đoán rằng Anh sẽ thắng, nhưng lại thua.
Phủ định Sai:
Dự đoán của bạn là tiêu cực và kết quả là nó cũng sai.
Bạn đã dự đoán rằng Pháp sẽ không thắng, nhưng họ đã thắng.
Bạn nên nhớ rằng chúng tôi mô tả các giá trị được dự đoán là Đúng hoặc Sai hoặc Tích cực và Tiêu cực.
Cách tính toán ma trận nhầm lẫn
Đây là quy trình từng bước để tính toán Ma trận nhầm lẫn trong khai thác dữ liệu
- Bước 1) Đầu tiên, bạn cần kiểm tra tập dữ liệu với các giá trị kết quả mong đợi của nó.
- Bước 2) Dự đoán tất cả các hàng trong tập dữ liệu thử nghiệm.
- Bước 3) Tính toán các dự đoán và kết quả mong đợi:
- Tổng số dự đoán đúng của mỗi lớp.
- Tổng số dự đoán sai của mỗi lớp.
Sau đó, những con số này được sắp xếp theo các phương pháp dưới đây:
- Mọi hàng của ma trận liên kết đến một lớp được dự đoán.
- Mỗi cột của ma trận tương ứng với một lớp thực tế.
- Tổng số lượng phân loại đúng và sai được nhập vào bảng.
- Tổng các dự đoán đúng cho một lớp được đưa vào cột dự đoán và hàng dự đoán cho giá trị của lớp đó.
- Tổng các dự đoán không chính xác cho một lớp sẽ chuyển vào hàng mong đợi cho giá trị lớp đó và cột dự đoán cho giá trị lớp cụ thể đó.
Các thuật ngữ quan trọng khác sử dụng ma trận nhầm lẫn
- Giá trị dự đoán dương (PVV): Đây là giá trị rất gần với độ chính xác. Một điểm khác biệt đáng kể giữa hai kỳ hạn là PVV xem xét mức độ phổ biến. Trong tình huống các lớp hoàn toàn cân bằng, giá trị dự đoán dương cũng giống như độ chính xác.
- Tỷ lệ lỗi Null: Thuật ngữ này được sử dụng để xác định số lần dự đoán của bạn sẽ sai nếu bạn có thể dự đoán lớp đa số. Bạn có thể coi nó như một số liệu cơ bản để so sánh bộ phân loại của mình.
- Điểm F: Điểm F1 là điểm trung bình có trọng số của độ chính xác và độ chính xác tích cực thực sự.
- Đường cong Roc: Đường cong Roc cho biết tỷ lệ dương tính thực so với tỷ lệ dương tính giả tại các điểm cắt khác nhau. Nó cũng thể hiện sự đánh đổi giữa độ nhạy (độ thu hồi và độ đặc hiệu hoặc tỷ lệ âm tính thực sự).
- Độ chính xác: Chỉ số độ chính xác cho biết độ chính xác của lớp tích cực. Nó đo lường khả năng dự đoán của lớp tích cực là đúng.
Điểm tối đa là 1 khi trình phân loại phân loại hoàn hảo tất cả các giá trị dương. Riêng độ chính xác thì không hữu ích lắm vì nó bỏ qua lớp phủ định. Chỉ số này thường được ghép nối với chỉ số Nhớ lại. Thu hồi còn được gọi là độ nhạy hoặc tỷ lệ dương tính thực sự.
- Độ nhạy : Độ nhạy tính toán tỷ lệ các lớp dương tính được phát hiện một cách chính xác. Số liệu này cho biết mức độ tốt của mô hình để nhận ra một lớp tích cực.
Tại sao bạn cần Ma trận nhầm lẫn?
Dưới đây là ưu / lợi ích của việc sử dụng ma trận nhầm lẫn.
- Nó cho thấy bất kỳ mô hình phân loại nào bị nhầm lẫn khi đưa ra dự đoán.
- Ma trận nhầm lẫn không chỉ cung cấp cho bạn cái nhìn sâu sắc về các lỗi do trình phân loại của bạn thực hiện mà còn cả các loại lỗi đang mắc phải.
- Sự phân tích này giúp bạn vượt qua giới hạn của việc chỉ sử dụng độ chính xác của phân loại.
- Mỗi cột của ma trận nhầm lẫn đại diện cho các trường hợp của lớp được dự đoán đó.
- Mỗi hàng của ma trận nhầm lẫn đại diện cho các trường hợp của lớp thực tế.
- Nó cung cấp thông tin chi tiết không chỉ về các lỗi do bộ phân loại tạo ra mà còn cả các lỗi đang được thực hiện.