Precision-recall curve là gì

Trên các đường cong ROC và Precision-Recall

Chúng khác nhau như thế nào, chúng mang thông tin gì và tại sao cái này không thay thế cái kia

Ảnh của Carlos Azevedo - Pico, Azores

Trong học máy, khi đối mặt với các vấn đề phân loại nhị phân, có hai công cụ số liệu chính mà mọi nhà khoa học dữ liệu sử dụng: Đường cong đặc tính hoạt động của máy thu [ ROC ] và đường cong chính xác-thu hồi [ PR ].

Mục tiêu chính của bài viết này là trình bày cách giải thích các đường cong này cùng với các ngưỡng và ma trận nhầm lẫn vốn có của chúng.

Chúng tôi bắt đầu bằng cách bao gồm dữ liệu thô cho các đường cong này: ma trận nhầm lẫn. Sau đó, chúng tôi đi qua các đường cong thực tế và để kết thúc, chúng tôi cho thấy những đường cong này có thể trông như thế nào khi vấn đề không được thiết lập đúng cách.

Ma trận hỗn loạn

Ma trận nhầm lẫn là dữ liệu thô cho mọi thứ chúng tôi sẽ hiển thị ở đây: đó là một bảng chứa số lượng Phủ định Đúng [TP], Phủ định Đúng [TN], Phủ định Sai [FP] và Phủ định Sai [FN]. Ưu điểm của việc sử dụng các đường cong ROC và PR là chúng tóm tắt thông tin hiệu suất có liên quan đến các vấn đề phân loại nhị phân. Nó giúp dễ đọc và dễ hiểu hơn so với việc có một số ma trận nhầm lẫn - một cho mỗi ngưỡng - và sau đó tính toán một số tỷ lệ để có cái nhìn thoáng qua về ý nghĩa của những con số đó [TP, TN, FP, FN]. Và voilá , chúng tôi vừa xác định các đường cong ROC và PR đại diện cho những gì - tỷ lệ số mà chúng tôi nhận được từ một số ma trận nhầm lẫn. Ma trận nhầm lẫn hỗ trợ một số lớp nhưng trong bài viết này, chúng ta sẽ tập trung vào vấn đề phân loại nhị phân.

| predicted negative | predicted positive | |-----------------|---------------------|---------------------| | actual negative | True Negative [TN] | False Positive [FP] | | actual positive | False Negative [FN] | True Positive [TP] | True Positives [TP]: Positive samples predicted as positive True Negatives [TN]: Negative samples predicted as negative False Positives [FP]: Negative samples predicted as positive False Negatives [FN]: Positive samples predicted as negative

Đường cong ROC và PR

Các chỉ số và mục tiêu - Bộ phân loại hoàn hảo

Wikipedia có một trang tuyệt vời về tất cả các số liệu liên quan đến phân loại nhị phân. Tôi thấy khó hiểu khi có một số tên cho cùng một số liệu. Ở đây, tôi sẽ liệt kê chủ yếu những cái quan trọng đối với bài viết này với các biến thể thường được sử dụng nhất:

Negatives [N]: Total number of negative samples. N = FP + TN True Positive Rate [TPR]: ratio of correct positive predictions to the overral number of positive examples in the dataset. TPR = Recall = Sensitivity = TP / P False Positive Rate [FPR]: ratio of correct negative predictions to the overral number of negative samples in the dataset. FPR = 1 - Specificity = FP / N Precision: From the positive predictions what proportion of it is correct. Precision = TP / [TP + FP] Important: Note that the y-axis of the ROC curve [Sensitivity] is the same as the x-axis of the PR curve [Recall].
The perfect classifier. Left: scores as the output of the classifier and 5 different thresholds given by the horizontal lines. Top right: ROC curve with the 5 thresholds mapped into it. Bottom right: PR curve with the 5 thresholds mapped into it.
  • Biểu đồ trên cùng bên phải : Đây là đường cong ROC. Các trục x là FPR và trục y là độ nhạy [hoặc Nhớ lại hoặc TPR]. Khi ngưỡng trên ô bên trái đi từ dưới lên trên, đường cong ROC phát triển từ phải sang trái. Mỗi điểm dữ liệu trong biểu đồ này đại diện cho một ngưỡng khác nhau mà ở mỗi bước biến một dự đoán tích cực thành một dự đoán tiêu cực.
    Mục tiêu trong không gian ROC là ở góc trên bên trái - đó là điểm [0, 1] có nghĩa là chúng ta không có Số lần khẳng định sai [ FPR = 0 ] và chúng tôi đã phân loại tất cả các giá trị dương là dương [ Nhớ lại = 1 ]. Đường gạch chéo chéo [ đường cong cho bộ phân loại không có kỹ năng²] là những gì chúng tôi có, trung bình, khi vẽ điểm ngẫu nhiên trên khoảng đơn vị³ hoặc nếu các dự đoán của chúng tôi đều là 0 hoặc tất cả là 1.
  • Biểu đồ dưới cùng bên phải : Đây là đường cong PR. Cả trục x của đường cong PR và trục y của đường cong ROC là đại diện cho Nhớ lại nên chúng ta thấy rằng chúng phát triển tương tự nhau. Đường cong này tập trung chủ yếu vào hiệu suất của lớp tích cực, điều quan trọng khi xử lý các lớp không cân bằng. Trong không gian PR, mục tiêu là ở góc trên bên phải - góc trên cùng bên phải [1, 1] có nghĩa là chúng tôi đã phân loại tất cả các mặt tích cực là tích cực [ Nhớ lại = 1 ] và mọi thứ chúng tôi đang phân loại là tích cực là true positive [ Precision = 1 ] - giá trị thứ hai dịch thành 0 False Positive. Trong trường hợp này, đường cong cho bộ phân loại không có kỹ năng² là một đường nằm ngang thu được bởi P / [N + P] được biểu thị bằng đường đứt nét - trường hợp này bộ phân loại luôn dự đoán lớp thiểu số, tức là số dương.

Nhìn chung, có sự đánh đổi giữa độ chính xác và thu hồi, được xác định bởi ngưỡng phân tách các trường hợp tích cực và các trường hợp tiêu cực - sự đánh đổi này thường được thảo luận với các nhà ra quyết định kinh doanh để đưa ra quyết định cuối cùng về nơi cần ngồi.

Một ví dụ giả khác sau đây trong đó chúng tôi không thể có được sự phân tách hoàn hảo thông qua ngưỡng:

Bộ phân loại không hoàn hảo. Bên trái: điểm số là đầu ra của bộ phân loại và các ngưỡng khác nhau được đưa ra bởi các đường ngang. Trên cùng bên phải: Đường cong ROC với các ngưỡng được ánh xạ vào đó. Dưới cùng bên phải: Đường cong PR với các ngưỡng được ánh xạ vào đó.

Ví dụ đi bộ

Hãy thực hành những gì chúng ta vừa học được và xem hình ảnh động sau đây sẽ đóng vai trò là khuôn mẫu cho những gì sắp tới:

  • Lưu ý rằng ngưỡng luôn chuyển sang mẫu tiếp theo: điều này là do giữa các mẫu, các chỉ số được giữ nguyên - vì vậy các đường nối các điểm trong đường cong ROC và PR là vô nghĩa.
  • Khoảng cách giữa các điểm trong đường cong ROC là không đổi: nó chỉ phụ thuộc vào tổng số mẫu - một chấm trên mỗi mẫu miễn là không có điểm nào hoàn toàn giống nhau, khi đó việc di chuyển ngưỡng sẽ thay đổi quyết định cho hai điểm dữ liệu.
  • Khoảng cách giữa các điểm trong đường cong PR thay đổi theo hướng: nếu bước di chuyển theo chiều ngang [Nhớ lại] thì nó không đổi như đối với đường cong ROC. Với các bước dọc [Độ chính xác], nó phụ thuộc vào có bao nhiêu mẫu âm tính - số lượng Mẫu dương tính Sai [FP] cao dẫn đến các bước nhỏ hơn - Độ chính xác = TP / [TP + FP].
Hoạt hình ngưỡng. Bên trái: điểm số là đầu ra của bộ phân loại và một ngưỡng di chuyển từ dưới lên trên. Trên cùng bên phải: Đường cong ROC được tính toán theo ngưỡng di chuyển. Dưới cùng bên phải: Đường cong PR tính theo ngưỡng di chuyển.
  1. Bước sang trái: Biến Dương tính giả [dấu thập màu xanh lam] thành Phủ định thật [chấm màu xanh lam]. Hành vi này thể hiện một quyết định chính xác và do đó nó làm giảm Tỷ lệ Dương tính Sai [ trục x ]. Có thể dễ dàng quan sát thấy ngưỡng này ở dưới cùng di chuyển từ -1,5 lên đến -0,5 trong đó mỗi lần chuyển đổi đều giảm số lượng Tích cực Sai liên tiếp.
  2. Bước xuống dưới: Chuyển một Dấu dương Đúng [chấm màu cam] thành Phủ định Sai [dấu gạch chéo màu xanh lam]. Hành vi này thể hiện một quyết định sai lầm và do đó nó làm giảm Thu hồi [ trục y ]. Có thể dễ dàng quan sát thấy ngưỡng này ở mức 0,5 đến 1,5 khi mọi chuyển đổi đều phân loại sai các mẫu dương tính thành âm tính.

Cho đến nay, chúng tôi đã xem xét hai ví dụ có một điểm chung: cả hai tập dữ liệu đều hoàn toàn cân bằng - cùng một số lượng mẫu dương và âm. Nơi mà đường cong PR tỏa sáng so với đường cong ROC là khi chúng ta đang xử lý các bộ dữ liệu không cân bằng và chúng ta quan tâm đến tầng lớp thiểu số. Vì vậy, chúng ta hãy xem xét một ví dụ.

Sự khác biệt giữa các ngưỡng tối ưu cho đường cong ROC và PR. Bên trái: điểm là đầu ra của bộ phân loại và ngưỡng tối ưu cho ROC [màu tím] và PR [màu xanh lá cây]. Trên cùng bên phải: Đường cong ROC với ngưỡng tối ưu [màu xanh lá cây] và ngưỡng tối ưu PR [màu xám]. Dưới cùng bên phải: Đường cong PR với ngưỡng tối ưu [màu tím] và ngưỡng tối ưu ROC [màu xám].

Đánh giá theo đường cong ROC, chúng tôi có thể quá lạc quan về trình phân loại của mình - có một số ngưỡng mà chúng tôi có thể chọn từ đó có hiệu suất. Tuy nhiên, đường cong PR cho chúng ta biết một câu chuyện khác - cốt truyện với các điểm dữ liệu cũng vậy. Với độ lệch lớn trong phân phối lớp, các đường cong PR rõ ràng hơn về hiệu suất của thuật toán¹: khi số lượng mẫu âm vượt quá số lượng mẫu dương tính, một sự thay đổi lớn về số lượng mẫu dương tính giả có thể dẫn đến một thay đổi nhỏ trong giá trị sai tỷ lệ dương được sử dụng trong phân tích ROC. Mặt khác, Precision bằng cách so sánh kết quả dương tính giả với dương tính thật chứ không phải âm tính thật, sẽ nắm bắt được ảnh hưởng của một số lượng lớn mẫu âm tính đến hiệu suất của thuật toán.

Cách chúng tôi quyết định đường cong nào chúng tôi muốn tối ưu hóa phụ thuộc vào ngữ cảnh. Nếu chúng ta đang xử lý phát hiện gian lận, thì việc tối ưu hóa đường cong PR mang lại lợi ích nhiều nhất bằng cách gắn cờ gian lận mà không làm quá tải các kiểm tra xác định dương tính giả, trong khi nếu chúng ta xử lý việc phát hiện ung thư, thì sẽ có chi phí cao đối với âm tính giả và do đó tối ưu hóa trên đường cong ROC là tốt hơn - Tuy nhiên, nó đòi hỏi chuyên môn kinh doanh để quyết định xem thuật toán nên đứng ở đâu khi đánh đổi.

Khác - khi nó được thực hiện sai

Ở đây, chúng tôi sẽ đưa ra hai tình huống khác mà chúng tôi không thấy thường xuyên, lý do là nó có nghĩa là vấn đề đã được xây dựng sai - vì vậy chúng tôi sẽ vẫn nhìn thấy nó khi chúng tôi làm sai và đó là một lời nhắc nhở tốt về những gì nó sẽ không như thế nào .

  • Các lớp được thiết lập theo cách khác : những gì tích cực sẽ là tiêu cực và ngược lại. Điều này dễ dàng được xác định bởi đường cong ROC - bất cứ khi nào đường cong nằm ở phía sai của đường chéo, điều đó có nghĩa là chúng ta đã nhận sai nhãn.
Giai cấp thiểu số bị đặt sai thành giai cấp tiêu cực . Theo định nghĩa, giai cấp quan tâm, cái mà chúng ta gọi là giai cấp tích cực, là giai cấp thiểu số. Điều này dễ dàng được xác định bởi đường cong PR, nơi chúng ta thấy rằng tại Recall = 1 , độ chính xác là 0,9 cho chúng ta biết sự mất cân bằng lớp dữ liệu đang hướng tới lớp 1.
Và đây là những gì nó trông như thế nào khi chúng ta sai cả hai: nhãn và lớp thiểu số. Ở đây cả hai đường cong cho chúng ta biết rằng có điều gì đó kỳ lạ - cả hai kịch bản trên đều hiển thị.

Đây là github repo được sử dụng để tạo nội dung cho bài đăng này.

Người giới thiệu

[1] Davis, Jesse và Mark Goadrich. Mối quan hệ giữa độ chính xác-thu hồi và đường cong ROC. Kỷ yếu hội nghị quốc tế lần thứ 23 về Máy học . Năm 2006.

[2] //machinelearningmastery.com/threshold-moving-for-imbalanced-classification/

[3] //www.r-bloggers.com/what-it-the-interpretation-of-the-dirical-for-a-roc-curve/

[4] //neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc

Video liên quan

Chủ Đề