混淆矩陣(Confusion Matrix)介紹
25 October 2019
nlp
Evaluation
machine-learning
confusion-matrix
classifier
在機器學習中,最常見的就是分類模型,像是垃圾郵件分類、手寫數字判定等等,那我們要怎麼去判定一個分類模型表現的到底好不好,基本上混淆矩陣(confusion matrix)
的各項指標會被拿來參考,所以今天我們就來認識一下組成混淆矩陣的四個元素(TP,TN,FP,FN)吧
TP(True Positive)
: 正確預測成功的正樣本,例如在一個預測是不是貓的圖像分類器,成功的把一張貓的照片標示成貓,即為TP
TN(True Negative)
: 正確預測成功的負樣本,以上述例子,成功的把一張狗的照片標示成不是貓,即為TN
FP(False Positive)
: 錯誤預測成正樣本,實際上為負樣本,例如:錯誤的把一張狗的照片標示成貓
FN(False Negative)
: 錯誤預測成負樣本(或者說沒能預測出來的正樣本),例如:錯誤的把一張貓的照片標示成不是貓
所以這樣看下來,很直覺的,我們會知道TP跟TN要越大越好,但總是不會有完美的系統,因此就會出現出FP及FN 有時候的情況能比較能接受FP的錯誤,例如我們要投放廣告給喜歡喝酒的人,如果不小心投放到其他客群,也並不是那麼嚴重
相反的,如果是一個門禁的臉部辨識系統,FP的錯誤就相當嚴重
在統計學上FP被還被稱為第一型錯誤(Type 1 Error),FN被稱為第二型錯誤(Type 2 Error)
了解混淆矩陣對於我們評估許多機器學習的模型有很大的幫助