機器學習\統計方法: 模型評估-驗證指標(validation index)

11 min readJul 10, 2018

這篇主要是說「怎麼評估我們訓練出來的模型，成效(performance)好不好」。
這時候就會牽扯到我們這個定義所謂的成效，所以這篇介紹一些驗證指標(validation index)來當成效指標，依據應用分為「分類指標」和「回歸指標」。

「分類指標」: 二元相關(二元混淆矩陣和相對應驗證指標、ROC曲線、AUC)和多元相關(多元混淆矩陣和相對應驗證指標)。
Note:二元指標內有比較多diagnosis index算法和介紹。

「回歸指標」: 平均均方誤差(Mean Squared Error, MSE)、平均絕對誤差(Mean Absolute Error, MAE)和平均均方對數誤差(Mean Squared Logarithmic Error, MSLE)

分類指標(Classification metrics)

分類指標這邊會是大宗，主要原因是除了機器學習之外，很多臨床研究或是統計研究也會用到這邊的指標，不一定是機器學習才會用到，後續會繼續說明為什麼。

分類這邊我們可以很直接知道，分類大概可以分成二元分類(binary case)和多元分類(multiclass case)，所有的分類問題都可以先產生出一個稱為混淆矩陣(Confusion matrix)的東西，然後從這個矩陣在去算出一些成效指標。

二元分類這邊介紹會比較多，主要原因是醫學臨床和統計學用比較多，所以會有很多名詞，如果只是想要看分類的指標可以直接看多元指標。

二元分類(binary case)指標

二元混淆矩陣(Confusion matrix)

在二元分類基本上就是分「有」和「沒有」、「真」跟「假」、「正」和「負」。下表是二元分類的混淆矩陣，True condition就是你資料的答案，Predicted outcome就是模型預測出來的結果。
Positive就是「有」、「真」或是「正」，在醫學上通常用「有發病」；
Negative就是「沒有」、「假」或是「負」，在醫學上通常用「沒有發病」。

True Positive (TP)「真陽性」:真實情況是「有」，模型說「有」的個數。
True Negative(TN)「真陰性」:真實情況是「沒有」，模型說「沒有」的個數。
False Positive (FP)「偽陽性」:真實情況是「沒有」，模型說「有」的個數。
False Negative(FN)「偽陰性」:真實情況是「有」，模型說「沒有」的個數。

這邊舉個例子說confusion怎麼算的，基本上多元的也是用同樣的方式算。
假設我有一組資料是看有沒有生病，然後醫師做診斷和電腦去診斷，結果如下:

我們去算「真實狀況和醫生判斷的混淆矩陣」和「真實狀況和電腦判斷的混淆矩陣」，如下表:

這時候雖然眼睛看就知道診斷結果是醫生比較好，但還是需要換成指標來說明誰比誰好吧。

下圖基本上二元分類會用到的所有指標名稱和計算方式，基本上我列了所有會用到的指標:

這邊我大概說一下常用的指標
Sensitivity 靈敏性: 也稱為True Positive Rate (TPR), Recall，「有病的偵測率」，所以是越高越好。
Specificity 特異性: 也稱為True negative rate (TNR)，「沒病的偵測率」，也是越高越好。
但基本上這兩個指標是trade off，這兩個指標跟等會要介紹的ROC有關係，也是臨床上非常長看的兩個指標。

Accuracy正確率: 基本上就是模型的整體判斷的正確率，所以有時候也稱為overall accuracy，越高越好。

False Negative Rate 偽陰性率: 預測模型判成沒病，但實際上有病的比率，越小越好。

False Positive Rate (FPR) 偽陽性率: 預測模型判成有病，但實際上沒有病的比率，越小越好。

Positive predictive value (PPV) 陽性預測值: 也稱為Precision，在臨床上也是很常用的指標，模型診斷結果呈現有病且確實有病者的比率，越高越好。

Negative predictive value (NPV) 陰性預測值: 模型診斷結果呈沒病且實際上也沒有病的比率，越高越好。

剛剛的例子可以算出所有指標，最後得到下表，所以從大部份指標都可以知道醫師比較好。

回到混淆矩陣我們可以知道，誤判的地方是FP和FN，下圖是用來解釋在混淆矩陣的東西。

在統計學上會將FP稱為「型一錯誤 (Type I error)，上圖淺藍色那塊」，FN稱為「型二錯誤 (Type II error)，上圖粉紅色那塊」

在假設檢定中(假設檢定的敘述可參考「統計學:大家都喜歡問的系列-p值是什麼」)，做的事情就是利用統計方法推測虛無假設(H0)是否成立，也就是拒絕或是不拒絕虛無假設。
若是虛無假設事實上成立，但檢定結果拒絕虛無假設時，這個錯誤就稱做為型一錯誤。
若是虛無假設事實上不成立，但檢定結果不拒絕虛無假設時，這個錯誤就稱做為型二錯誤。

Note: 我念書的時候老師特別強調，統計檢定沒有「接受」這個選項，只有「不拒絕」，因為做檢定的目的是有沒有證據去「拒絕」一個假設，我們只能下結論是我們沒有統計上的證據去拒絕虛無假設。

ROC曲線 (Receiver operating characteristic curve) & AUC (Area Under Curve)

ROC曲線也是用來評估二元分類問題的一個方法，基於上面的圖，我們可以知道閾值(threshold)在往左往右變化的時候代表的是，FP和FN是會變化的，這時候就會有trade off的問題，我前面有提到靈敏性和特異性兩個指標也是trade off的問題，原因是這兩個指標跟FP和FN也是直接相關，所以FP和FN變化基本上靈敏性和特異性也是跟著變，且FP和FN說的是個數，靈敏性和特異性才是百分比的指標。

簡單說一下ROC曲線怎麼來的，閾值(threshold)變化可以得到靈敏性和特異性指標，所以我們將所有可能的閾值(threshold)都去設定，然後可以跑出很多組靈敏性和特異性，一個靈敏性會對上一個特異性，因此把所有可能的連起來得到的就是ROC曲線了。

圖來源: https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF
X軸為1-特異度(1-Specificity)，Y軸為敏感度(Sensitivity)

ROC曲線解讀方式，會以對角線為基準，若是算出來的ROC曲線等於對角線的話，代表你的模型完全沒有鑑別性(簡單說你的模型就沒啥屁用，回去重新training)，若ROC往左上角移動，代表模型對疾病的敏感度越高(偽陽性率(1-Specificity)越低)，代表模型的鑑別力越好。

一般在判別檢驗工具的好壞時，除了看曲線的圖形之外，也可以利用曲線下的面積(Area Under Curve; AUC)來判別ROC曲線的鑑別力，AUC數值的範圍從0到1，數值愈大愈好。以下為AUC數值一般的判別規則：
AUC=0.5 (no discrimination 無鑑別力)，ROC剛好是對角線。
0.7≦AUC≦0.8 (acceptable discrimination可接受的鑑別力)
0.8≦AUC≦0.9 (excellent discrimination優良的鑑別力)
0.9≦AUC≦1.0 (outstanding discrimination極佳的鑑別力)

所以AUC也可以當作比較不同模型之間比較的指標，AUC越大代表那個模型越好。

圖來源: https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF

多元分類(multiclass case)指標

多元混淆矩陣(Confusion matrix)

基本上在二元的混淆矩陣以經將該說的都說了，這邊還有比較特殊的指標。

我們先舉個三個類別的混淆矩陣，如果有玩過UCI資料庫的/機器學習課程的人，應該都知道鳶尾花分類的問題，假設我的預測模型是SVM，所以我得到下面這個這麼好的結果，只有在Iris-versicolor這類別分錯了兩個樣本。

多類別指標，基本上大概看三種，
第一種整體正確率/錯誤率
第二種單一類別的正確率/錯誤率
第三種看Cohen’s kappa coefficient (Kappa)。
從上表可以看到整體錯誤率(2/150=1.33%)和單一類別錯誤率怎麼算的，但我這邊沒有提到Cohen’s kappa coefficient。

Cohen’s kappa coefficient是一種統計量化指標，平衡類別之間正確性的一種指標，簡單說就是要把大者恆大的影響消除掉的指標。什麼意思呢，假設我們今天有分類結果如下:

第1類有1000個樣本，第二類只有20個，第三類只有50個，這時候只需要將資料都判給第1類，整體的正確率都很高/錯誤率很低，如果我們只看整體評估的指標，這時候只看整理正確率就會有問題，所以Kappa就是用來解決這件事情。

Kappa計算方式如下:

首先我們要先將混淆矩陣的元素除上整體的樣本數，得到的是百分比的混淆矩陣。
p0就是百分比混淆矩陣的對角線元素相加。
pc就是把把每類別(實際第i類別的總和乘上預測第i類別的總和)做加總。

所以這個時候Kappa只剩下-0.00016787，非常的差。

Note: Kappa是介於-1~1之間的數字，值正越大，代表模型越好。

回歸指標(Regression metrics)

回歸的部份比較沒有什麼好講的，因為回歸的指標通常都只看平均均方誤差(mean square error)，但如果是回歸的損失函數(loss function)那就很有趣，會有更多東西可以說，但這篇主要是說validation index，所以就不提損失函數的部份。

為什麼我說回歸沒什麼好講，主要原因是
「回歸是做預測一個連續的值，這時候我們只希望預測的值跟實際上的值越接近越好」
這是什麼意思呢?
假設我們做出一個模型預測小明的身高是180公分(ŷ)，實際上小明是160公分(y)，這時候的誤差是20公分，我們都會希望誤差越小越好，所以回歸基本上評估的指標都是基於「y-ŷ」
比如
1. 平均均方誤差(Mean Squared Error, MSE)