機器學習-支撐向量機(support vector machine, SVM)詳細推導

7 min readMar 16, 2018

Note: 我這篇沒有寫到SVM怎麼用kernel trick處理非線性問題，相關kernel內容可以看「機器學習: Kernel 函數」，兩篇內容稍微整合理解一下，應該很容易做到kernel SVM的推導。

SVM是一種監督式的學習方法，用統計風險最小化的原則來估計一個分類的超平面(hyperplane)，其基礎的概念非常簡單，就是找到一個決策邊界(decision boundary)讓兩類之間的邊界(margins)最大化，使其可以完美區隔開來。

以下用一個例子來說明要「如何只用身高體重就來判斷是男生還是女生」。e.g. 分類男生和女生兩類，特徵資料只有「身高」和「體重」。
這邊我先隨便舉男生有10組資料，女生也是10組資料。

所有分類的問題都是在找下圖紅色那條分類的線

不一定是直線，有可能是曲線，本範例只會提到直線部分，不同的演算法都是在不同的假設或是條件下去找那條分類的線。

比如說高斯分類器就是在利用兩組資料的高斯機率分布/高斯概似函數(Gaussian likelihood function)，去判斷誰的後驗機率(posteriori probability)/概似函數值較大，就判給哪一類別。

SVM則是去假設有一個hyperplane(wTx+b=0)可以完美分割兩組資料，所以SVM就是在找參數(w和b) 讓兩組之間的距離最大化。

SVM數學式子

假設訓練資料為

以剛剛範例為例，這邊的

在此我們先不考慮有「資料混在一起」的問題，也就是所以所有的資料都可以被完美分類(hard-margin SVM)。

因此數學將此必須滿足條件寫出來則是

所以SVM在找Optimal hyperplane就是希望區隔兩類之間的邊界(2/|w|)可以越大越好。

所以SVM的求解本身就是一個簡單的最佳化問題(在一些條件下，希望兩類的邊界距離越大越好)，轉換成數學公式如下:

(如果有修過最佳化理論的人，針對上式子應該很有感觸，上了一學期的課程終於知道最佳化理論用在哪裡了。)

當然真實的資料不太可能有可以完美分類的案子，因此我們在training 的時候可以容忍一些data落到邊界之內(下圖範例)，此類的SVM稱為soft-margin SVM。

因為hard-margin SVM推導跟soft-margin SVM推導差不多，所以以下都會以soft-margin SVM為推導範例。至於SVM的強大是因為kernel function的關係，讓SVM可以從線性分類轉換到非線性分類上，但因為本文章偏重在SVM本身的推導，所以kernel method則不會在此說明。