機器學習介紹

Tommy Huang
5 min readFeb 9, 2018

--

機器學習(Machine Learning)的應用非常的廣泛,例如;推薦引擎、天氣預測、人臉辨識、指紋辨識、車牌辨識、醫學診斷輔助、測謊、證卷分析、語音處理…等。

機器學習架構

機器學習是透過演算法將收集到的資料進行分類或預測模型訓練,在未來中,當得到新的資料時,可以透過訓練出的模型進行預測。

[類來預測]打錯了,應該是[未來預測],懶得改圖,請見諒。

由上敘述得知,機器學習是「將收到的資料進行特徵的擷取」,然後再進行演算法處理得到所需要模型,因此在大部分的機器學習演算法介紹中都會先釐清一件事情何謂收到的資料。

範例1: 如何分辨「男生或女生」,直覺上第一件事情是看外貌(包含頭髮長度、身高、體重等),因此對分辨男生女生時,我們所需要的資料則為男生和女生的頭髮長度、身高、和體重等特徵。

範例2: 體脂肪預測,一般而言,我們都會直覺體脂肪和體重腰圍相關,是否可以直接用一些人類身體指標(「脖圍」、「體重」、「腰圍」、「胸圍」等特徵)即可以直接預測體脂肪。因此所需要的資料則為「脖圍」、「體重」、「腰圍」、「胸圍」等。

當然這兩個例子都是非常簡單的機器學習範疇,這些所需要的資料都是可以清楚被量測出來,不需要再額外做處理的。

但實際應用特徵資料則不可能這麼容易被描述,例如:腦波生理訊號或是心電圖訊號,這些訊號皆為時間序列,可能一秒鐘有500的data point甚至更高;或是語音資料每一秒鐘可能高達好幾萬的data point;或是人臉辨識,有非常高的變化性(Variety)。因此在這些資料都需要其他的方式將這些轉換成所需要的特徵資料(feature),例如生理訊號可以用時域轉頻譜轉換(time-frequency transformation)方式得到訊號特性。這邊不在此多做介紹,因為這些訊號處理的內容都可以再開一門課來說明。

將上述做個整理,機器學習的資料在模型訓練過程中是由特徵資料(feature)和真實類別(Ground truth/label)組成:

特徵資料(feature): 例如身高、體重、腰圍、胸圍…等。

真實類別(Ground truth/label): 資料對應的結果,如性別(男生/女生)、體脂肪率。

機器學習方法粗略可分為

1.監督式學習(Supervised Learning)

”Right answer given” → Regression and Classification

依據應用方面可以在方為分類(Classification)以及回歸(Regression)。

監督式分類(Supervised Classification): 參數型分類(parameter-based classification)和非參數型分類(non-parameter-based classification)

參數型: 高斯分類器(Gaussian Classifier)、邏輯迴歸分析(logistic regression) 或是支撐向量機(Support Vector Machine) 、感知器(Perceptron)。

非參數型: K最鄰近法(K-nearest neighbors)。

監督式回歸(Supervised Regression): 線性回歸(Linear Regression)、支撐向量回歸(Support Vector Regression)

2. 非監督式學習(Un-supervised learning)

”No right answer given” → Clustering

主要是叢集分析(Clustering Analysis): k平均群聚法(k-means)、模糊f平均法(fuzzy c-means)、高斯混和模型(Gaussian Mixture Model)

3. Semi-supervised learning:

“partial right answer given, and partial no right answer given” → Regression, Classification, and Clustering

4. Reinforcement learning: AlphaGo (DeepMind), Dota2 (OpenAI)

此部份研究是讓機器能自動學習。

5. Dimensionality reduction:

Hughes phenomenon (The curse of dimensionality)→Feature extraction/selection

主成分分析(Principle Component Analysis, PCA)、 線性區別分析(Linear discriminant analysis Feature Extraction, DAFE)

5. Others: Activity Learning/Transfer Learning (mostly used in deep learning)

機器學習方法當然不只有這些,上述介紹的方法為現今較為常見的方法。現今比較夯的方法是深度學習(Deep Learning, DL),深度學習為機器學習中的一個subset,現在網路相關介紹已經比傳統方法多很多,之後會在打相關介紹。

--

--

Tommy Huang
Tommy Huang

Written by Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com

No responses yet