機器學習的統計基礎:深度學習背後的核心技術

Tommy Huang
Nov 10, 2021

--

點進來的朋友,不好意思,這一篇文章絕對是業配文。
小弟2021/11/15要推出的書「機器學習的統計基礎:深度學習背後的核心技術」,出版社為旗標科技

  • 出版日期:2021/11/15
  • 語言:繁體中文
  • 定價:680元

本書購買連結:
天瓏網路預購: https://www.tenlong.com.tw/products/9789863126744?list_name=lv
博客來書局: https://www.books.com.tw/products/0010907137

內容typing error或是圖片有錯誤,都有放到hackmd的讀者天地內

例如:

去年(2020)三月收到旗標的邀約,當時候手邊好像不太忙,且疫情(COVID-19)剛開始,假日也不能出去,就答應了下來,大概到年底此書的全部內容才完成,中間也跟小編來回修改滿多次。今年開始編輯後也是修改了滿多次內容。
寫這本書真的累,寫書跟寫Blog完全不同,寫Blog是自己爽就好了。

這本書基本上我是根據這十幾年來在機器學習研究發表、指導學弟妹、帶學生、論文審查和專案開發的演算法經驗,寫出一些基礎相關的統計/機器學習需要的一些知識。

本書一共有14章,分別為

第 1 章 機器與深度學習常用的數學基礎

第 2 章 機器學習相關機率論

第 3 章 機器學習常用的統計學(一)

第 4 章 機器學習常用的統計學(二)

第 5 章 機器學習常用的資料處理方式

第 6 章 機器與深度學習常用到的基礎理論

第 7 章 迴歸分析Regression

第 8 章 分類Classification

第 9 章 統計降維法Dimension Reduction

第 10 章 類神經網路Artificial Neural Network

第 11 章 梯度下降法Gradient Descent

第 12 章 倒傳遞學習法Backpropagation

第 13 章 參數常規化 Parameter Regularization

第 14 章 模型評估Model Validation

前六章比較偏向基礎知識,觀念打底好,後續算法都比較容易上手。

第 1 章機器與深度學習常用的數學基礎:
介紹機器學習常用的線性代數和微積分相關運算,因為在學習AI相關真的不用整本微積分都搞懂。

第 2 章 機器學習相關機率論:
介紹基礎機率論和機器學習中最重要的條件機率,條件機率在AI發展上佔有非常重要的成分,如果有做強化學習(Reinforcement Learning,RL)相關的會更有感,RL幾乎都是條件機率。

第 3 章 機器學習常用的統計學(一):
介紹常看到的資料型態(結構資料、非結構資料等)和一些基礎的統計量(在資料科學上常用來做feature representation,描繪資料分布的統計特徵)。

第 4 章 機器學習常用的統計學(二):
此章節內容最重要,幾乎是統計學的核心,包含母體樣本的關係、信賴區間是什麼、常態分佈的區間估計、自由度是什麼、t分布與t值以及怎麼算出常聽到的p-value、還有最常問的抽樣數的選擇、以及假設檢定怎麼做。
假設檢定部分跟出版社商量後,為了避免混淆,我在本書寫的是單母體假設檢定,雙母體假設檢定請參照我之前寫的Medium文章「統計學:大家都喜歡問的系列-p值是什麼」,裡面在做的就是雙母體假設檢定。

第 5 章 機器學習常用的資料處理方式:
介紹資料相關的值域轉換和正規化方式,與類別變數用到的編碼方法。

第 6 章 機器與深度學習常用到的基礎理論:
此部分非常重要,在機器/深度學習不外乎會用到的核心概念都在此章節。

後六章節偏向講述機器學習相關的學習方法。

第6–9章講述回歸、統計分類方法和統計降維度,在這幾章節的介紹讀者應該可以看到前面基礎知識如何應用在機器學習方法上。

第10–12章節主要講述神經網路相關的內容,包含forward和backward以及梯度找解等,我在書中也列出手算範例,從手算的過程中可以更清楚知道運作原理。

第 13 章 參數常規化(Parameter Regularization):
這部分可以搭配回歸分析,衍生出LASSO和脊回歸等,當然在深度學習用到的weight decay是一樣的東西,但在機器學習演算法上常常因為Parameter Regularization的加入,就提出一篇論文,所以會衍生出太多演算法名稱,但概念就只是增加參數的penalty避免參數overfitting。

第 14 章 模型評估:
這部分主要介紹評估模型的好壞的指標,包含二元分類、多類別分類和回歸。裡面也有範例說明什麼指標適合什麼case使用。最後就是交叉驗證的介紹,用來做如何選取模型參數與模型評估。

我不敢說我這本寫的是最好的,但我在此書中的演算法都會有範例和手算的方式說明如何進行演算法的訓練和Inference,並非直接call模組的API來進行,所以對於想了解運作原理的讀者來說會非常有幫助。

下圖就是我節錄文章內容倒傳遞部分,如何從每一筆資料的結果(損失函數)推導到每一層梯度手算方式,感興趣的讀者可以買一本書來看看吧。

這邊我真的要在感謝旗標的小編和主編,他們真的超級用心,不是做者寫完就直接出版。旗標主編在這邊書出版的想法是至少主編都看得懂,所以我們來回也修了滿多次,包含整本書得架構和內容,小編也幫忙加了一些內容讓內文的架構更完整。最最最重要的是我手算範例,小編都會從新手算過一次,幫我找到很多計算錯誤的地方。

我真心推薦 旗標出版社 施威銘研究室 出品相關的書籍。

--

--

Tommy Huang
Tommy Huang

Written by Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com

Responses (3)