Tommy Huang
1 min readAug 20, 2020

--

這邊需要強調一點,數據量的差異不一定對決策有影響,可以查一下bias–variance tradeoff。但為了避免這個問題,最簡單的方式就是增加資料量,因為一般認為增加資料量就可以增加資料變異,但實際上如果資料增加部分沒有考慮到全部的狀況,單方面增加某個區塊的資料,對決策也是一點幫助都沒有,比如說 如果要做分辨成年男女性收入差異,結果我們一直增加18~22歲男性的資料,然後女生用30~50歲的資料,這樣的抽樣下對我們做決策一點幫助都沒有,所以決策部分不單是每個類別的數據量差異不能太大的問題,而是從資料的來源就要做好資料取得。

在MAP的likelihood是來自每個類別的資料分布,只有priori跟樣本數有關,所以如果要避免你提的問題(imbalance problem),比如每一類有20筆資料,每一類有10000筆資料,最簡單的方法是忽略掉priori部分,當然imbalance problem有很多處理的手法。只要資料足夠資料不一定要大,但樣本資料的變異量要能夠表達母體變異量)進行不同類別之間數據表示的分布(likelihood)估計,就可以採用MAP。

--

--

Tommy Huang
Tommy Huang

Written by Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com

Responses (1)