這邊需要強調一點，數據量的差異不一定對決策有影響，可以查一下bias–variance…

1 min readAug 20, 2020

這邊需要強調一點，數據量的差異不一定對決策有影響，可以查一下bias–variance tradeoff。但為了避免這個問題，最簡單的方式就是增加資料量，因為一般認為增加資料量就可以增加資料變異，但實際上如果資料增加部分沒有考慮到全部的狀況，單方面增加某個區塊的資料，對決策也是一點幫助都沒有，比如說如果要做分辨成年男女性收入差異，結果我們一直增加18~22歲男性的資料，然後女生用30~50歲的資料，這樣的抽樣下對我們做決策一點幫助都沒有，所以決策部分不單是每個類別的數據量差異不能太大的問題，而是從資料的來源就要做好資料取得。

在MAP的likelihood是來自每個類別的資料分布，只有priori跟樣本數有關，所以如果要避免你提的問題(imbalance problem)，比如每一類有20筆資料，每一類有10000筆資料，最簡單的方法是忽略掉priori部分，當然imbalance problem有很多處理的手法。只要資料足夠資料不一定要大，但樣本資料的變異量要能夠表達母體變異量)進行不同類別之間數據表示的分布(likelihood)估計，就可以採用MAP。

Written by Tommy Huang

Responses (1)