1 min readAug 20, 2020
這邊需要強調一點,數據量的差異不一定對決策有影響,可以查一下bias–variance tradeoff。但為了避免這個問題,最簡單的方式就是增加資料量,因為一般認為增加資料量就可以增加資料變異,但實際上如果資料增加部分沒有考慮到全部的狀況,單方面增加某個區塊的資料,對決策也是一點幫助都沒有,比如說 如果要做分辨成年男女性收入差異,結果我們一直增加18~22歲男性的資料,然後女生用30~50歲的資料,這樣的抽樣下對我們做決策一點幫助都沒有,所以決策部分不單是每個類別的數據量差異不能太大的問題,而是從資料的來源就要做好資料取得。
在MAP的likelihood是來自每個類別的資料分布,只有priori跟樣本數有關,所以如果要避免你提的問題(imbalance problem),比如每一類有20筆資料,每一類有10000筆資料,最簡單的方法是忽略掉priori部分,當然imbalance problem有很多處理的手法。只要資料足夠資料不一定要大,但樣本資料的變異量要能夠表達母體變異量)進行不同類別之間數據表示的分布(likelihood)估計,就可以採用MAP。