1 min readJun 5, 2019
第一他定義就是算分散量,雖然我文章寫 “組內分散量很容易理解就是看自己組內的資料變異量是什麼。”但實際上是算分散量,不是真的算變異量,只是兩個差在"除上樣本數",這個從你問的問題你應該知道,我這邊再強調一次是怕看問題的其他人看不懂。
第二是回答你的問題,因為你看scatter matrix和covariance matrix只差一個scale(“除上樣本數”),但scatter matrix較能反應出outliers的影響,因為LDA要看的是資料"整體"分散量(全部樣本),所以在計算時不希望這個scale會影響到群跟群之間單一個群體分散量的計算,尤其是當兩群的樣本數比例差很多。covariance matrix是算資料平均分散量 (outliers很容易被平均掉),可以想像covariance matrix只剩下一個樣本的值。
這論點是我自己的見解不一定正確。