第一他定義就是算分散量，雖然我文章寫…

1 min readJun 5, 2019

第一他定義就是算分散量，雖然我文章寫 “組內分散量很容易理解就是看自己組內的資料變異量是什麼。”但實際上是算分散量，不是真的算變異量，只是兩個差在"除上樣本數"，這個從你問的問題你應該知道，我這邊再強調一次是怕看問題的其他人看不懂。

第二是回答你的問題，因為你看scatter matrix和covariance matrix只差一個scale(“除上樣本數”)，但scatter matrix較能反應出outliers的影響，因為LDA要看的是資料"整體"分散量(全部樣本)，所以在計算時不希望這個scale會影響到群跟群之間單一個群體分散量的計算，尤其是當兩群的樣本數比例差很多。covariance matrix是算資料平均分散量 (outliers很容易被平均掉)，可以想像covariance matrix只剩下一個樣本的值。
這論點是我自己的見解不一定正確。

Written by Tommy Huang

No responses yet