相關係數與共變異數(Correlation Coefficient and Covariance)

5 min readApr 4, 2018

[2019/11/18]相關文章: 「統計學: 皮爾森相關係數為什麼小於等於1」

一般說的相關係數通常是指「皮爾森相關係數(Pearson’s correlation coefficient)」，但當變數之間是順序尺度時用的則是「斯皮爾曼等級相關係數 (Spearman’s rank correlation coefficient)」，這邊重點不是要講當變數是順序尺度時的狀況，所以以下會以連續變數為主。

相關係數很常用在機器學習或是統計分析上使用，主要衡量兩變數間「線性」關聯性的高低程度。

探討兩個變數(或多變數)間是否存在「線性」關係: Correlation Coefficient

將線性關係以方程式表示: Linear Regression

什麼是線性關係和非線性關係?

下圖就是在舉兩個變數(Body fat和triceps skinfold thickness)，此兩變數呈現的就是線性關係，也就是兩個變數有高程度的相關，白話一點，三頭肌皮褶厚度越高代表的是體脂肪率越高

http://calcnet.mth.cmich.edu/org/spss/Prj_body_fat_data.htm

下圖舉的例子就是網路抓來的身高和體重的非線性關係。身高和體重的關係是曲線的反應，則是非線性關係，當然這只是一個例子，拋物線關係、S型曲線或是彎彎曲曲的線都算是非線性關係。

圖片來源:http://www.biodiversity-science.net/article/2016/1005-0094-24-3-304.html

皮爾森相關係數(Pearson’s correlation coefficient)

假設有兩個變數(xi, yi), i=1,…,n，一般網路看到的相關係數的公式定義如下:

correlation coefficient(ρ，有的時候會用r來表示)會落在-1到1之間: -1≤ρ≤1，μx和μy 分別代表變數x和y的平均數。

看公式會很沒有感覺，對於懂得人會覺得簡單，對於不懂的人會覺得是天書。

為什麼這樣設計會稱為相關係數勒，其實相關係數公式等於:

這邊共變異數、變異數都是除上(n-1)而不是n的原因是，只用少部分樣本在推論母體時因為偏量(bias)的關係，在推論時樣本推估會少一個自由度(謎之音:這是再說XXX)，這不重要想了解網路有很多自由度和為什麼要-1的解釋。
2018/10/29加入文章「統計學: 常態分布平均數估計與變異量估計以及為什麼樣本變異量分母要減1」，這邊有解釋為什麼樣本變異數估計n為什麼要減1。