因為我們只有證據(統計數據p<0.05)說有95%的信心說要”拒絕H0"或是”不拒絕H0"，但是還有有5%會出錯。 絕對不太會有資料科學的人會說看著數據跟你說是「對」或「錯」。

2 min readAug 29, 2019

因為我們只有證據(統計數據p<0.05)說有95%的信心說要”拒絕H0"或是”不拒絕H0"，但是還有有5%會出錯。
絕對不太會有資料科學的人會說看著數據跟你說是「對」或「錯」。

我拿文章內的結果來和你說明一下(上圖)，t值等於26.0457， p值算法是p198(x ≤ -26.0457)+ p198(x ≥ 26.0457)≈0
P值非常接近0，所以reject H0。
但今天你要再抽樣來驗證這個假設，結果好死不死你找到所有女生都是職業籃球隊員(或是女生走秀model)，身高都比男生高。
這時候你就會說模型很爛，明明女生都比男生高。
這是後所謂5%的錯誤就是出現了。

但因為模型是基於母體(一般社會)抽樣的結果來做檢定，不適專門用來檢定女生籃球員之類的，所以你剛好抽到極端的案例，但這個情況還是有可能發生，所以我們絕對不是說 reject H0=說H0是錯的。

reject H0，白話是說統計證據說H0是錯的，所以拒絕。
not reject H0，白話是說統計證據說H0是對的，所以不拒絕。

很饒舌但一分證據說一分話。

PS: 研究上已經快捨棄p值這個指標了，如果你很常做統計分析，你會發現只要數據夠大很容易p<0.05。

Written by Tommy Huang

Responses (1)