Tommy Huang
2 min readAug 29, 2019

--

因為我們只有證據(統計數據p<0.05)說有95%的信心說要”拒絕H0"或是”不拒絕H0",但是還有有5%會出錯。
絕對不太會有資料科學的人會說看著數據跟你說是「對」或「錯」。

我拿文章內的結果來和你說明一下(上圖),t值等於26.0457, p值算法是p198(x ≤ -26.0457)+ p198(x ≥ 26.0457)≈0
P值非常接近0,所以reject H0。
但今天你要再抽樣來驗證這個假設,結果好死不死你找到所有女生都是職業籃球隊員(或是女生走秀model),身高都比男生高。
這時候你就會說模型很爛,明明女生都比男生高。
這是後所謂5%的錯誤就是出現了。

但因為模型是基於母體(一般社會)抽樣的結果來做檢定,不適專門用來檢定女生籃球員之類的,所以你剛好抽到極端的案例,但這個情況還是有可能發生,所以我們絕對不是說 reject H0=說H0是錯的。

reject H0,白話是說統計證據說H0是錯的,所以拒絕。
not reject H0,白話是說統計證據說H0是對的,所以不拒絕。

很饒舌但一分證據說一分話。

PS: 研究上已經快捨棄p值這個指標了,如果你很常做統計分析,你會發現只要數據夠大很容易p<0.05。

--

--

Tommy Huang
Tommy Huang

Written by Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com

Responses (1)