2 min readAug 29, 2019
因為我們只有證據(統計數據p<0.05)說有95%的信心說要”拒絕H0"或是”不拒絕H0",但是還有有5%會出錯。
絕對不太會有資料科學的人會說看著數據跟你說是「對」或「錯」。
我拿文章內的結果來和你說明一下(上圖),t值等於26.0457, p值算法是p198(x ≤ -26.0457)+ p198(x ≥ 26.0457)≈0
P值非常接近0,所以reject H0。
但今天你要再抽樣來驗證這個假設,結果好死不死你找到所有女生都是職業籃球隊員(或是女生走秀model),身高都比男生高。
這時候你就會說模型很爛,明明女生都比男生高。
這是後所謂5%的錯誤就是出現了。
但因為模型是基於母體(一般社會)抽樣的結果來做檢定,不適專門用來檢定女生籃球員之類的,所以你剛好抽到極端的案例,但這個情況還是有可能發生,所以我們絕對不是說 reject H0=說H0是錯的。
reject H0,白話是說統計證據說H0是錯的,所以拒絕。
not reject H0,白話是說統計證據說H0是對的,所以不拒絕。
很饒舌但一分證據說一分話。
PS: 研究上已經快捨棄p值這個指標了,如果你很常做統計分析,你會發現只要數據夠大很容易p<0.05。