統計學:大家都喜歡問的系列-要抽多少樣本才夠做統計

Tommy Huang
4 min readJun 6, 2018

--

這邊我只針對良率部份來說,要抽多少樣本,可以達到統計意義。

開始之前我們需要先知道什麼是信賴區間?

什麼是信賴區間?

白話說就是你有一批貨要出貨,但你不可能全部都檢驗,所以從中抽出的一批量的樣本,結果算出不良率是0.5%,然後用一堆看不懂的公式,你就可以推出此批貨(母數)不良率可能是介於0.3~0.7%之間。也就是我有統計上的信心來說這整批貨最差狀況就是有0.7%的不良率,最好就是只有0.3%不良率。

信賴區間(Confidence interval)公式

CI(α): α信心程度下信賴區間 (從已知參數推估出來)
p: 不良率 (已知)
Zα/2: α信心程度下的Z分數(相差幾個標準差)。(α=95% → Zα/2=1.96; α=99% → Zα/2=2.58)
ns: 樣本數 (已知)

Note:
這邊大家應該會好奇p(1-p)是什麼,如果有上過統計學,如果樣本是成功和失敗這種二元問題,會對應到伯努利分佈(Bernoulli distribution),其機率密度函數(probability density function, pdf)為

p(1-p)其實就是伯努利分佈的變異量(variance)。

抽樣本數要多少?

這個時候問題就來了,我們是否可以推論出,如果要達成統計上的依據,那需要從裡面抽多少樣本出來檢查,答案是可以,廢話不然怎麼有這篇。

從上面信賴區間公式來看,我們由不良率(p)、樣本數(ns)和Zα/2可以算出α信心程度下信賴區間(CI(α))。
信賴區間部份是推估誤差範圍,如果推估要抽多少樣本部份,跟信賴區間不太一樣。
我們要反其道而行,我們要先假設
1. 信賴水準 (Zα/2)
2. 我們可以容忍的誤差範圍(ε)
3. 母體資料的變異程度
然後在去推估樣本數。

經由推導

但上面提了一堆,都沒有提到母體數知道的狀況下是否有差別。
根據此網頁貼出的Dillman於2000年提出的公式

網頁貼的是公式是

這裡的B=ε, C= Zα/2

哇靠怎麼這麼複雜,而且跟我上面寫的不太一樣,那是因為這個公式有做「有限母體數的修正」。np就是母體數。

有限母體數的修正公式如下:

這個時候推出來的ns因為在已知母體數的狀態下,只用樣本推估可能會有一點bias,所以需要做一些修正,上式的分母永遠大於1,所以修正後的樣本數都會比母體數未知的狀態在少一點。這是為什麼哩?因為沒有修正推估出的樣本數是基於中央極限定理(母體樣本趨近無窮大),所以修正後的公式分母基本上等於1。

廢話不多說,馬上來看一下上述公式怎麼推到網頁跑出來很畸形的公式,

網頁貼的公式是不是長一樣。

Note:
跟前面不太一樣,這邊的p不是不良率,因為我們還沒有抽樣,也不知道不良率是多少,所以主要可以借由pilot study或是其他資源(過去經驗)去設定為多少,一般在不知情狀況下都設為0.5。

所以如果你知道你總出貨量為1,000,000片或是1,000片下,容忍誤差假設是0.03,p設定為0.5,在95%信心水準下。
抽樣數為

--

--

Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com