抽樣簡介
歡迎來到抽樣 (Sampling) 這個章節!你有沒有想過,新聞頻道是如何在票數未完全點算完畢前就預測到選舉結果的?或者,廚師只需試喝一小勺湯,就能知道那一大鍋湯的調味是否準確?簡單來說,這就是抽樣的力量。
在本章中,我們將學習如何透過觀察群體中的一小部分(稱為樣本 (sample))來對整個群體(稱為總體 (population))做出聰明的推斷。這是統計學中一項基礎技能,能幫助我們高效地處理海量數據。
1. 總體與簡單隨機樣本
在進入數學運算之前,我們先釐清一些定義。這些概念是後續所有內容的基礎。
什麼是總體 (Population)?
總體是指我們感興趣研究的所有項目或個體的集合。例如,如果我們想知道學校學生的平均身高,那麼學校裡的每一個學生都是這個總體的一部分。
什麼是樣本 (Sample)?
樣本是總體的一個子集或一小部分。由於測量總體中的每一個人往往成本過高、過於耗時,甚至是不可能的,因此我們轉而採取抽樣。
簡單隨機樣本 (Simple Random Sample, SRS)
為了確保統計的公平性,總體中的每一個成員都必須有均等的機會被選中。這稱為簡單隨機樣本。想像一下從一個搖勻的帽子裡抽出名字的過程!
你知道嗎? 如果你品嚐湯的時候沒有先攪拌,你可能只會喝到浮在上面的奶油。在統計學中,「攪拌湯」就像是確保你的樣本真正具有隨機性和代表性!
重點總結:
總體是「整體」,而樣本是「部分」。樣本要具有參考價值,前提是它必須是隨機選取的。
2. 作為隨機變量的樣本平均數 (\(\bar{X}\))
這部分開始變得有趣了!假設你隨機抽取 10 名學生並計算他們的平均身高。然後,你的朋友抽取了另一個不同的 10 名學生樣本。你們算出的平均數會一樣嗎?很可能不會!
因為樣本平均數的值取決於樣本中包含了哪些具體個體,所以我們將樣本平均數 (\(\bar{X}\)) 視為一個隨機變量。
\(\bar{X}\) 的期望值與方差
雖然樣本平均數會變動,但它遵循一些非常明確的規則。如果原始總體的平均值為 \(\mu\),方差為 \(\sigma^2\):
1. 樣本平均數的期望值: \(E(\bar{X}) = \mu\)
(平均而言,你的樣本平均數會等於真實的總體平均值。)
2. 樣本平均數的方差: \(Var(\bar{X}) = \frac{\sigma^2}{n}\)
(當樣本容量 \(n\) 增大時,樣本平均數的「離散程度」或不確定性會減小。這很合理:樣本越大,結果越可靠!)
重點總結:
所有可能的樣本平均數之平均值等於總體平均值,但隨著樣本容量增加,這些平均數的離散程度會縮小。
3. 樣本平均數的分佈
我們如何得知 \(\bar{X}\) 分佈的「形狀」?這取決於總體本身。
情況 1:從常態分佈總體中抽樣
如果原始總體已經是常態分佈,表示為 \(X \sim N(\mu, \sigma^2)\),那麼無論樣本容量大小,樣本平均數總是呈現常態分佈。
我們寫作:\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
情況 2:中央極限定理 (Central Limit Theorem, CLT)
如果原始總體不是常態分佈怎麼辦?(或許它是偏態的,或者形狀很奇怪)。別擔心!這就是統計學「魔力」所在的地方。
中央極限定理指出,如果你的樣本容量 \(n\) 足夠大(通常 \(n \ge 30\)),那麼樣本平均數 \(\bar{X}\) 的分佈將會近似常態分佈,即使總體本身不是!
條件: \(n \ge 30\)
結果: \(\bar{X} \approx N(\mu, \frac{\sigma^2}{n})\)
類比: 想像有許多人拋灑一捧捧隨機顏色的沙子。即使個別沙粒是隨機散落的,但如果你拋灑得足夠多,它們往往會在中間形成一個漂亮、平滑的「鐘形曲線」堆疊。
快速複習:
- 若總體為常態分佈 \(\rightarrow \bar{X}\) 為常態分佈(任何 \(n\))。
- 若總體非常態分佈 \(\rightarrow\) 當 \(n \ge 30\) 時,\(\bar{X}\) 為近似常態分佈(中央極限定理)。
4. 總體參數的無偏估計
在現實世界中,我們通常不知道真實的總體平均值 (\(\mu\)) 或方差 (\(\sigma^2\))。我們必須使用樣本數據來估計它們。
總體平均值 (\(\mu\)) 的無偏估計
總體平均值的最佳估計就是你的樣本平均數。
\(\text{無偏估計 } \hat{\mu} = \bar{x} = \frac{\sum x}{n}\)
總體方差 (\(\sigma^2\)) 的無偏估計
這部分比較棘手!你可能會以為直接使用樣本方差公式即可,但這樣計算出的數值往往會低估真實的總體方差。為了修正這個問題,我們在分母中使用 \(n-1\) 而不是 \(n\)。我們稱這個無偏估計為 \(s^2\)。
原始數據公式:
\(s^2 = \frac{1}{n-1} \left( \sum x^2 - \frac{(\sum x)^2}{n} \right)\)
總結數據公式(使用常數 \(a\)):
有時考試會給你一組平移了數值 \(a\) 的數據。別慌!平移數據不會改變方差。請使用這個版本:
\(s^2 = \frac{1}{n-1} \left( \sum (x-a)^2 - \frac{(\sum (x-a))^2}{n} \right)\)
避免常見錯誤: 千萬別忘了 \(n-1\)!如果你除以 \(n\),你得到的是樣本方差。如果你除以 \(n-1\),你得到的是總體方差的無偏估計。對於 H1 數學來說,我們幾乎總是要求無偏估計!
重點總結:
為了正確估計總體方差,我們使用帶有 \(n-1\) 「修正因子」的 \(s^2\) 公式。
5. 總結與成功秘訣
抽樣可能感覺很抽象,但它其實就是利用資訊的小碎片來洞察大局。以下是解題的快速檢查清單:
- 識別總體: 它是常態分佈嗎?如果不是,\(n \ge 30\) 嗎?(如果是,使用中央極限定理 CLT)。
- 檢查方差: 題目給予的是總體方差 \(\sigma^2\),還是需要你計算無偏估計 \(s^2\)?
- 留意公式: 記住平均數的方差是 \(\frac{\sigma^2}{n}\)。人們常會忘記除以 \(n\)!
- 仔細閱讀題目: 題目問的是單個項目 (\(X\)) 的分佈,還是多個項目平均數 (\(\bar{X}\)) 的分佈?
如果起初覺得這些內容很複雜,別擔心!只要多加練習,辨別何時該用總體方差或樣本平均數的方差,這種感覺自然就會變得熟練。你一定做得到!