歡迎來到抽樣與估計!

你有沒有想過,新聞台如何在所有選票點算完畢之前,就能預測選舉結果?或者燈泡工廠如何在不燒壞每一個燈泡的情況下,知道它們的使用壽命有多長?答案就是抽樣與估計 (Sampling and Estimation)!在這個章節中,我們將學習如何透過觀察一小群數據(樣本,sample)來對龐大的群體(母體,population)做出精明的猜測。如果一開始覺得這些概念有點抽象也不用擔心,我們會循序漸進地帶你拆解!

1. 母體與樣本:宏觀視角

在深入數學運算之前,我們先釐清一些基本定義。

母體 (Population):你感興趣的整個群體(例如:全球所有應考 Cambridge A-Levels 的學生)。

樣本 (Sample):從該母體中選出的一小部分(例如:你學校裡的 50 名學生)。

參數 (Parameter):描述整個母體的數值(例如:所有人真實的平均身高)。通常我們是不知道這個數值的!

統計量 (Statistic):從樣本計算出來的數值(例如:那 50 名學生的平均身高)。我們用它來估計母體參數。

比喻:想像一大鍋湯。整鍋湯就是母體。你舀了一匙來試味道——那一匙就是樣本。如果那匙湯太鹹,你就會估計整鍋湯都很鹹。

2. 不偏估計量 (Unbiased Estimators)

由於我們通常不知道母體平均數 \( \mu \) 或母體變異數 \( \sigma^2 \),我們必須利用樣本數據進行估計。不偏估計量 (Unbiased estimator) 是一個公式,它在平均而言能給出準確的母體數值。

估計母體平均數 (\( \mu \))

估計母體平均數的最佳方法就是使用樣本平均數 \( \bar{x} \)。它是 \( \mu \) 的一個不偏估計量。
公式: \( \bar{x} = \frac{\sum x}{n} \)

估計母體變異數 (\( \sigma^2 \))

這裡稍微有點複雜!如果你只使用之前學過的標準變異數公式(除以 \( n \)),通常會低估真實的母體變異數。為了修正這一點並使其成為「不偏」的,我們改為除以 \( n-1 \)。我們將這個不偏估計量稱為 \( s^2 \) 或 \( \hat{\sigma}^2 \)。

不偏變異數公式:
\( s^2 = \frac{1}{n-1} \left( \sum x^2 - \frac{(\sum x)^2}{n} \right) \)

快速複習:
• 估計平均數:除以 \( n \)。
• 估計變異數:除以 \( n-1 \)。
常見錯誤:在計算變異數估計值時,忘記從分母中減去 1!

3. 中央極限定理 (CLT)

這是統計學中「神奇」的部分。想像你從母體中抽取許多不同的樣本,並計算每個樣本的平均數。這些樣本平均數會形成它們自己的分佈,稱為平均數的抽樣分佈 (Sampling Distribution of the Mean)

規則: 如果你的母體平均數為 \( \mu \),變異數為 \( \sigma^2 \),那麼樣本平均數 \( \bar{X} \) 的分佈將會有:
1. 相同的平均數: \( E(\bar{X}) = \mu \)
2. 較小的變異數: \( Var(\bar{X}) = \frac{\sigma^2}{n} \)

如果母體不是常態分佈呢?

這就是中央極限定理 (Central Limit Theorem, CLT) 大顯身手的時候了。即使原始母體的分佈形狀像個「U」、「J」,或是完全不規則,只要樣本數 \( n \) 足夠大(通常 \( n \ge 30 \)),樣本平均數的分佈就會自動呈現常態分佈 (Normal Distribution)

核心重點: 當 \( n \) 很大時, \( \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \)。

你知道嗎? 樣本數越大,平均數的分佈就會變得越窄、越高。這代表更大的樣本能提供更可靠的估計!

4. 母體平均數的置信區間 (Confidence Intervals)

與其只給出一個單一數字作為估計(例如「平均值是 50」),通常給出一個範圍會更好(例如「我有 95% 的把握平均值在 48 到 52 之間」)。這個範圍稱為置信區間 (Confidence Interval, C.I.)

如何計算置信區間

置信區間的公式為:
\( \bar{x} \pm z \times \frac{\sigma}{\sqrt{n}} \)

計算步驟:
1. 找出樣本平均數 (\( \bar{x} \))。
2. 確認母體標準差 (\( \sigma \))。如果你不知道,請使用不偏估計量 \( s \)。
3. 根據置信水平選擇你的「臨界值」(Critical Value, \( z \)):
• 95% 置信區間,使用 \( z = 1.96 \)
• 99% 置信區間,使用 \( z = 2.576 \)
4. 計算「標準誤」(Standard Error): \( \frac{\sigma}{\sqrt{n}} \)。
5. 將 \( z \) 乘以標準誤得到「誤差範圍」(Margin of Error)。
6. 將此值從 \( \bar{x} \) 中加減,即可得到區間。

範例: 若 \( \bar{x} = 100 \), \( \sigma = 15 \), \( n = 36 \),我們想要 95% 的置信區間:
標準誤 = \( 15 / \sqrt{36} = 2.5 \)
誤差範圍 = \( 1.96 \times 2.5 = 4.9 \)
區間 = \( (100 - 4.9) \) 到 \( (100 + 4.9) = [95.1, 104.9] \)。

重要提示: 如果樣本數增加,區間的寬度會減少(精確度更高)。如果置信水平增加(例如從 95% 增加到 99%),區間的寬度會增加(你需要更大的範圍來確保準確性)。

5. 比例的置信區間

有時我們測量的不是數值(如身高),而是比例 (Proportion)(如喜歡朱古力的人數比例)。我們稱樣本比例為 \( p_s \) 或 \( \hat{p} \)。

公式:
\( \hat{p} \pm z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \)

這與平均數的區間計算方式完全相同,只是標準誤的公式不同!

快速複習箱:
平均數的標準誤: \( \frac{\sigma}{\sqrt{n}} \)
比例的標準誤: \( \sqrt{\frac{p(1-p)}{n}} \)
• 95% 置信度使用 \( z = 1.96 \)。
• 99% 置信度使用 \( z = 2.576 \)。

總結:避免常見陷阱

搞混 \( n \) 和 \( \sqrt{n} \):務必記得在誤差公式的分母中要對樣本數開平方根!
混淆 \( \sigma \) 和 \( \sigma^2 \):仔細閱讀題目,確認給出的是標準差還是變異數。
不必要時強行使用 CLT:如果母體本身已經是常態分佈,那麼對於任何樣本大小,\( \bar{X} \) 都是常態分佈。如果母體不是常態分佈,你必須滿足 \( n \ge 30 \) 才能使用常態分佈公式。

你已經完成了抽樣與估計的學習筆記! 深呼吸一下。先練習不偏變異數的計算,然後再深入了解中央極限定理的「魔法」。你一定做得到的!