Sampling and estimation - Mathematics (9709) - Cambridge International AS Level

歡迎來到抽樣與估計！

你有沒有想過，新聞台如何在所有選票點算完畢之前，就能預測選舉結果？或者燈泡工廠如何在不燒壞每一個燈泡的情況下，知道它們的使用壽命有多長？答案就是抽樣與估計 (Sampling and Estimation)！在這個章節中，我們將學習如何透過觀察一小群數據（樣本，sample）來對龐大的群體（母體，population）做出精明的猜測。如果一開始覺得這些概念有點抽象也不用擔心，我們會循序漸進地帶你拆解！

1. 母體與樣本：宏觀視角

在深入數學運算之前，我們先釐清一些基本定義。

• 母體 (Population)：你感興趣的整個群體（例如：全球所有應考 Cambridge A-Levels 的學生）。

• 樣本 (Sample)：從該母體中選出的一小部分（例如：你學校裡的 50 名學生）。

• 參數 (Parameter)：描述整個母體的數值（例如：所有人真實的平均身高）。通常我們是不知道這個數值的！

• 統計量 (Statistic)：從樣本計算出來的數值（例如：那 50 名學生的平均身高）。我們用它來估計母體參數。

比喻：想像一大鍋湯。整鍋湯就是母體。你舀了一匙來試味道——那一匙就是樣本。如果那匙湯太鹹，你就會估計整鍋湯都很鹹。

2. 不偏估計量 (Unbiased Estimators)

由於我們通常不知道母體平均數 \( \mu \) 或母體變異數 \( \sigma^2 \)，我們必須利用樣本數據進行估計。不偏估計量 (Unbiased estimator) 是一個公式，它在平均而言能給出準確的母體數值。

估計母體平均數 (\( \mu \))

估計母體平均數的最佳方法就是使用樣本平均數 \( \bar{x} \)。它是 \( \mu \) 的一個不偏估計量。
公式： \( \bar{x} = \frac{\sum x}{n} \)

估計母體變異數 (\( \sigma^2 \))

這裡稍微有點複雜！如果你只使用之前學過的標準變異數公式（除以 \( n \)），通常會低估真實的母體變異數。為了修正這一點並使其成為「不偏」的，我們改為除以 \( n-1 \)。我們將這個不偏估計量稱為 \( s^2 \) 或 \( \hat{\sigma}^2 \)。

不偏變異數公式：
\( s^2 = \frac{1}{n-1} \left( \sum x^2 - \frac{(\sum x)^2}{n} \right) \)

快速複習：
• 估計平均數：除以 \( n \)。
• 估計變異數：除以 \( n-1 \)。
• 常見錯誤：在計算變異數估計值時，忘記從分母中減去 1！

3. 中央極限定理 (CLT)

這是統計學中「神奇」的部分。想像你從母體中抽取許多不同的樣本，並計算每個樣本的平均數。這些樣本平均數會形成它們自己的分佈，稱為平均數的抽樣分佈 (Sampling Distribution of the Mean)。

規則： 如果你的母體平均數為 \( \mu \)，變異數為 \( \sigma^2 \)，那麼樣本平均數 \( \bar{X} \) 的分佈將會有：
1. 相同的平均數： \( E(\bar{X}) = \mu \)
2. 較小的變異數： \( Var(\bar{X}) = \frac{\sigma^2}{n} \)

如果母體不是常態分佈呢？

這就是中央極限定理 (Central Limit Theorem, CLT) 大顯身手的時候了。即使原始母體的分佈形狀像個「U」、「J」，或是完全不規則，只要樣本數 \( n \) 足夠大（通常 \( n \ge 30 \)），樣本平均數的分佈就會自動呈現常態分佈 (Normal Distribution)！

核心重點： 當 \( n \) 很大時， \( \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \)。

你知道嗎？ 樣本數越大，平均數的分佈就會變得越窄、越高。這代表更大的樣本能提供更可靠的估計！

4. 母體平均數的置信區間 (Confidence Intervals)

與其只給出一個單一數字作為估計（例如「平均值是 50」），通常給出一個範圍會更好（例如「我有 95% 的把握平均值在 48 到 52 之間」）。這個範圍稱為置信區間 (Confidence Interval, C.I.)。

如何計算置信區間

置信區間的公式為：
\( \bar{x} \pm z \times \frac{\sigma}{\sqrt{n}} \)

計算步驟：
1. 找出樣本平均數 (\( \bar{x} \))。
2. 確認母體標準差 (\( \sigma \))。如果你不知道，請使用不偏估計量 \( s \)。
3. 根據置信水平選擇你的「臨界值」(Critical Value, \( z \))：
• 95% 置信區間，使用 \( z = 1.96 \)
• 99% 置信區間，使用 \( z = 2.576 \)
4. 計算「標準誤」(Standard Error)： \( \frac{\sigma}{\sqrt{n}} \)。
5. 將 \( z \) 乘以標準誤得到「誤差範圍」(Margin of Error)。
6. 將此值從 \( \bar{x} \) 中加減，即可得到區間。

範例： 若 \( \bar{x} = 100 \)， \( \sigma = 15 \)， \( n = 36 \)，我們想要 95% 的置信區間：
標準誤 = \( 15 / \sqrt{36} = 2.5 \)
誤差範圍 = \( 1.96 \times 2.5 = 4.9 \)
區間 = \( (100 - 4.9) \) 到 \( (100 + 4.9) = [95.1, 104.9] \)。

重要提示： 如果樣本數增加，區間的寬度會減少（精確度更高）。如果置信水平增加（例如從 95% 增加到 99%），區間的寬度會增加（你需要更大的範圍來確保準確性）。

5. 比例的置信區間

有時我們測量的不是數值（如身高），而是比例 (Proportion)（如喜歡朱古力的人數比例）。我們稱樣本比例為 \( p_s \) 或 \( \hat{p} \)。

公式：
\( \hat{p} \pm z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \)

這與平均數的區間計算方式完全相同，只是標準誤的公式不同！

快速複習箱：
• 平均數的標準誤： \( \frac{\sigma}{\sqrt{n}} \)
• 比例的標準誤： \( \sqrt{\frac{p(1-p)}{n}} \)
• 95% 置信度使用 \( z = 1.96 \)。
• 99% 置信度使用 \( z = 2.576 \)。

總結：避免常見陷阱

• 搞混 \( n \) 和 \( \sqrt{n} \)：務必記得在誤差公式的分母中要對樣本數開平方根！
• 混淆 \( \sigma \) 和 \( \sigma^2 \)：仔細閱讀題目，確認給出的是標準差還是變異數。
• 不必要時強行使用 CLT：如果母體本身已經是常態分佈，那麼對於任何樣本大小，\( \bar{X} \) 都是常態分佈。如果母體不是常態分佈，你必須滿足 \( n \ge 30 \) 才能使用常態分佈公式。

你已經完成了抽樣與估計的學習筆記！ 深呼吸一下。先練習不偏變異數的計算，然後再深入了解中央極限定理的「魔法」。你一定做得到的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。