Sampling - Mathematics (9758) - GCE A-Level - Higher 2 (H2)

簡介：為什麼要抽樣？

你有沒有想過，民調機構如何只訪問幾千人，就能預測數百萬人的選舉結果？又或者，廚師只需試喝一勺湯，就能知道整鍋湯的鹹度是否適中？簡而言之，這就是抽樣（Sampling）！

在 H2 數學中，我們學習抽樣是為了瞭解如何透過觀察一個較小的群體（樣本，Sample），來對一個龐大的群體（母體，Population）做出非常準確的「推測」。這不僅能節省時間和金錢，有時這也是唯一取得數據的方法，而無需損壞所有產品（例如：測試玻璃瓶在破裂前能承受多少壓力！）。

1. 基本概念：母體 vs 樣本

在深入探討數學之前，我們先釐清這些定義：

母體（Population）：你感興趣的所有對象或個體的總集合。（例如：新加坡所有的 H2 數學學生）。
樣本（Sample）：從母體中選出，並實際進行測量的子集。（例如：從你學校挑選出的 50 名學生）。
簡單隨機樣本（Simple Random Sample, SRS）：一種樣本，其中母體的每一個成員都有相等機會被選中。就像是從一個充分攪拌過的罐子裡抽籤一樣。

你知道嗎？ 如果樣本不是隨機的，它可能會產生偏差（Biased）。例如，如果你只在健身房詢問人們關於健康的看法，你的結果將無法代表整個國家！

2. 作為隨機變數的樣本平均值 \(\bar{X}\)

這部分很有趣。如果你抽取 10 個人的樣本並計算他們的平均身高，你會得到一個數值。如果你抽取另一個 10 人的樣本，你很可能會得到一個不同的平均身高。

由於樣本平均值的數值會隨著你選取的樣本而改變，我們將樣本平均值視為一個隨機變數（Random Variable），記作 \(\bar{X}\)。

\(\bar{X}\) 的關鍵性質：

如果母體的平均值為 \(\mu\) 且變異數為 \(\sigma^2\)，那麼對於大小為 \(n\) 的樣本：

期望值（中心）： \(E(\bar{X}) = \mu\)。
解釋：平均來說，樣本平均值會等於母體平均值。
變異數（離散程度）： \(Var(\bar{X}) = \frac{\sigma^2}{n}\)。
解釋：當樣本大小 \(n\) 變大時，你的樣本平均值會變得更穩定（波動更小）。

記憶小撇步： 把 \(n\) 看作「資訊量」。你擁有的「資訊」(\(n\)) 越多，平均值中的「誤差」或「波動」就越少！

3. 樣本平均值的分配

\(\bar{X}\) 在圖表上看起來是什麼樣子？對於考試，你需要掌握兩種主要情境：

情境 A：母體本身已呈常態分配

如果母體遵循常態分配 \(N(\mu, \sigma^2)\)，那麼無論樣本大小如何，\(\bar{X}\) 永遠會是常態分配。

公式： \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

情境 B：母體不是常態分配（中央極限定理）

這就是統計學的「魔力」所在！即使你的母體形狀很怪（偏態、平坦或凹凸不平），只要你的樣本大小足夠大，\(\bar{X}\) 的分配就會變得近似常態分配。

經驗法則： 在 H2 課程大綱中，「足夠大」通常是指 \(n \ge 30\)。

中央極限定理（CLT）指出：
若 \(n\) 夠大（\(n \ge 30\)），則 \(\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\)（近似於此分配）。

如果這看起來很難，別擔心！ 只要記住：大的 \(n\) \(\rightarrow\) 平均值的常態分配。這就像一群混亂的人；個人行為是不可預測的，但作為一個大型群體，他們的平均行為會遵循一個可預測的模式。

4. 不偏估計量：處理真實數據

在現實世界中，我們通常不知道真正的母體平均值 (\(\mu\)) 或變異數 (\(\sigma^2\))。我們必須使用樣本數據來估計它們。

1. 估計母體平均值 (\(\mu\))

最好的估計量就是樣本平均值 \(\bar{x}\)：

\(\mu \text{ 的不偏估計量} = \bar{x} = \frac{\sum x}{n}\)

2. 估計母體變異數 (\(\sigma^2\))

這是一個常見的陷阱！你可能會認為直接使用樣本變異數公式即可，但為了獲得不偏（Unbiased）估計量（標記為 \(s^2\)），我們除以的是 \(n-1\) 而不是 \(n\)。

公式：
\(s^2 = \frac{1}{n-1} \left[ \sum x^2 - \frac{(\sum x)^2}{n} \right]\)

為什麼是 \(n-1\)？ 使用 \(n\) 通常會低估真實的離散程度。除以一個較小的數 (\(n-1\)) 可以修正這種「偏差」。我們稱之為母體變異數的不偏估計量。

5. 處理已整理的數據

有時，考試題目不會給你一串原始數值，而是給你「已整理的數據」，例如 \(\sum (x-a)\) 或 \(\sum (x-a)^2\)。別慌！我們只需使用調整後的公式即可。

處理已整理數據的步驟：

如果你拿到 \(\sum (x-a)\) 和 \(\sum (x-a)^2\)：

找出「平移後」數據的平均值： \(\overline{x-a} = \frac{\sum (x-a)}{n}\)
找出實際的母體平均值估計量： \(\bar{x} = a + \overline{x-a}\)
找出母體變異數估計量 \(s^2\)：
\(s^2 = \frac{1}{n-1} \left[ \sum (x-a)^2 - \frac{(\sum (x-a))^2}{n} \right]\)

小貼士： 注意 \(a\) 的值不會改變變異數！變異數衡量的是離散程度，將整組數據向左或向右平移（即加上或減去 \(a\)）並不會改變它們的散佈狀態。

常見錯誤提示

混淆 \(\sigma^2\) 和 \(\frac{\sigma^2}{n}\)： 當討論單個個體時使用 \(\sigma^2\)。當你討論一組數據的平均值時，使用 \(\frac{\sigma^2}{n}\)。
忘記 "n-1"： 務必檢查題目問的是「樣本變異數」（除以 \(n\)）還是「母體變異數的不偏估計量」（除以 \(n-1\)）。在抽樣中，我們幾乎總是使用 \(n-1\) 的版本。
CLT 的條件： 只有當原始母體非常態分配且 \(n \ge 30\) 時，才調用中央極限定理。如果母體本身已經是常態分配，你就不需要 CLT！

重點總結

1. 樣本平均值 \(\bar{X}\) 是一個隨機變數，其平均值為 \(\mu\)，變異數為 \(\frac{\sigma^2}{n}\)。
2. 中央極限定理： 若 \(n \ge 30\)，無論母體形狀如何，\(\bar{X}\) 皆近似常態分配。
3. 不偏估計量： 使用 \(\bar{x}\) 來估計 \(\mu\)，並使用除以 \(\frac{1}{n-1}\) 的公式來估計 \(\sigma^2\)。
4. 樣本數越大 (\(n\))，估計結果越可靠（變異數越小）。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。