簡介:為什麼要抽樣?

你有沒有想過,民調機構如何只訪問幾千人,就能預測數百萬人的選舉結果?又或者,廚師只需試喝一勺湯,就能知道整鍋湯的鹹度是否適中?簡而言之,這就是抽樣(Sampling)

在 H2 數學中,我們學習抽樣是為了瞭解如何透過觀察一個較小的群體(樣本,Sample),來對一個龐大的群體(母體,Population)做出非常準確的「推測」。這不僅能節省時間和金錢,有時這也是唯一取得數據的方法,而無需損壞所有產品(例如:測試玻璃瓶在破裂前能承受多少壓力!)。

1. 基本概念:母體 vs 樣本

在深入探討數學之前,我們先釐清這些定義:

  • 母體(Population):你感興趣的所有對象或個體的總集合。(例如:新加坡所有的 H2 數學學生)。
  • 樣本(Sample):從母體中選出,並實際進行測量的子集。(例如:從你學校挑選出的 50 名學生)。
  • 簡單隨機樣本(Simple Random Sample, SRS):一種樣本,其中母體的每一個成員都有相等機會被選中。就像是從一個充分攪拌過的罐子裡抽籤一樣。

你知道嗎? 如果樣本不是隨機的,它可能會產生偏差(Biased)。例如,如果你只在健身房詢問人們關於健康的看法,你的結果將無法代表整個國家!


2. 作為隨機變數的樣本平均值 \(\bar{X}\)

這部分很有趣。如果你抽取 10 個人的樣本並計算他們的平均身高,你會得到一個數值。如果你抽取另一個 10 人的樣本,你很可能會得到一個不同的平均身高。

由於樣本平均值的數值會隨著你選取的樣本而改變,我們將樣本平均值視為一個隨機變數(Random Variable),記作 \(\bar{X}\)。

\(\bar{X}\) 的關鍵性質:

如果母體的平均值為 \(\mu\) 且變異數為 \(\sigma^2\),那麼對於大小為 \(n\) 的樣本:

  1. 期望值(中心): \(E(\bar{X}) = \mu\)。
    解釋:平均來說,樣本平均值會等於母體平均值。
  2. 變異數(離散程度): \(Var(\bar{X}) = \frac{\sigma^2}{n}\)。
    解釋:當樣本大小 \(n\) 變大時,你的樣本平均值會變得更穩定(波動更小)。

記憶小撇步: 把 \(n\) 看作「資訊量」。你擁有的「資訊」(\(n\)) 越多,平均值中的「誤差」或「波動」就越少!


3. 樣本平均值的分配

\(\bar{X}\) 在圖表上看起來是什麼樣子?對於考試,你需要掌握兩種主要情境:

情境 A:母體本身已呈常態分配

如果母體遵循常態分配 \(N(\mu, \sigma^2)\),那麼無論樣本大小如何,\(\bar{X}\) 永遠會是常態分配。

公式: \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

情境 B:母體不是常態分配(中央極限定理)

這就是統計學的「魔力」所在!即使你的母體形狀很怪(偏態、平坦或凹凸不平),只要你的樣本大小足夠大,\(\bar{X}\) 的分配就會變得近似常態分配

經驗法則: 在 H2 課程大綱中,「足夠大」通常是指 \(n \ge 30\)

中央極限定理(CLT)指出:
若 \(n\) 夠大(\(n \ge 30\)),則 \(\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\)(近似於此分配)。

如果這看起來很難,別擔心! 只要記住:大的 \(n\) \(\rightarrow\) 平均值的常態分配。這就像一群混亂的人;個人行為是不可預測的,但作為一個大型群體,他們的平均行為會遵循一個可預測的模式。


4. 不偏估計量:處理真實數據

在現實世界中,我們通常不知道真正的母體平均值 (\(\mu\)) 或變異數 (\(\sigma^2\))。我們必須使用樣本數據來估計它們。

1. 估計母體平均值 (\(\mu\))

最好的估計量就是樣本平均值 \(\bar{x}\):

\(\mu \text{ 的不偏估計量} = \bar{x} = \frac{\sum x}{n}\)

2. 估計母體變異數 (\(\sigma^2\))

這是一個常見的陷阱!你可能會認為直接使用樣本變異數公式即可,但為了獲得不偏(Unbiased)估計量(標記為 \(s^2\)),我們除以的是 \(n-1\) 而不是 \(n\)。

公式:
\(s^2 = \frac{1}{n-1} \left[ \sum x^2 - \frac{(\sum x)^2}{n} \right]\)

為什麼是 \(n-1\)? 使用 \(n\) 通常會低估真實的離散程度。除以一個較小的數 (\(n-1\)) 可以修正這種「偏差」。我們稱之為母體變異數的不偏估計量


5. 處理已整理的數據

有時,考試題目不會給你一串原始數值,而是給你「已整理的數據」,例如 \(\sum (x-a)\) 或 \(\sum (x-a)^2\)。別慌!我們只需使用調整後的公式即可。

處理已整理數據的步驟:

如果你拿到 \(\sum (x-a)\) 和 \(\sum (x-a)^2\):

  1. 找出「平移後」數據的平均值: \(\overline{x-a} = \frac{\sum (x-a)}{n}\)
  2. 找出實際的母體平均值估計量: \(\bar{x} = a + \overline{x-a}\)
  3. 找出母體變異數估計量 \(s^2\):
    \(s^2 = \frac{1}{n-1} \left[ \sum (x-a)^2 - \frac{(\sum (x-a))^2}{n} \right]\)

小貼士: 注意 \(a\) 的值不會改變變異數!變異數衡量的是離散程度,將整組數據向左或向右平移(即加上或減去 \(a\))並不會改變它們的散佈狀態。


常見錯誤提示

  • 混淆 \(\sigma^2\) 和 \(\frac{\sigma^2}{n}\): 當討論單個個體時使用 \(\sigma^2\)。當你討論一組數據的平均值時,使用 \(\frac{\sigma^2}{n}\)。
  • 忘記 "n-1": 務必檢查題目問的是「樣本變異數」(除以 \(n\))還是「母體變異數的不偏估計量」(除以 \(n-1\))。在抽樣中,我們幾乎總是使用 \(n-1\) 的版本。
  • CLT 的條件: 只有當原始母體常態分配且 \(n \ge 30\) 時,才調用中央極限定理。如果母體本身已經是常態分配,你就不需要 CLT!

重點總結

1. 樣本平均值 \(\bar{X}\) 是一個隨機變數,其平均值為 \(\mu\),變異數為 \(\frac{\sigma^2}{n}\)。
2. 中央極限定理: 若 \(n \ge 30\),無論母體形狀如何,\(\bar{X}\) 皆近似常態分配。
3. 不偏估計量: 使用 \(\bar{x}\) 來估計 \(\mu\),並使用除以 \(\frac{1}{n-1}\) 的公式來估計 \(\sigma^2\)。
4. 樣本數越大 (\(n\)),估計結果越可靠(變異數越小)。