歡迎來到母體與樣本的世界!

你有沒有想過,民調機構是如何只透過訪問幾千人,就能預測整個選舉結果的?或者工廠如何知道一批餅乾是否完美,而不用把每一塊都吃掉?這就是抽樣 (Sampling) 的威力!在本章中,我們將學習如何從「整鍋湯」中撈出合適的「一匙」,以確保數據既準確、公平又實用。如果起初覺得定義很多,別擔心——一旦你領悟了當中的現實邏輯,一切就會豁然開朗。

1. 大局觀:母體 vs. 樣本

在深入探討「如何」抽樣之前,我們需要知道我們在「討論什麼」。在統計學中,我們有兩個非常重要的詞彙:

1. 母體 (Population):你感興趣的所有項目或人員的總體(例如:「英國所有的學生」)。
2. 樣本 (Sample):從母體中選出的較小群體(例如:「你學校裡的 50 名學生」)。

必須記住的關鍵術語:

參數 (Parameter):母體 (Population) 的數值屬性(例如:全英國所有人真實的平均身高)。
統計量 (Statistic):樣本 (Sample) 的數值屬性(例如:你測量的 50 名學生的平均身高)。我們使用統計量來估計參數。

快速記憶小撇步:
Population(母體)= Parameter(參數)
Sample(樣本)= Statistic(統計量)

重點溫習:
統計量僅是樣本數值的函數。它不應包含任何「未知」數值——它純粹基於你所收集的數據!


2. 什麼叫作「隨機」樣本?

在 Pearson Edexcel 課程大綱中,大小為 \(n\) 的隨機樣本 (Random sample) 必須滿足特定規則才算公平。要達到真正的隨機,必須符合:

● 母體中的每一名成員都有相等機會被選中。
● 所有大小為 \(n\) 的子集(群組)都必須有可能被選中。
● 每一個大小為 \(n\) 的可能樣本都必須有相等機會出現。

兩種抽樣方式:

1. 簡單隨機抽樣(不放回):一旦選中一個人,就不會把他們放回「帽子」裡。這是學校專題中最常見的方法。
2. 非限制隨機抽樣(放回):你選中某人,記錄數據,然後把他們「放回去」。這意味著理論上同一個人可能會被選中兩次!

如何獲取真正的隨機數字:

你不能只靠「想」出隨機數(人類其實很不擅長隨機!)。相反地,請使用:
隨機數表 (Random number tables):由機器生成的數字網格。
計算機:使用科學計算機上的 Ran#RanInt 功能。

關鍵收穫:隨機樣本是「黃金標準」,因為它有助於避免偏差 (Bias)(偏袒特定對象)。


3. 隨機抽樣技術

有時候,單純從帽子裡抽籤並不切實際。以下是你需要了解的常見隨機方法:

簡單隨機抽樣 (Simple Random Sampling)

為每個人分配一個號碼,然後由隨機數生成器選出獲勝者。
優點:完全無偏差;每位成員都有均等機會。
缺點:如果母體過於龐大(例如全世界),操作會非常困難。

系統抽樣 (Systematic Sampling)

隨機選定一個起點,然後每隔 \(k\) 個成員取樣一次(例如:列表中的每第 10 個人)。
例子:在生產線上檢測每第 50 個燈泡。
優點:非常簡單且快速。
缺點:如果列表本身存在「規律」,可能會導致偏差。

分層抽樣 (Stratified Sampling)

將母體分成不同的組別,稱為層 (Strata)(例如:中五和中六)。然後從每一層中進行隨機抽樣。
比例分層:如果中五的學生人數是中六的兩倍,你的樣本中中五的人數也應是中六的兩倍。這極具代表性!
非比例分層:你可能會從人數極少的組別中抽取更多人,以確保你有足夠的數據來分析他們。

整群抽樣 (Cluster Sampling)

將母體分為彼此相似的群組(群集,例如:鎮上的不同街道)。你隨機挑選幾個群集,並對其中的每個人進行取樣。
比喻:想像一盒 KitKat 朱古力,每一條都是一個「群集」。為了品嚐配方,你隨機選出兩整條,並吃掉那兩條裡的所有手指朱古力。


4. 非隨機抽樣技術

有時隨機抽樣是不可能或成本太高的。以下是替代方案:

判斷抽樣 (Judgmental Sampling)

研究人員利用個人的「專業判斷」來挑選樣本。
風險:極易產生偏差,因為它取決於單個人的主觀意見。

滾雪球抽樣 (Snowball Sampling)

你找到一個人,他們會「推薦」他們的朋友給你,然後那些朋友再推薦更多朋友。
你知道嗎?這通常用於難以接觸的群體。例如,如果你想研究非法藥物使用者或非常冷門的愛好者,你不會有名單。你會找到一個人,請他幫忙介紹其他人。

配額抽樣 (Quota Sampling)(一種非隨機抽樣)

類似分層抽樣,但你只需要出門找到足夠的人直到填滿「配額」(例如:「我需要 20 男 20 女」)。你不一定會隨機挑選;你可能只是在街上攔住看起來符合描述的人。

重點溫習:
隨機 (Random) = 不涉及人為選擇(由「帽子」決定)。
非隨機 (Non-Random) = 由人為選擇或客觀情況決定。


5. 選擇合適的方法與實際限制

在考試中,你可能會被問到研究人員為什麼選擇特定方法。請務必考慮以下三個限制因素:

1. 成本:去全國各地進行調查是否太昂貴?
2. 時間:我們是否需要即時結果(例如:選舉期間的出口民調)?
3. 抽樣框架 (Sampling Frame):我們是否有每個人的名單?如果沒有名單,就無法進行簡單隨機抽樣。

常見陷阱:

選擇偏差 (Selection Bias):如果你只在健身房抽樣,你不能聲稱結果代表「全鎮的健康狀況」。
無回應 (Non-Response):如果你發出了 100 份問卷,只有 5 個人回覆,這 5 個人可能持極端意見,這會破壞你的數據有效性。

範例場景:

市場調查:通常使用配額或分層抽樣,以確保能聽取不同年齡/性別群體的意見。
品質保證:通常在生產線上使用系統抽樣(每 100 件產品一件)。
出口民調:使用整群抽樣(挑選特定投票站)以在選舉日快速獲取結果。

關鍵收穫:沒有完美的抽樣方法。目標是選擇一種在成本與時間最低的前提下,能提供最少偏差的方法。


總結檢查表

● 我能解釋母體樣本的區別嗎?
● 我知道參數統計量的區別嗎?
● 我能列出隨機樣本的三個必要條件嗎?
● 我了解滾雪球抽樣的「特殊用途」嗎?
● 我能解釋為什麼分層抽樣通常比簡單隨機抽樣更具代表性嗎?

如果需要多讀幾遍,請不用擔心!抽樣的核心在於邏輯。只需不斷問自己:「如果我在現實中這樣做,這公平嗎?」