歡迎來到抽樣的世界!

你有沒有想過新聞頻道是如何在點算所有選票之前就預測選舉結果的?或者科學家如何在不捕捉北海每一條魚的情況下,得知鱈魚的平均長度?秘訣就在於抽樣(Sampling)。在本章中,我們將學習如何從一個群體中提取一個小「快照」,來了解整體的「大圖像」。如果統計學起初讓你覺得有點抽象,不用擔心——我們會運用大量現實生活中的例子,讓一切變得淺顯易懂!

1. 母體與樣本:大圖像與快照

在收集數據之前,我們需要明確定義我們所探討的對象。

關鍵術語

母體(Population):我們在特定調查中所感興趣的所有個體或項目的總集合。例子:目前就讀於你這所預科書院(Sixth-form college)的每一位學生。
樣本(Sample):特別從母體中挑選出來,供我們研究的較小群體。例子:從你的書院中隨機挑選出的 20 名學生。

湯的類比

想像你正在煮一大鍋蔬菜湯。母體就是鍋裡的每一滴湯。為了看它是否需要加鹽,你不會把整鍋湯喝掉(那會是普查(census)!)。相反,你會攪拌湯,然後舀起一勺。那一勺就是你的樣本。如果那一勺喝起來很鹹,你就會推論(infer)整鍋湯都很鹹。

你知道嗎?母體的大小並不總是固定的。母體可以是無限的(infinite),就像永遠拋擲硬幣的所有可能結果一樣!

快速複習:母體與樣本

母體:整個群體(可以是有限或無限的)。
樣本:我們實際觀察的那部分群體。
推論:利用樣本對整個母體作出「最佳猜測」。

2. 進行非正式推論

我們使用樣本來估計母體的情況。例如,我們可能會計算樣本平均值(sample mean) \( ( \bar{x} ) \),以估計真實的母體平均值(population mean) \( ( \mu ) \)。

重點提示:不同的樣本可能會導致不同的結論!如果你抽取三個不同的 10 名學生樣本並測量他們的身高,你很可能會得到三個略有不同的平均值。這稱為抽樣變異性(sampling variability)。這是非常正常的,但這也是為什麼我們必須謹慎選擇樣本的原因。

3. 隨機抽樣:公平的方式

為了確保我們的樣本具備代表性(公平),我們通常希望它是隨機(random)的。

簡單隨機抽樣(Simple Random Sampling, SRS)

簡單隨機抽樣中,每一個指定大小的可能樣本被選中的概率都是相同的。這就像把每個人的名字放進一個巨大的帽子裡,然後蒙著眼睛把它們抽出來一樣。

操作方法:
1. 為母體的每個成員分配一個唯一的編號(這份列表稱為抽樣框(sampling frame))。
2. 使用隨機數產生器(在計算機或電腦上)來選取編號。
3. 對應這些編號的人員/項目就是你的樣本。

關鍵總結:隨機抽樣有助於避免偏差(bias)——即某些群體無意中被過度偏袒的情況。

4. 其他抽樣技術

有時簡單隨機抽樣並不切實際。以下是你在 MEI 課程大綱中需要了解的其他方法:

系統抽樣(Systematic Sampling)

從列表中按固定的間隔選擇項目。
例子:你有一個 100 人的列表,你想抽取 10 個人的樣本。你在 1 到 10 之間隨機選定一個起點,然後選取列表中的每第 \( 10 \) 個人。

分層抽樣(Stratified Sampling)

將母體根據某種特徵(如年齡或性別)劃分為多個組(稱為層(strata))。然後從每一層中進行隨機抽樣,確保各個樣本的大小與母體中該組的大小成比例
例子:如果學校裡 60% 是女生,40% 是男生,一個 100 人的分層樣本就會隨機挑選 60 名女生和 40 名男生。

配額抽樣(Quota Sampling)

類似於分層抽樣,但並非隨機。訪問員被告知要從特定群體中找到一定數量的人(例如:「找到 20 名 50 歲以上的男性」)。一旦「配額」滿了,他們就會停止。
記憶小撇步:Quota =「數量」(Quantity)。你只需要從每個群體中獲取特定數量即可。

便利抽樣(Opportunity Sampling / Convenience Sampling)

你只是挑選當時在場且符合你標準的人。
例子:站在超級市場外,詢問走過的前 50 個人。

整群抽樣(Cluster Sampling)

將母體劃分為「群組」(通常基於地理位置)。然後隨機挑選幾個群組,並對這些群組內的每個人進行抽樣。
例子:如果你想對英國的醫生進行抽樣,你可能會隨機挑選 5 家特定的醫院,並採訪其中的每一位醫生。

自選抽樣(Self-Selected / Volunteer Sampling)

人們選擇主動參與研究。
例子:新聞網站上的網上投票。

5. 評估抽樣方法與偏差

在考試中,你可能會被要求批評某種抽樣方法。以下是你需要注意的事項:

偏差的問題

偏差(Bias)發生在樣本不能準確反映母體的情況下。常見的原因包括:
無回應(Non-response):有些人拒絕回答,而這些人的意見可能與回應者不同。
抽樣框誤差(Sampling Frame errors):你使用的列表可能過時或遺漏了某些人。
方法偏差(Method Bias):便利抽樣通常帶有偏差,因為你只在一個特定的時間和地點與人交談。

應避免的常見錯誤

混淆分層抽樣與配額抽樣:記住,分層抽樣在組內使用隨機選擇;而配額抽樣是非隨機的(例如訪問員挑選人)。
忘記抽樣框:如果你沒有完整的母體列表,就無法進行簡單隨機抽樣!
低估便利抽樣的風險:雖然它很容易操作,但它幾乎總是最具偏差的方法。

快速複習盒:
簡單隨機:所有人機會均等。
系統抽樣:每第 \( n \) 個項目。
分層抽樣:按比例的隨機分組。
配額抽樣:非隨機分組。
便利抽樣:最容易但偏差最大。
自選抽樣:僅限志願者。

本章總結

理解母體樣本之間的區別是所有統計學的基礎。為了讓樣本有用,我們盡量使其隨機化以避免偏差。雖然簡單隨機抽樣是「黃金標準」,但在現實世界中,分層抽樣系統抽樣等其他方法通常更實用。時刻留意潛在的偏差——這往往是統計預測出錯的最常見原因!