歡迎來到抽樣的世界!

你有沒有想過,民意調查員是如何預測選舉結果的?或者科學家如何在不測試地球上每個人的情況下,判斷一種新藥是否有效?這就是統計抽樣 (Statistical Sampling) 的威力。在本章中,你將學習如何挑選一小組人(或物件)來代表一個更大的群體。這就像嚐一勺湯來判斷整鍋湯是否需要多加點鹽一樣——你不需要把整鍋湯喝完就能知道結果!

讀完這些筆記後,你將了解我們收集數據的不同方式,以及為什麼選擇正確的方法是獲取準確結果的秘訣。

1. 母體 vs. 樣本

在我們開始挑選群體之前,需要先搞清楚「誰」和「什麼」。

母體 (Population): 這是你感興趣的整個群體或物件。如果你想知道學校學生的平均身高,母體就是該校的每一位學生

樣本 (Sample): 這是母體的子集(一小部分),是你實際從中收集數據的對象。如果你在食堂詢問 30 名學生他們的身高,這 30 名學生就是你的樣本。

普查 (Census): 這是指觀察或測量母體的每一個成員。在英國,政府每 10 年會進行一次人口普查。

優缺點:重大取捨

為什麼我們不每次都進行普查呢?聽起來似乎比較準確,對吧?沒錯,它確實很準確,但並不總是切實可行。

普查的優點:

  • 能提供完全準確的結果。
  • 沒有遺漏任何人。
普查的缺點:
  • 昂貴耗時
  • 很難聯繫到每一個人。
  • 如果測試涉及破壞產品(例如測試燈泡壽命),普查會導致你沒有產品可以銷售!

樣本的優點:

  • 更加快捷便宜
  • 收集數據所需的人力較少。
樣本的缺點:
  • 數據可能不是百分之百準確。
  • 樣本可能無法完全代表整個母體(這稱為偏差 (bias))。

重點總結

普查對於準確性來說很棒,但對你的錢包和時間表來說卻是個噩夢。抽樣既快速又實惠,但存在無法成為母體「完美縮影」的風險。

2. 隨機抽樣技術

為了使抽樣公平,母體的每一位成員都應該有被選中的機會。這就是隨機抽樣 (Random Sampling) 的作用。要做到這一點,通常需要一個抽樣框 (Sampling Frame)——即母體中所有人的名單(例如登記冊或電話簿)。

簡單隨機抽樣 (Simple Random Sampling)

這是最純粹的隨機抽樣形式。想像把每個人的名字放進一個巨大的帽子裡,然後把它們抽出來。在現代,我們使用隨機數產生器

如何操作:

  1. 為你的抽樣框中的每個人分配一個唯一的編號。
  2. 使用計算機或電腦產生隨機數。
  3. 挑選與產生出的編號相符的人。

系統抽樣 (Systematic Sampling)

把這想像成一種「有系統」的抽樣。你隨機選擇一個起點,然後每隔 \(k\) 個人挑選一個。

如何操作:

  1. 計算間隔 \(k = \frac{\text{母體大小}}{\text{樣本大小}}\)。
  2. 在 1 到 \(k\) 之間隨機選一個數作為你的起點。
  3. 此後每隔 \(k\) 個人選取一人。
例子:如果你有 100 人,想要 20 人的樣本,\(k = 100 / 20 = 5\)。隨機選擇一個起點(例如 3),然後選取第 3、8、13、18 個人,以此類推。

分層抽樣 (Stratified Sampling)

有時母體有明確的分組(稱為層 (strata)),例如學校的年級或不同年齡層。為了公平,你需要樣本的比例與母體相同。

公式: \( \text{該層的樣本數} = \frac{\text{該層人數}}{\text{母體總人數}} \times \text{樣本大小} \)

不用擔心,這並不難! 記住,這一切都是關於百分比。如果學校有 60% 的學生是女生,那麼你的樣本中也應有 60% 是女生。

記憶小撇步

Stratified (分層) = Strata (層) = Segments (分段)。想像蛋糕的層次,你切的一塊蛋糕應該要包含每一層才行!

3. 非隨機抽樣技術

有時我們沒有所有人的名單(沒有抽樣框),所以必須使用非隨機方法。

配額抽樣 (Quota Sampling)

這就像分層抽樣,但沒有隨機性。面試官被要求在街上找 20 名男性和 20 名女性。一旦湊齊 20 名男性,他們就會停止詢問男性,轉而只尋找女性。

優點:非常簡單且低成本。缺點:可能存在偏差,因為面試官可能會選擇那些看起來「友善」的人。

方便抽樣 (Opportunity Sampling)

這只是挑選當下隨手可得的人。如果你站在健身房外,詢問前 10 個路人關於他們的飲食習慣,這就是方便抽樣。

優點:獲取數據最簡單的方法。缺點:極不可能代表整個母體。(在健身房的人可能比普通人吃得更健康!)

你知道嗎?

方便抽樣是學生在做專題作業時最常用的方法,但它也是最常被批評為有偏差的方法!

4. 批判與偏差

在考試中,你可能會被要求「批判 (critique)」一種抽樣方法。這僅僅意味著「找出其中的錯誤」。

需要注意的常見陷阱:

  • 樣本太小:如果你只問 2 個人,你不可能知道 1,000 個人的想法。
  • 偏差:樣本是否只包含某一類型的人?(例如,只在週二上午 10 點進行採訪,會忽略掉所有朝九晚五上班的人)。
  • 抽樣框錯誤:名單是否過期?是否排除某些特定人群(例如沒有座機電話的人)?

「不同樣本」規則

重要點:記住,來自同一個母體的不同樣本會得出不同的結論。這是自然的!一個好的抽樣技術的目標是確保這些差異盡可能縮小。

快速複習箱
簡單隨機:每個人機會均等。需要名單。
系統抽樣:每隔 \(k\) 個人。簡單快捷。
分層抽樣:按組別比例。最具代表性。
配額抽樣:非隨機分組。快速但可能有偏差。
方便抽樣:隨手可得的人。偏差極大但極易操作。

總結:如何選擇?

當你在解決統計與力學 (Paper 3) 的問題時,務必問自己這三個問題:

  1. 我有母體名單嗎?(如果有,請使用隨機抽樣;如果沒有,使用配額或方便抽樣)。
  2. 母體是否分為明顯的組別?(如果有,分層或配額抽樣最好)。
  3. 我有充足的時間和預算嗎?(如果沒有,千萬不要考慮普查!)。

最後的小貼士:當考試問及隨機抽樣的缺點時,「很難獲得完整的抽樣框」幾乎永遠是滿分答案!