Population and samples - Statistics (9ST0) - Pearson Edexcel A Level

歡迎來到母體與樣本的世界！

你有沒有想過，民調機構是如何只透過訪問幾千人，就能預測整個選舉結果的？或者工廠如何知道一批餅乾是否完美，而不用把每一塊都吃掉？這就是抽樣 (Sampling) 的威力！在本章中，我們將學習如何從「整鍋湯」中撈出合適的「一匙」，以確保數據既準確、公平又實用。如果起初覺得定義很多，別擔心——一旦你領悟了當中的現實邏輯，一切就會豁然開朗。

1. 大局觀：母體 vs. 樣本

在深入探討「如何」抽樣之前，我們需要知道我們在「討論什麼」。在統計學中，我們有兩個非常重要的詞彙：

1. 母體 (Population)：你感興趣的所有項目或人員的總體（例如：「英國所有的學生」）。
2. 樣本 (Sample)：從母體中選出的較小群體（例如：「你學校裡的 50 名學生」）。

必須記住的關鍵術語：

● 參數 (Parameter)：母體 (Population) 的數值屬性（例如：全英國所有人真實的平均身高）。
● 統計量 (Statistic)：樣本 (Sample) 的數值屬性（例如：你測量的 50 名學生的平均身高）。我們使用統計量來估計參數。

快速記憶小撇步：
Population（母體）= Parameter（參數）
Sample（樣本）= Statistic（統計量）

重點溫習：
統計量僅是樣本數值的函數。它不應包含任何「未知」數值——它純粹基於你所收集的數據！

2. 什麼叫作「隨機」樣本？

在 Pearson Edexcel 課程大綱中，大小為 \(n\) 的隨機樣本 (Random sample) 必須滿足特定規則才算公平。要達到真正的隨機，必須符合：

● 母體中的每一名成員都有相等機會被選中。
● 所有大小為 \(n\) 的子集（群組）都必須有可能被選中。
● 每一個大小為 \(n\) 的可能樣本都必須有相等機會出現。

兩種抽樣方式：

1. 簡單隨機抽樣（不放回）：一旦選中一個人，就不會把他們放回「帽子」裡。這是學校專題中最常見的方法。
2. 非限制隨機抽樣（放回）：你選中某人，記錄數據，然後把他們「放回去」。這意味著理論上同一個人可能會被選中兩次！

如何獲取真正的隨機數字：

你不能只靠「想」出隨機數（人類其實很不擅長隨機！）。相反地，請使用：
● 隨機數表 (Random number tables)：由機器生成的數字網格。
● 計算機：使用科學計算機上的 Ran# 或 RanInt 功能。

關鍵收穫：隨機樣本是「黃金標準」，因為它有助於避免偏差 (Bias)（偏袒特定對象）。

3. 隨機抽樣技術

有時候，單純從帽子裡抽籤並不切實際。以下是你需要了解的常見隨機方法：

簡單隨機抽樣 (Simple Random Sampling)

為每個人分配一個號碼，然後由隨機數生成器選出獲勝者。
● 優點：完全無偏差；每位成員都有均等機會。
● 缺點：如果母體過於龐大（例如全世界），操作會非常困難。

系統抽樣 (Systematic Sampling)

隨機選定一個起點，然後每隔 \(k\) 個成員取樣一次（例如：列表中的每第 10 個人）。
● 例子：在生產線上檢測每第 50 個燈泡。
● 優點：非常簡單且快速。
● 缺點：如果列表本身存在「規律」，可能會導致偏差。

分層抽樣 (Stratified Sampling)

將母體分成不同的組別，稱為層 (Strata)（例如：中五和中六）。然後從每一層中進行隨機抽樣。
● 比例分層：如果中五的學生人數是中六的兩倍，你的樣本中中五的人數也應是中六的兩倍。這極具代表性！
● 非比例分層：你可能會從人數極少的組別中抽取更多人，以確保你有足夠的數據來分析他們。

整群抽樣 (Cluster Sampling)

將母體分為彼此相似的群組（群集，例如：鎮上的不同街道）。你隨機挑選幾個群集，並對其中的每個人進行取樣。
● 比喻：想像一盒 KitKat 朱古力，每一條都是一個「群集」。為了品嚐配方，你隨機選出兩整條，並吃掉那兩條裡的所有手指朱古力。

4. 非隨機抽樣技術

有時隨機抽樣是不可能或成本太高的。以下是替代方案：

判斷抽樣 (Judgmental Sampling)

研究人員利用個人的「專業判斷」來挑選樣本。
● 風險：極易產生偏差，因為它取決於單個人的主觀意見。

滾雪球抽樣 (Snowball Sampling)

你找到一個人，他們會「推薦」他們的朋友給你，然後那些朋友再推薦更多朋友。
● 你知道嗎？這通常用於難以接觸的群體。例如，如果你想研究非法藥物使用者或非常冷門的愛好者，你不會有名單。你會找到一個人，請他幫忙介紹其他人。

配額抽樣 (Quota Sampling)（一種非隨機抽樣）

類似分層抽樣，但你只需要出門找到足夠的人直到填滿「配額」（例如：「我需要 20 男 20 女」）。你不一定會隨機挑選；你可能只是在街上攔住看起來符合描述的人。

重點溫習：
隨機 (Random) = 不涉及人為選擇（由「帽子」決定）。
非隨機 (Non-Random) = 由人為選擇或客觀情況決定。

5. 選擇合適的方法與實際限制

在考試中，你可能會被問到研究人員為什麼選擇特定方法。請務必考慮以下三個限制因素：

1. 成本：去全國各地進行調查是否太昂貴？
2. 時間：我們是否需要即時結果（例如：選舉期間的出口民調）？
3. 抽樣框架 (Sampling Frame)：我們是否有每個人的名單？如果沒有名單，就無法進行簡單隨機抽樣。

常見陷阱：

● 選擇偏差 (Selection Bias)：如果你只在健身房抽樣，你不能聲稱結果代表「全鎮的健康狀況」。
● 無回應 (Non-Response)：如果你發出了 100 份問卷，只有 5 個人回覆，這 5 個人可能持極端意見，這會破壞你的數據有效性。

範例場景：

● 市場調查：通常使用配額或分層抽樣，以確保能聽取不同年齡/性別群體的意見。
● 品質保證：通常在生產線上使用系統抽樣（每 100 件產品一件）。
● 出口民調：使用整群抽樣（挑選特定投票站）以在選舉日快速獲取結果。

關鍵收穫：沒有完美的抽樣方法。目標是選擇一種在成本與時間最低的前提下，能提供最少偏差的方法。

總結檢查表

● 我能解釋母體與樣本的區別嗎？
● 我知道參數與統計量的區別嗎？
● 我能列出隨機樣本的三個必要條件嗎？
● 我了解滾雪球抽樣的「特殊用途」嗎？
● 我能解釋為什麼分層抽樣通常比簡單隨機抽樣更具代表性嗎？

如果需要多讀幾遍，請不用擔心！抽樣的核心在於邏輯。只需不斷問自己：「如果我在現實中這樣做，這公平嗎？」

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。