Statistical sampling - Mathematics (8MA0) - Pearson Edexcel AS Level

歡迎來到統計抽樣！

你有沒有想過，新聞台如何在所有選票點算完畢之前，就能預測選舉結果？或者科學家如何在不必測試地球上每一個人的情況下，就能決定一種新藥是否有效？答案就是統計抽樣 (Statistical Sampling)。

在本章中，我們將學習如何挑選一小群人（或事物）來代表一個更大的群體。試想一下，這就像嚐一勺湯來看看整鍋湯是否需要加鹽一樣——你不需要喝完整鍋湯就能知道結果！

如果有些術語讓你感到陌生，別擔心，我們會逐一拆解。

1. 母體 (Population) 與樣本 (Sample)

在我們開始挑選群體之前，首先需要了解我們所針對的對象。

關鍵術語：

母體 (Population)：你感興趣的整個群體（人或物）。例子：你學院裡的所有學生。
普查 (Census)：當你從母體的每一個成員中收集數據時。
樣本 (Sample)：用來了解整個母體資訊的子集（較小的一部分）。例子：從你的學院中挑選 50 名學生進行訪問。
抽樣單位 (Sampling Unit)：母體中的個別成員。
抽樣框 (Sampling Frame)：列出母體中所有抽樣單位的清單（例如學校名冊或地址列表）。

大辯論：普查 vs. 樣本

為什麼我們不總是去問所有人呢？原因如下：

普查的優點：
- 完全準確（給你最完整的畫面）。
- 沒有遺漏任何成員。

普查的缺點：
- 時間與成本：要接觸到每一個人需要花費很長的時間和高昂的費用。
- 破壞性測試：如果你要測試一個玻璃瓶在破裂前能承受多少壓力，你肯定不想測試每一個瓶子——因為最後你將一無所有，無法銷售！
- 難以處理：龐大的數據量非常難以整理。

樣本的優點：
- 快速且便宜：收集和分析的速度快得多。
- 所需人數少：你不需要龐大的團隊來收集數據。

樣本的缺點：
- 抽樣誤差：數據可能無法完全代表整個母體。
- 偏差 (Bias)：如果樣本挑選得不夠謹慎，可能會導致錯誤的結論。

快速回顧：

對於準確性至關重要的小型群體，請使用普查；對於想要節省時間和金錢的大型群體，請使用樣本。

2. 隨機抽樣技巧

如果我們希望樣本公正，通常會使用隨機抽樣 (Random Sampling)。這意味著母體的每個成員都有相等的機會被選中。

方法 A：簡單隨機抽樣 (Simple Random Sampling)

這是最基本的抽樣形式。想像一下從帽子裡抽出名字。

為抽樣框中的每一個項目分配一個唯一的編號。
使用隨機數生成器（在你的計算機或電腦上）來選取這些編號。

優點：完全沒有偏差。
缺點：你需要一個完整的母體清單（抽樣框），對於極大的母體來說可能不切實際。

方法 B：系統抽樣 (Systematic Sampling)

你不是隨機挑選名字，而是按照固定的間隔挑選。

例子：你想從 100 人的名單中抽取 20 人的樣本。你先在 1 到 5 之間選一個起點，然後選取名單上每第 \(5^{th}\) 個人。

優點：非常簡單且快速。
缺點：如果名單中存在隱藏的規律（例如，每第 \(5^{th}\) 個人剛好都是經理），樣本就會產生偏差。

方法 C：分層抽樣 (Stratified Sampling)

這是一種非常聰明的方法，能確保母體內的各個群體得到公平的代表性。我們將母體劃分為稱為層 (Strata) 的小組（例如：年齡、性別或年級），並從每一層中進行隨機抽樣。

為了保持公平，我們從每一層選取的人數必須與該群體在實際母體中的規模成比例。

公式：
\( \text{樣本層人數} = \frac{\text{母體層人數}}{\text{母體總人數}} \times \text{樣本總數} \)

優點：保證所有群體都能得到代表。
缺點：較為複雜，且需要事先確切知道各個子群體的規模。

3. 非隨機抽樣技巧

有時候我們無法獲取完整的母體清單，或者時間倉促。這時我們就會使用非隨機方法。

方法 D：配額抽樣 (Quota Sampling)

訪問員會收到一個從不同群體中尋找的「目標」人數。一旦某一群體的「配額」滿了，他們就會停止訪問該群體的人。

例子：一名研究人員站在購物中心，被要求訪問 20 名男性和 20 名女性。一旦他們訪問了 20 名女性，他們就只會與男性交談。

優點：不需要抽樣框（不需要名字清單）。快速且容易。
缺點：可能會產生偏差，因為訪問員會自行選擇與誰交談（他們可能會避開那些看起來很忙或脾氣暴躁的人！）。

方法 E：機會抽樣 (Opportunity/Convenience Sampling)

這只是隨機選擇當下有空且容易接觸到的人。

例子：你詢問在圖書館見到的前 10 個人關於他們的學習習慣。

優點：極其簡單且便宜。
缺點：極不可能代表整個母體。

記憶輔助：「RS-SSQO」

要記住這 5 種方法，試試：Random, Systematic, Stratified, Quota, Opportunity。

4. 批判與推論

在考試中，你可能會被要求批判 (Critique) 一種抽樣方法。這意味著要「找出缺陷」。

應避免的常見錯誤：

樣本過小：如果樣本太小，就無法很好地代表母體。
偏差：如果你只在健身房訪問關於健康的人，你的結果會產生偏差，因為他們不能代表普羅大眾。
抽樣框錯誤：如果你的清單過時了，那你一開始用的就是錯誤的數據！

非正式推論 (Informal Inferences)

當我們查看樣本結果時，我們進行了推論 (Inference)。這是根據樣本對整個母體做出的「最佳猜測」。然而，請永遠記住：不同的樣本可能會導致不同的結論。如果你對 50 名學生進行兩次不同的隨機抽樣，他們的平均身高可能會略有不同。這被稱為自然變異 (Natural Variation)。

你知道嗎？ 在 1936 年的美國大選中，一家雜誌訪問了 240 萬人，並預測 Alf Landon 會大獲全勝。結果他們錯了！他們的「抽樣框」是基於汽車登記和電話簿——但在 1936 年，只有富人才擁有這些東西。他們不小心忽略了那些投票給羅斯福的窮人。

總結：關鍵要點

1. 母體 (Population) 是所有人；樣本 (Sample) 是其中一小部分。
2. 普查 (Census) 準確但緩慢/昂貴；抽樣 (Sampling) 快速但存在誤差風險。
3. 隨機方法（簡單隨機、系統、分層）通常較公平，但需要名字清單。
4. 非隨機方法（配額、機會）速度較快，但較容易產生偏差。
5. 請務必檢查樣本大小是否足夠，以及所選的群體是否真正代表整個母體。

如果這些定義看起來很多，請別擔心。只要你在「現實生活」場景（如考試題目）中多練習識別這些方法，它就會變得越來越自然！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。