Sampling - Further Mathematics (YFM01) - Pearson Edexcel International A Level

引言：為什麼「抽樣」在進階數學統計中如此重要？

各位未來的統計學家們，大家好！歡迎來到精彩的抽樣（Sampling）世界。
這一章屬於 S3 單元，是統計學的核心基礎。它教導我們如何在無需調查所有事物的情況下，收集可靠的數據。試想像一下，如果你要找出全英國每一個人的平均身高——這根本是不可能的！因此，我們改為進行抽樣（Sample）。

了解良好的抽樣技術至關重要，因為糟糕的抽樣會導致錯誤的數據，而錯誤的數據會引致錯誤的結論（甚至讓你無法通過假設檢定！）。如果剛開始覺得這部分有點複雜，別擔心，我們會一步步拆解這些方法。

核心學習目標：

定義關鍵術語（母體、樣本、抽樣框）。
區分不同的隨機與非隨機抽樣技術。
評估每種方法的優缺點。

第一節：基本術語

在學習如何選擇樣本之前，我們必須先熟悉當中的術語。

1.1 母體與樣本

母體（Population）

母體是指我們感興趣研究的所有個體或項目的集合。這可以是人、動物、物件或數據點。
例子：如果你想研究工廠今天生產的燈泡品質，母體就是今天生產的「所有」燈泡。

樣本（Sample）

樣本是從母體中選取出來，進行測量或觀察的一小部分子集。
類比：想像你在焗蛋糕。你不需要吃掉整個蛋糕來檢查是否熟了；你只需試吃一小匙（樣本）麵糊（母體）即可。

普查（Census）

普查是指研究中包含了母體的每一個成員。
什麼時候使用？只有當母體非常小，或者法例要求時（例如全國人口普查）才會使用。

1.2 抽樣單位與抽樣框

抽樣單位（Sampling Unit）

抽樣單位是母體中可被選入樣本的單一個體或項目。
例子：如果母體是學校裡的學生，那麼抽樣單位就是一名學生。

抽樣框（Sampling Frame）

抽樣框是母體中所有抽樣單位的完整列表。它就像我們選擇樣本時使用的「通訊錄」。
例子：一份包含所有現有學生名字的學校名冊。

快速回顧：基礎知識

母體：整個群體。
樣本：群體中的一小部分。
抽樣框：你從中挑選的清單。

第二節：隨機抽樣方法

在統計推論中，我們的目標是獲得一個代表性樣本（Representative sample）。這意味著樣本的特徵應能反映母體的特徵。實現這一目標的最佳方法是隨機抽樣（Random Sampling），在這種方法下，每個單位被選中的機率均為已知且大於零。

2.1 簡單隨機抽樣（Simple Random Sample, SRS）

這是最簡單的隨機抽樣形式。每一個符合所需大小的潛在樣本都有相等的機會被選中，且每一個單位也有相等的機會被選中。

SRS 的過程：

建立一個完整的抽樣框（所有單位的名單）。
為抽樣框中的每個單位分配一個唯一的編號。
使用完全隨機的方法（例如隨機數產生器、從帽子裡抽取編號條）來選取所需數量的樣本。

SRS 的優點：

理論上無偏（不涉及人為判斷）。
如果母體較小，執行起來簡單易懂。

SRS 的缺點：

需要一個完整的抽樣框，而這可能並不存在或很難建立。
對於大規模母體來說，非常耗時。

2.2 系統抽樣（Systematic Sampling）

在系統抽樣中，單位是從抽樣框中按固定的間隔選取的。

系統抽樣的步驟：

設 $N$ 為母體大小，$n$ 為所需的樣本大小。

計算間隔大小 $k$：$k = \frac{N}{n}$（通常向下取整至最接近的整數）。
在 1 和 $k$ 之間隨機選擇一個起始點 $r$。
選取編號為 $r$ 的單位，然後是 $r + k$、$r + 2k$，依此類推，直到達到樣本大小 $n$。

例子：母體 $N=100$，樣本 $n=10$。間隔 $k = 100/10 = 10$。隨機起始點選為 4。樣本單位為 4, 14, 24, 34, ..., 94。

系統抽樣的優點：

通常快速且執行直接。
如果單位在抽樣框中是隨機排列的，這通常能很好地代表母體。

系統抽樣的缺點：

如果抽樣框中存在與間隔 $k$ 相吻合的隱藏模式或週期，樣本可能會出現嚴重偏差。（例子：每 7 天抽樣一次可能會錯過只在週末出現的趨勢。）

2.3 分層抽樣（Stratified Sampling）

如果母體自然地分為不同的組別（稱為層/Strata，例如性別、年齡或地區），分層抽樣可以確保每一組都能按比例反映在樣本中。

何時使用分層抽樣：

當母體是異質的（Heterogeneous）（非均勻），且你認為被測量的特徵（例如觀點）受不同層別影響時，應使用此方法。

比例規則（關鍵計算）：

從每一層選取的單位數量必須與該層在母體中所佔的比例成正比。

$$ \text{第 } i \text{ 層的樣本數} = \frac{\text{第 } i \text{ 層的大小}}{\text{母體大小}} \times \text{總樣本數} $$

例子：某學院有 600 名男性和 400 名女性（總數 1000）。我們需要 100 個樣本。
男性樣本：$\frac{600}{1000} \times 100 = 60$ 名男性。
女性樣本：$\frac{400}{1000} \times 100 = 40$ 名女性。

計算出每一層所需的數量後，層內的實際選取會使用 SRS 或系統抽樣來完成。

分層抽樣的優點：

保證樣本準確反映母體在關鍵特徵（如性別比例）上的結構。
通常能得出最具代表性和可靠性的數據。

分層抽樣的缺點：

母體必須能被明確分類為不同的層。
必須要有顯示每個單位屬於哪一層的詳細抽樣框。

常見錯誤提醒！

不要將分層抽樣與整群抽樣（Cluster Sampling）混淆（後者在高等大學課程中較常見）。在整群抽樣中，你隨機選擇整個群體（群集），並調查這些群體中的「每一個人」。而在分層抽樣中，你是從「所有」層中選擇「部分」人。

第三節：非隨機（非機率）抽樣方法

非隨機抽樣方法通常較快速且便宜，但它們依賴研究人員的主觀判斷。這意味著它們極易受到偏差（Bias）的影響，不能可靠地用於統計推論（如假設檢定）。

3.1 配額抽樣（Quota Sampling）

配額抽樣類似於分層抽樣，因為母體會被分割成不同組別（如年齡或性別），研究人員會為每個區段設定目標數量（配額）。

配額抽樣如何運作：

訪問員主動尋找對象，直到達到配額為止。配額內的選取完全取決於訪問員的判斷（例如，攔截前 10 個見到的男性）。

配額抽樣的優點：

無需抽樣框。
快速、容易且費用低廉。
即使在對接觸對象有嚴格限制的情況下也能進行（例如研究人員需要親身接觸對象時）。

配額抽樣的缺點：

極易產生訪問員偏差（訪問員可能會潛意識地選擇看起來平易近人或樂意配合的人）。
結果無法可靠地推廣至整個母體。

3.2 機會抽樣（Opportunity / Convenience Sampling）

這是最簡單、最快，通常也是科學研究中最差的方法。樣本的選擇僅僅是因為這些單位於研究時隨手可得。

例子：調查你在圖書館外見到的前 20 個人。

機會抽樣的優點：

極其容易且便宜。

機會抽樣的缺點：

幾乎肯定不具代表性。（樣本只能反映當時剛好在該處的人的意見。）
會導致嚴重的偏差。

第四節：總結與評估

4.1 何時適用普查？

普查（調查整個母體）僅在以下情況適用：

母體非常小。
研究涉及非破壞性測試（即你不會把燈泡測試到燒壞為止）。
需要高準確度，且你有無限的時間與資源。

4.2 比較表：方法、優點與缺點

方法	關鍵特徵	優點	缺點
簡單隨機	純粹基於機率選取。	無偏差；結果易於分析。	需要完整抽樣框；大型區域成本高。
系統抽樣	固定間隔 ($k = N/n$)。	執行快速簡便。	若抽樣框有週期性循環則會有偏差。
分層抽樣	關鍵亞組的比例代表性。	具高度代表性；減少變異。	需掌握各層大小；需複雜的抽樣框。
配額抽樣	訪問員按配額選取單位。	無需抽樣框；田野工作快速省錢。	極易受訪問員偏差影響；非真正隨機。
機會抽樣	選取隨手可得的單位。	極度快速便捷。	產生最高程度的偏差；不具代表性。

你知道嗎？政治民調公司花費數百萬元確保他們的樣本達到完美的「分層」，通常會平衡數十個特徵（年齡、地理位置、以往投票記錄）以減少偏差，從而準確預測選舉結果！

考試重點提醒：

考試中最常見的問題是要求你證明（justify）在特定情況下，為何某種抽樣方法比另一種更好。如果母體有清晰且已知的亞組，分層抽樣通常是最佳答案。如果無法取得抽樣框，則必須依賴配額抽樣或機會抽樣，但記住要提及當中高風險的偏差問題。

恭喜你，你已經成功掌握了抽樣的核心方法論！請利用這些知識繼續學習 S3 單元後續的章節，屆時我們將利用這些樣本進行強大的統計推論。繼續練習那些比例計算，很快你就會成為抽樣專家了！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。