引言:為什麼「抽樣」在進階數學統計中如此重要?

各位未來的統計學家們,大家好!歡迎來到精彩的抽樣(Sampling)世界。
這一章屬於 S3 單元,是統計學的核心基礎。它教導我們如何在無需調查所有事物的情況下,收集可靠的數據。試想像一下,如果你要找出全英國每一個人的平均身高——這根本是不可能的!因此,我們改為進行抽樣(Sample)

了解良好的抽樣技術至關重要,因為糟糕的抽樣會導致錯誤的數據,而錯誤的數據會引致錯誤的結論(甚至讓你無法通過假設檢定!)。如果剛開始覺得這部分有點複雜,別擔心,我們會一步步拆解這些方法。

核心學習目標:

  • 定義關鍵術語(母體、樣本、抽樣框)。
  • 區分不同的隨機與非隨機抽樣技術。
  • 評估每種方法的優缺點。

第一節:基本術語

在學習如何選擇樣本之前,我們必須先熟悉當中的術語。

1.1 母體與樣本

母體(Population)

母體是指我們感興趣研究的所有個體或項目的集合。這可以是人、動物、物件或數據點。
例子:如果你想研究工廠今天生產的燈泡品質,母體就是今天生產的「所有」燈泡。

樣本(Sample)

樣本是從母體中選取出來,進行測量或觀察的一小部分子集。
類比:想像你在焗蛋糕。你不需要吃掉整個蛋糕來檢查是否熟了;你只需試吃一小匙(樣本)麵糊(母體)即可。

普查(Census)

普查是指研究中包含了母體的每一個成員。
什麼時候使用?只有當母體非常小,或者法例要求時(例如全國人口普查)才會使用。

1.2 抽樣單位與抽樣框

抽樣單位(Sampling Unit)

抽樣單位是母體中可被選入樣本的單一個體或項目。
例子:如果母體是學校裡的學生,那麼抽樣單位就是一名學生。

抽樣框(Sampling Frame)

抽樣框是母體中所有抽樣單位的完整列表。它就像我們選擇樣本時使用的「通訊錄」。
例子:一份包含所有現有學生名字的學校名冊。

快速回顧:基礎知識
  • 母體:整個群體。
  • 樣本:群體中的一小部分。
  • 抽樣框:你從中挑選的清單。

第二節:隨機抽樣方法

在統計推論中,我們的目標是獲得一個代表性樣本(Representative sample)。這意味著樣本的特徵應能反映母體的特徵。實現這一目標的最佳方法是隨機抽樣(Random Sampling),在這種方法下,每個單位被選中的機率均為已知且大於零。

2.1 簡單隨機抽樣(Simple Random Sample, SRS)

這是最簡單的隨機抽樣形式。每一個符合所需大小的潛在樣本都有相等的機會被選中,且每一個單位也有相等的機會被選中。

SRS 的過程:
  1. 建立一個完整的抽樣框(所有單位的名單)。
  2. 為抽樣框中的每個單位分配一個唯一的編號。
  3. 使用完全隨機的方法(例如隨機數產生器、從帽子裡抽取編號條)來選取所需數量的樣本。

SRS 的優點:

  • 理論上無偏(不涉及人為判斷)。
  • 如果母體較小,執行起來簡單易懂。

SRS 的缺點:

  • 需要一個完整的抽樣框,而這可能並不存在或很難建立。
  • 對於大規模母體來說,非常耗時。

2.2 系統抽樣(Systematic Sampling)

在系統抽樣中,單位是從抽樣框中按固定的間隔選取的。

系統抽樣的步驟:

設 \(N\) 為母體大小,\(n\) 為所需的樣本大小。

  1. 計算間隔大小 \(k\):\(k = \frac{N}{n}\)(通常向下取整至最接近的整數)。
  2. 在 1 和 \(k\) 之間隨機選擇一個起始點 \(r\)。
  3. 選取編號為 \(r\) 的單位,然後是 \(r + k\)、\(r + 2k\),依此類推,直到達到樣本大小 \(n\)。

例子:母體 \(N=100\),樣本 \(n=10\)。間隔 \(k = 100/10 = 10\)。隨機起始點選為 4。樣本單位為 4, 14, 24, 34, ..., 94。

系統抽樣的優點:

  • 通常快速且執行直接。
  • 如果單位在抽樣框中是隨機排列的,這通常能很好地代表母體。

系統抽樣的缺點:

  • 如果抽樣框中存在與間隔 \(k\) 相吻合的隱藏模式或週期,樣本可能會出現嚴重偏差。(例子:每 7 天抽樣一次可能會錯過只在週末出現的趨勢。

2.3 分層抽樣(Stratified Sampling)

如果母體自然地分為不同的組別(稱為層/Strata,例如性別、年齡或地區),分層抽樣可以確保每一組都能按比例反映在樣本中。

何時使用分層抽樣:

當母體是異質的(Heterogeneous)(非均勻),且你認為被測量的特徵(例如觀點)受不同層別影響時,應使用此方法。

比例規則(關鍵計算):

從每一層選取的單位數量必須與該層在母體中所佔的比例成正比。

$$ \text{第 } i \text{ 層的樣本數} = \frac{\text{第 } i \text{ 層的大小}}{\text{母體大小}} \times \text{總樣本數} $$

例子:某學院有 600 名男性和 400 名女性(總數 1000)。我們需要 100 個樣本。
男性樣本:\(\frac{600}{1000} \times 100 = 60\) 名男性。
女性樣本:\(\frac{400}{1000} \times 100 = 40\) 名女性。

計算出每一層所需的數量後,層內的實際選取會使用 SRS 或系統抽樣來完成。

分層抽樣的優點:

  • 保證樣本準確反映母體在關鍵特徵(如性別比例)上的結構。
  • 通常能得出最具代表性和可靠性的數據。

分層抽樣的缺點:

  • 母體必須能被明確分類為不同的層。
  • 必須要有顯示每個單位屬於哪一層的詳細抽樣框。
常見錯誤提醒!

不要將分層抽樣與整群抽樣(Cluster Sampling)混淆(後者在高等大學課程中較常見)。在整群抽樣中,你隨機選擇整個群體(群集),並調查這些群體中的「每一個人」。而在分層抽樣中,你是從「所有」層中選擇「部分」人。


第三節:非隨機(非機率)抽樣方法

非隨機抽樣方法通常較快速且便宜,但它們依賴研究人員的主觀判斷。這意味著它們極易受到偏差(Bias)的影響,不能可靠地用於統計推論(如假設檢定)。

3.1 配額抽樣(Quota Sampling)

配額抽樣類似於分層抽樣,因為母體會被分割成不同組別(如年齡或性別),研究人員會為每個區段設定目標數量(配額)。

配額抽樣如何運作:

訪問員主動尋找對象,直到達到配額為止。配額的選取完全取決於訪問員的判斷(例如,攔截前 10 個見到的男性)。

配額抽樣的優點:

  • 無需抽樣框。
  • 快速、容易且費用低廉。
  • 即使在對接觸對象有嚴格限制的情況下也能進行(例如研究人員需要親身接觸對象時)。

配額抽樣的缺點:

  • 極易產生訪問員偏差(訪問員可能會潛意識地選擇看起來平易近人或樂意配合的人)。
  • 結果無法可靠地推廣至整個母體。

3.2 機會抽樣(Opportunity / Convenience Sampling)

這是最簡單、最快,通常也是科學研究中最差的方法。樣本的選擇僅僅是因為這些單位於研究時隨手可得。

例子:調查你在圖書館外見到的前 20 個人。

機會抽樣的優點:

  • 極其容易且便宜。

機會抽樣的缺點:

  • 幾乎肯定不具代表性。(樣本只能反映當時剛好在該處的人的意見。
  • 會導致嚴重的偏差。

第四節:總結與評估

4.1 何時適用普查?

普查(調查整個母體)僅在以下情況適用:

  • 母體非常小。
  • 研究涉及非破壞性測試(即你不會把燈泡測試到燒壞為止)。
  • 需要高準確度,且你有無限的時間與資源。

4.2 比較表:方法、優點與缺點

方法 關鍵特徵 優點 缺點
簡單隨機 純粹基於機率選取。 無偏差;結果易於分析。 需要完整抽樣框;大型區域成本高。
系統抽樣 固定間隔 (\(k = N/n\))。 執行快速簡便。 若抽樣框有週期性循環則會有偏差。
分層抽樣 關鍵亞組的比例代表性。 具高度代表性;減少變異。 需掌握各層大小;需複雜的抽樣框。
配額抽樣 訪問員按配額選取單位。 無需抽樣框;田野工作快速省錢。 極易受訪問員偏差影響;非真正隨機。
機會抽樣 選取隨手可得的單位。 極度快速便捷。 產生最高程度的偏差;不具代表性。

你知道嗎?政治民調公司花費數百萬元確保他們的樣本達到完美的「分層」,通常會平衡數十個特徵(年齡、地理位置、以往投票記錄)以減少偏差,從而準確預測選舉結果!

考試重點提醒:

考試中最常見的問題是要求你證明(justify)在特定情況下,為何某種抽樣方法比另一種更好。如果母體有清晰且已知的亞組,分層抽樣通常是最佳答案。如果無法取得抽樣框,則必須依賴配額抽樣機會抽樣,但記住要提及當中高風險的偏差問題。


恭喜你,你已經成功掌握了抽樣的核心方法論!請利用這些知識繼續學習 S3 單元後續的章節,屆時我們將利用這些樣本進行強大的統計推論。繼續練習那些比例計算,很快你就會成為抽樣專家了!