引言:為什麼「抽樣」在進階數學統計中如此重要?
各位未來的統計學家們,大家好!歡迎來到精彩的抽樣(Sampling)世界。
這一章屬於 S3 單元,是統計學的核心基礎。它教導我們如何在無需調查所有事物的情況下,收集可靠的數據。試想像一下,如果你要找出全英國每一個人的平均身高——這根本是不可能的!因此,我們改為進行抽樣(Sample)。
了解良好的抽樣技術至關重要,因為糟糕的抽樣會導致錯誤的數據,而錯誤的數據會引致錯誤的結論(甚至讓你無法通過假設檢定!)。如果剛開始覺得這部分有點複雜,別擔心,我們會一步步拆解這些方法。
核心學習目標:
- 定義關鍵術語(母體、樣本、抽樣框)。
- 區分不同的隨機與非隨機抽樣技術。
- 評估每種方法的優缺點。
第一節:基本術語
在學習如何選擇樣本之前,我們必須先熟悉當中的術語。
1.1 母體與樣本
母體(Population)
母體是指我們感興趣研究的所有個體或項目的集合。這可以是人、動物、物件或數據點。
例子:如果你想研究工廠今天生產的燈泡品質,母體就是今天生產的「所有」燈泡。
樣本(Sample)
樣本是從母體中選取出來,進行測量或觀察的一小部分子集。
類比:想像你在焗蛋糕。你不需要吃掉整個蛋糕來檢查是否熟了;你只需試吃一小匙(樣本)麵糊(母體)即可。
普查(Census)
普查是指研究中包含了母體的每一個成員。
什麼時候使用?只有當母體非常小,或者法例要求時(例如全國人口普查)才會使用。
1.2 抽樣單位與抽樣框
抽樣單位(Sampling Unit)
抽樣單位是母體中可被選入樣本的單一個體或項目。
例子:如果母體是學校裡的學生,那麼抽樣單位就是一名學生。
抽樣框(Sampling Frame)
抽樣框是母體中所有抽樣單位的完整列表。它就像我們選擇樣本時使用的「通訊錄」。
例子:一份包含所有現有學生名字的學校名冊。
- 母體:整個群體。
- 樣本:群體中的一小部分。
- 抽樣框:你從中挑選的清單。
第二節:隨機抽樣方法
在統計推論中,我們的目標是獲得一個代表性樣本(Representative sample)。這意味著樣本的特徵應能反映母體的特徵。實現這一目標的最佳方法是隨機抽樣(Random Sampling),在這種方法下,每個單位被選中的機率均為已知且大於零。
2.1 簡單隨機抽樣(Simple Random Sample, SRS)
這是最簡單的隨機抽樣形式。每一個符合所需大小的潛在樣本都有相等的機會被選中,且每一個單位也有相等的機會被選中。
SRS 的過程:
- 建立一個完整的抽樣框(所有單位的名單)。
- 為抽樣框中的每個單位分配一個唯一的編號。
- 使用完全隨機的方法(例如隨機數產生器、從帽子裡抽取編號條)來選取所需數量的樣本。
SRS 的優點:
- 理論上無偏(不涉及人為判斷)。
- 如果母體較小,執行起來簡單易懂。
SRS 的缺點:
- 需要一個完整的抽樣框,而這可能並不存在或很難建立。
- 對於大規模母體來說,非常耗時。
2.2 系統抽樣(Systematic Sampling)
在系統抽樣中,單位是從抽樣框中按固定的間隔選取的。
系統抽樣的步驟:
設 \(N\) 為母體大小,\(n\) 為所需的樣本大小。
- 計算間隔大小 \(k\):\(k = \frac{N}{n}\)(通常向下取整至最接近的整數)。
- 在 1 和 \(k\) 之間隨機選擇一個起始點 \(r\)。
- 選取編號為 \(r\) 的單位,然後是 \(r + k\)、\(r + 2k\),依此類推,直到達到樣本大小 \(n\)。
例子:母體 \(N=100\),樣本 \(n=10\)。間隔 \(k = 100/10 = 10\)。隨機起始點選為 4。樣本單位為 4, 14, 24, 34, ..., 94。
系統抽樣的優點:
- 通常快速且執行直接。
- 如果單位在抽樣框中是隨機排列的,這通常能很好地代表母體。
系統抽樣的缺點:
- 如果抽樣框中存在與間隔 \(k\) 相吻合的隱藏模式或週期,樣本可能會出現嚴重偏差。(例子:每 7 天抽樣一次可能會錯過只在週末出現的趨勢。)
2.3 分層抽樣(Stratified Sampling)
如果母體自然地分為不同的組別(稱為層/Strata,例如性別、年齡或地區),分層抽樣可以確保每一組都能按比例反映在樣本中。
何時使用分層抽樣:
當母體是異質的(Heterogeneous)(非均勻),且你認為被測量的特徵(例如觀點)受不同層別影響時,應使用此方法。
比例規則(關鍵計算):
從每一層選取的單位數量必須與該層在母體中所佔的比例成正比。
$$ \text{第 } i \text{ 層的樣本數} = \frac{\text{第 } i \text{ 層的大小}}{\text{母體大小}} \times \text{總樣本數} $$
例子:某學院有 600 名男性和 400 名女性(總數 1000)。我們需要 100 個樣本。
男性樣本:\(\frac{600}{1000} \times 100 = 60\) 名男性。
女性樣本:\(\frac{400}{1000} \times 100 = 40\) 名女性。
計算出每一層所需的數量後,層內的實際選取會使用 SRS 或系統抽樣來完成。
分層抽樣的優點:
- 保證樣本準確反映母體在關鍵特徵(如性別比例)上的結構。
- 通常能得出最具代表性和可靠性的數據。
分層抽樣的缺點:
- 母體必須能被明確分類為不同的層。
- 必須要有顯示每個單位屬於哪一層的詳細抽樣框。
不要將分層抽樣與整群抽樣(Cluster Sampling)混淆(後者在高等大學課程中較常見)。在整群抽樣中,你隨機選擇整個群體(群集),並調查這些群體中的「每一個人」。而在分層抽樣中,你是從「所有」層中選擇「部分」人。
第三節:非隨機(非機率)抽樣方法
非隨機抽樣方法通常較快速且便宜,但它們依賴研究人員的主觀判斷。這意味著它們極易受到偏差(Bias)的影響,不能可靠地用於統計推論(如假設檢定)。
3.1 配額抽樣(Quota Sampling)
配額抽樣類似於分層抽樣,因為母體會被分割成不同組別(如年齡或性別),研究人員會為每個區段設定目標數量(配額)。
配額抽樣如何運作:
訪問員主動尋找對象,直到達到配額為止。配額內的選取完全取決於訪問員的判斷(例如,攔截前 10 個見到的男性)。
配額抽樣的優點:
- 無需抽樣框。
- 快速、容易且費用低廉。
- 即使在對接觸對象有嚴格限制的情況下也能進行(例如研究人員需要親身接觸對象時)。
配額抽樣的缺點:
- 極易產生訪問員偏差(訪問員可能會潛意識地選擇看起來平易近人或樂意配合的人)。
- 結果無法可靠地推廣至整個母體。
3.2 機會抽樣(Opportunity / Convenience Sampling)
這是最簡單、最快,通常也是科學研究中最差的方法。樣本的選擇僅僅是因為這些單位於研究時隨手可得。
例子:調查你在圖書館外見到的前 20 個人。
機會抽樣的優點:
- 極其容易且便宜。
機會抽樣的缺點:
- 幾乎肯定不具代表性。(樣本只能反映當時剛好在該處的人的意見。)
- 會導致嚴重的偏差。
第四節:總結與評估
4.1 何時適用普查?
普查(調查整個母體)僅在以下情況適用:
- 母體非常小。
- 研究涉及非破壞性測試(即你不會把燈泡測試到燒壞為止)。
- 需要高準確度,且你有無限的時間與資源。
4.2 比較表:方法、優點與缺點
| 方法 | 關鍵特徵 | 優點 | 缺點 |
|---|---|---|---|
| 簡單隨機 | 純粹基於機率選取。 | 無偏差;結果易於分析。 | 需要完整抽樣框;大型區域成本高。 |
| 系統抽樣 | 固定間隔 (\(k = N/n\))。 | 執行快速簡便。 | 若抽樣框有週期性循環則會有偏差。 |
| 分層抽樣 | 關鍵亞組的比例代表性。 | 具高度代表性;減少變異。 | 需掌握各層大小;需複雜的抽樣框。 |
| 配額抽樣 | 訪問員按配額選取單位。 | 無需抽樣框;田野工作快速省錢。 | 極易受訪問員偏差影響;非真正隨機。 |
| 機會抽樣 | 選取隨手可得的單位。 | 極度快速便捷。 | 產生最高程度的偏差;不具代表性。 |
你知道嗎?政治民調公司花費數百萬元確保他們的樣本達到完美的「分層」,通常會平衡數十個特徵(年齡、地理位置、以往投票記錄)以減少偏差,從而準確預測選舉結果!
考試中最常見的問題是要求你證明(justify)在特定情況下,為何某種抽樣方法比另一種更好。如果母體有清晰且已知的亞組,分層抽樣通常是最佳答案。如果無法取得抽樣框,則必須依賴配額抽樣或機會抽樣,但記住要提及當中高風險的偏差問題。
恭喜你,你已經成功掌握了抽樣的核心方法論!請利用這些知識繼續學習 S3 單元後續的章節,屆時我們將利用這些樣本進行強大的統計推論。繼續練習那些比例計算,很快你就會成為抽樣專家了!