歡迎來到統計學:抽樣(Sampling)!
你有沒有想過,新聞台是怎麼在所有選票開出之前,就預測出選舉結果的?或者,科學家如何在不對地球上每個人進行測試的情況下,就確定新藥有效?秘訣就在於抽樣。在本章中,我們將學習如何從群體中抽取一個小小的「縮影」,並用它來理解整體狀況。如果統計學讓你覺得跟純代數不太一樣,別擔心——它其實講求的是邏輯與精明的推論!
1. 母體(Population)與樣本(Sample):綜觀全局
在開始計算之前,我們必須明確知道我們所談論的對象到底是誰或什麼。
母體(The Population)
在統計學中,母體是指你感興趣的整個群體,無論是物品還是人員。它不一定非得是人!它可以是北海裡的每一條鱈魚、工廠生產的每一個燈泡,甚至是拋擲硬幣的所有可能結果。
• 有限母體(Finite Population):你可以點算的群體,例如你學校裡所有的學生。
• 無限母體(Infinite Population):沒有終點的群體,例如「擲骰子的所有可能結果」。
樣本(The Sample)
樣本是從母體中選出的較小群體。我們研究樣本是為了節省時間和金錢。試著這樣想:你不需要喝完整鍋湯才能知道它是不是太鹹;你只需要喝一匙樣本就夠了!
有放回抽樣與無放回抽樣(Sampling With or Without Replacement)
當我們挑選樣本時,通常採用無放回抽樣。這意味著一旦我們選出某人進行訪問,我們就不會把他們放回「鍋子」裡再次被抽中。這可以避免從同一個人身上收集兩次數據。然而,如果母體是無限的(例如拋硬幣),那麼我們是否放回其實並不重要!
快速複習:
• 母體:整個群體。
• 樣本:群體的一部分。
• 普查(Census):測量整個母體的行為(罕見且昂貴!)。
重點總結:我們利用樣本來對母體進行推論(Inferences)(即精明的推測)。
2. 進行推論(做出最佳猜測)
一旦我們有了樣本,我們就會計算諸如樣本平均數 \( (\bar{x}) \) 或樣本變異數 \( (s^2) \) 之類的數值。我們將這些數值用作整個母體的估計值。
例子:如果你發現你那屆 50 名學生的平均身高是 \( 165 \text{ cm} \),你可能會推論全國所有學生的平均身高大約也是 \( 165 \text{ cm} \)。
「不同樣本」的問題:
如果你的朋友選了另外 50 名不同的學生,他們可能會算出平均身高是 \( 168 \text{ cm} \)。這很正常!不同的樣本會導致不同的結論。這就是為什麼選擇正確的抽樣方法如此重要。
重點總結:樣本數據提供的是一個估計值,但它很少能做到 100% 完美。不同的樣本會產生不同的結果。
3. 抽樣技術:如何選擇你的群體
你如何挑選樣本,決定了你的結果是「公平的」還是「有偏頗的」。課程大綱要求你掌握以下特定方法:
A. 簡單隨機抽樣(Simple Random Sampling)
母體的每一個成員都有相等的中選機會。
如何操作:給每個項目一個編號,然後使用亂數產生器來挑選你的樣本。這就像從帽子裡抽名字一樣!
B. 系統抽樣(Systematic Sampling)
你隨機選擇一個起點,然後每隔 \( n \) 個選取一個項目。
例子:你有 1000 個人的名單,想要 50 個樣本。你在 1 到 20 之間隨機選一個起始點,然後選擇名單上的每第 \( 20 \) 個人。
C. 分層抽樣(Stratified Sampling)
將母體根據特徵(如年齡或性別)分為不同組別(稱為層(strata))。然後從每一層中進行隨機抽樣,其數量與該層在母體中的比例相符。
公式:\( \text{某層的抽樣數量} = \frac{\text{該層的人數}}{\text{母體總人數}} \times \text{總樣本大小} \)
D. 配額抽樣(Quota Sampling)
類似於分層抽樣,但並非隨機。你被要求從特定群體中找到一定數量的受訪者。
例子:研究人員站在購物中心,被要求訪問 20 名男性和 20 名女性。他們只需攔下看到的頭幾個人,直到「配額」滿了為止。
E. 便利抽樣(Opportunity/Convenience Sampling)
你只選擇當時隨手可得的人。
例子:訪問週二早上走進圖書館的前 10 個人。這很方便,但通常會產生偏差!
F. 整群抽樣(Cluster Sampling)
母體被分為「群組」(例如不同的城鎮)。你隨機挑選幾個群組,然後對這些群組內的每一個人進行取樣。
G. 自願抽樣(Self-Selected Sampling)
人們主動報名成為樣本的一部分。
例子:網上問卷或電台聽眾來電。
你知道嗎?自願樣本通常存在偏差,因為只有那些意見強烈的人才會花時間參與!
重點總結:隨機方法(簡單、系統、分層)通常比較公平。非隨機方法(配額、便利、自願)較簡單,但風險較高。
4. 偏差(Bias)與實務性
即使初衷良好,事情也可能出錯。在考試中,你需要具備批判抽樣方法的能力。
什麼是偏差?
偏差是指樣本不能公平地代表母體。有偏差的樣本會高估或低估真實情況。
需要留意的偏差來源:
• 抽樣框偏差(Sampling Frame Bias):如果你所使用的母體「名單」遺漏了人(例如:使用電話簿會漏掉沒有固網電話的人)。
• 無回應偏差(Non-response Bias):被選中作為樣本的人拒絕回答。
• 地點/時間偏差(Location/Time Bias):清晨 6 點在健身房外抽樣,只會接觸到特定類型的人!
實務問題:
有時你無法做到絕對隨機,因為那太昂貴、太耗時或在物理上不可能(你不可能給海裡的每條魚都編號!)。在考試中,你可能會被要求在考慮這些實務限制的情況下,提出更好的抽樣方法。
要避免的常見錯誤:不要因為樣本不是隨機的就假設它「很差」。有時配額抽樣是確保能快速獲取不同年齡層或背景混合樣本的唯一實務方法。
重點總結:隨時問自己:「這個樣本是否真正代表了整個母體,還是它向某個方向傾斜了?」
總結檢查清單
在繼續學習之前,請確保你能:
• 定義母體與樣本。
• 解釋為什麼不同的樣本會給出不同的平均數/變異數估計值。
• 描述如何執行隨機、系統及分層抽樣。
• 在給定情境中識別偏差。
• 討論為什麼某種方法可能比另一種更具實務性。
如果起初覺得這些概念很複雜,別擔心!看的例子越多,你就會越容易看出當中的規律。繼續練習吧!