歡迎來到統計抽樣的世界!
你有沒有想過,為什麼新聞台在選票還沒開完之前,就能預測選舉結果?或者科學家如何在不對地球上每個人進行測試的情況下,判斷一種新藥是否有效?答案就是:統計抽樣 (Statistical Sampling)!
在這一個章節中,我們將學習如何挑選一小群人(或事物)來代表一個更龐大的群體。統計學就像偵探工作一樣——我們利用小小的線索來解開巨大的謎團。如果一開始覺得內容有點「文字化」,別擔心;一旦你看懂了其中的邏輯,學起來就會輕鬆得多!
1. 母體 (Population) 與樣本 (Sample)
在我們開始「偵探工作」之前,必須先釐清我們調查的對象。我們主要使用這兩個術語:
母體 (Population):這是我們感興趣的「整個」群體或事物。例如,如果你想知道學校裡學生最喜歡的食物,母體就是該校的每一位學生。
樣本 (Sample):這是從母體中挑選出來的一小群人。我們研究樣本,是為了試圖了解整個母體。例如,詢問你所屬年級的 30 位學生他們最喜歡的食物。
濃湯的比喻
想像你在煮一大鍋蔬菜湯,想知道需不需要加鹽。你不會把整鍋湯喝完(那是母體),你只會舀一勺來嚐(那是樣本)。如果那一勺味道剛好,你就可以推論 (infer) 整鍋湯的味道都不錯!
重點總結
母體是全部;樣本只是其中的一部分,用來作出經過深思熟慮的猜測(推論)。
快速複習:
• 母體 (Population):整個群體。
• 樣本 (Sample):我們實際調查的那部分群體。
• 推論 (Inference):根據樣本對母體作出結論。
2. 我們如何選擇樣本?
挑選樣本的方法有很多種。對於 OCR 考試,你需要能夠運用其中兩種特定的方法,並評析(討論優缺點)另外四種方法。
A. 簡單隨機抽樣 (Simple Random Sampling)
在簡單隨機抽樣中,母體的每一位成員都有均等的機會被選中。就像把每個人的名字寫在紙條上放入一個巨大的帽子裡,然後盲目地抽出來一樣。
步驟說明:
1. 列出母體中每一位成員的名單(這份名單稱為抽樣框, sampling frame)。
2. 為每位成員編上唯一的號碼。
3. 使用隨機數字產生器(計算機或電腦)選出你需要的號碼。
優點:絕對公平,通常沒有偏差 (bias)(偏見)。
缺點:如果母體非常大,操作起來會很困難且耗時。
B. 機會抽樣 (Opportunity Sampling)
這通常被稱為「便利抽樣」。你只需挑選當時在場且符合你標準的人。例如,站在商店門口詢問前 10 位路過的人。
優點:非常快速、簡單且省錢。
缺點:非常容易產生偏差。如果你站在健身房外,你的樣本只會代表那些喜歡健身的人,而不代表整個城鎮!
你知道嗎?
如果你只訪問你的朋友來完成學校作業,你就是在做機會抽樣!這雖然容易,但可能無法公平地代表整個學校。
3. 其他需要評析的方法
你不需在數學上進行這些運算,但必須能夠描述它們,並指出它們的優劣之處。
系統抽樣 (Systematic Sampling)
以固定的間隔挑選對象。例如,從名單中每隔 10 個人選出一位。
「我會選第 5 個人,然後是第 15 位,接著是 25 位……」
分層抽樣 (Stratified Sampling)
將母體根據特性(如年齡或性別)分成不同組別(稱為層, strata)。然後根據每層的大小比例,從中進行隨機抽樣。
「如果學校有 60% 的女生和 40% 的男生,我抽取的 10 個人的樣本中,應該要有 6 位女生和 4 位男生。」
配額抽樣 (Quota Sampling)
類似分層抽樣,但不是隨機的。你為每一組設定了「目標」或「配額」。一旦某個類別的配額滿了,你就停止詢問該類別的人。
「我需要 10 個青少年。我會一直問人,直到找到 10 個自稱是青少年的人為止。」
叢集抽樣 (Cluster Sampling)
將母體分為現有的群組(如「導師班」或「街道」)。隨機挑選幾個群組(叢集),並研究這些群組內的所有人。
「我會隨機挑選學校裡的 3 間教室,並訪問這些教室裡的所有學生。」
重點總結
不同的方法有不同的公平性。隨機抽樣通常最公平,但機會抽樣或配額抽樣通常較快速。
4. 評析與偏差 (Critique and Bias)
統計學很重要的一環就是保持批判性!當你看到一個樣本時,問問自己:這組樣本能代表母體嗎?
如果一個樣本有偏差,代表它不能正確地反映母體。這會導致錯誤的推論。例如,如果你想知道英國人的平均身高,但你的樣本只包含職業籃球選手,那麼你的結論肯定是錯的!
避免常見的錯誤:
1. 樣本過小 (Small Sample Size):如果樣本太小(例如只問 2 個人),就無法很好地代表母體。
2. 無回應 (Non-Response):有些人可能拒絕回答你的調查。如果這些人具備某種共同特質,你的數據就會產生偏差!
3. 抽樣框錯誤 (Sampling Frame errors):如果你所使用的母體名單過期或遺漏了某些人,樣本就不會是真正的隨機。
記憶法:評析時參考 "RSVP"
評估抽樣方法時,檢查以下幾點:
• Random? (隨機嗎?公平嗎?)
• Size? (樣本足夠大嗎?)
• Varied? (樣本是否包含各種類型的人?)
• Practical? (執行起來是否太困難?)
5. 最終總結
• 母體是整個群體;樣本是其中的一部分。
• 簡單隨機抽樣讓每個人有均等機會(公平但緩慢)。
• 機會抽樣使用當下在場的人(快速但有偏差)。
• 同一個母體的不同樣本可能會導致不同的結論。
• 時刻關注偏差——任何讓樣本不具代表性的因素都會導致數據的可信度下降。
如果覺得定義太多,別擔心!只要回想「濃湯的比喻」即可。如果那一勺(樣本)能很好地代表那一鍋(母體),你的統計結果就會很美味!