歡迎來到「選對工具」:選擇適合的概率分佈
在統計學中,選擇合適的概率分佈就像廚師選擇正確的菜刀一樣。如果你用切麵包的刀去削蘋果,雖然勉強能用,但效果肯定不理想!在本章中,我們將學習如何觀察現實生活中的情境,並判斷應該選用二項分佈 (Binomial Distribution) 還是常態分佈 (Normal Distribution) 最為合適。如果剛開始覺得有點抽象,別擔心——一旦掌握了當中的「線索」,判斷起來就會容易得多!
1. 二項分佈:計數模型
二項分佈記作 \( X \sim B(n, p) \),當我們在固定的試驗次數中統計「成功」次數時,就會使用它。你可以把它想像成一個「是/否」或「合格/不合格」的模型。
何時使用?(BINS 記憶法)
如果你不確定某個情況是否適用二項分佈,只需記住 B-I-N-S:
- B – Binary (二元性): 只有兩種可能的結果(例如:正面或反面、次品或良品)。
- I – Independent (獨立性): 一次試驗的結果不會影響下一次。
- N – Number of trials (固定試驗次數): 有一個明確且固定的試驗次數 (\( n \))。
- S – Success probability (成功概率固定): 每次試驗的成功概率 (\( p \)) 保持不變。
現實生活例子
想像你在練習籃球罰球,一共投 10 球。如果你的投籃命中率固定為 70%,且每一球之間互不影響,這就是一個完美的二項分佈例子。我們正在統計 10 球中有多少球投進。
快速回顧: 當數據是離散型 (discrete)(你可以數出來的數:0, 1, 2...)且具有固定試驗次數與恆定概率時,請選用二項分佈。
2. 常態分佈:測量模型
常態分佈記作 \( X \sim N(\mu, \sigma^2) \),用於連續型 (continuous) 數據。這類數據可以在某個範圍內取任何值,例如身高、體重或時間。
何時使用?
當數據符合以下特徵時,你應該考慮使用常態分佈模型:
- 連續性 (Continuous): 透過測量得出,而非單純數出來的。
- 對稱性 (Symmetrical): 圖形呈現鐘形曲線 (bell-shaped curve)。
- 集中趨勢: 數據圍繞著中心的平均值 (\( \mu \)) 分佈。
- 參數已知: 具有已知的方差 (\( \sigma^2 \)) 或標準差 (\( \sigma \))。
現實生活例子
試想一下英國所有 18 歲青少年的身高。大多數人的身高都在平均值附近,極矮或極高的人較少。由於身高可以精確到小數位(例如 175.42cm),它屬於連續數據,最適合用常態分佈來建模。
你知道嗎? 常態分佈有時被稱為「高斯分佈」,是以數學家卡爾·弗里德里希·高斯 (Carl Friedrich Gauss) 的名字命名的。它在自然界中非常普遍,因此常被視為生物測量的預設模型!
重點總結: 對於鐘形且對稱的連續型數據,請選用常態分佈。
3. 如何抉擇:比較指南
有時考試會給你一個情境,並要求你證明選擇某種分佈的原因。以下是一個簡單的檢查表來幫助你判斷:
問自己這些問題:
- 數據是離散型還是連續型?
可數的 (0, 1, 2...) \(\rightarrow\) 二項分佈
可測量的 (1.5, 2.78...) \(\rightarrow\) 常態分佈 - 是否有固定的試驗次數?
有 (例如:訪問了 20 個人) \(\rightarrow\) 二項分佈
沒有 (例如:完成某項任務所需的時間) \(\rightarrow\) 常態分佈
避免常見誤區: 不要僅僅因為題目給出了平均值和標準差,就假設一定適用常態分佈。請先檢查基礎數據是否真的是在「統計成功次數」!
4. 橋樑:利用常態分佈近似二項分佈
有時候,二項分佈的問題規模會變得非常大,以至於它的特徵開始接近常態分佈。這是一個非常實用的捷徑!
為什麼要這樣做?
如果使用二項分佈公式計算 \( X \sim B(1000, 0.5) \) 的 \( P(X \leq 500) \),對計算機來說簡直是噩夢。然而,當樣本容量夠大時,二項分佈的長條圖「階梯」會變得非常細小,看起來就像一條平滑的鐘形曲線。
何時適用?
當滿足以下條件時,我們可以使用常態分佈來近似二項分佈:
- \( n \) 很大 (通常至少 \( n > 50 \))。
- \( p \) 接近 0.5 (使分佈呈現對稱性)。
設定參數
如果你決定使用常態模型來近似 \( X \sim B(n, p) \),你需要計算新的平均值與方差:
- 新平均值 (\( \mu \)): \( \mu = np \)
- 新方差 (\( \sigma^2 \)): \( \sigma^2 = npq \) (其中 \( q = 1 - p \))
快速回顧: 對於大的 \( n \) 且 \( p \approx 0.5 \),我們可以使用 \( X \sim N(np, npq) \)。這會讓計算變得簡單許多!
5. 模型可能不適用的情況
A Level 數學很重要的一部分就是具備批判性思維。沒有完美的模型!你可能會被問到為什麼二項分佈或常態分佈在某些特定情境下可能不適用。
二項分佈可能失效的情況:
- 試驗不獨立: 例如,如果你從一個小袋子中取物且不放回,每次取出的概率就會改變。
- 概率改變: 例如,天氣模型中,明天下雨的概率取決於今天是否下雨。
常態分佈可能失效的情況:
- 數據偏態 (Skewed): 如果數據在某一側有「長尾巴」(例如房價或收入),對稱的鐘形曲線就無法精確擬合。
- 範圍受限: 常態分佈理論上從 \( -\infty \) 到 \( +\infty \)。如果你的數據不可能為負(例如「葉子的長度」),且平均值太接近零,那麼常態模型可能會產生誤差。
重點總結: 務必檢查假設條件(如獨立性或對稱性)。如果它們在現實中不成立,該分佈就不適用。
成功檢查清單
1. 離散數據 + 固定試驗次數 + 恆定概率 \(\rightarrow\) 二項分佈。
2. 連續數據 + 對稱/鐘形分佈 \(\rightarrow\) 常態分佈。
3. 大 \( n \) + \( p \approx 0.5 \) \(\rightarrow\) 可用常態分佈近似二項分佈。
4. 檢查情境! 如果試驗不獨立或數據有偏態,你的模型可能會「出錯」。