歡迎來到統計分佈的世界!
在本章中,我們將從分析已有的數據,轉向對未來可能發生的情況進行建模 (Modelling)。你可以把分佈想像成一張「數學藍圖」,它告訴我們不同結果出現的可能性。無論你是要預測拋 100 次硬幣會出現多少次正面,還是要估算一個城市中人們的身高,統計分佈都是你最好的幫手。
如果剛開始覺得有點抽象,別擔心。我們將它拆解為兩大類:離散型 (Discrete)(你可以數出來的事物)和 連續型 (Continuous)(你需要測量的事物)。
1. 離散隨機變量 (Discrete Random Variables)
離散隨機變量 (Discrete Random Variable)(通常記作 \(X\))是指只能取特定、離散數值的變量。例如,一場比賽中射入的球數可以是 0、1 或 2,但絕不可能是 1.5!
離散均勻分佈 (The Discrete Uniform Distribution)
這是最簡單的分佈。當每個結果出現的機率都相等時,就會出現這種分佈。 例子:投擲一枚公平的六面骰子。從 1 到 6 的每一個數字出現的機率都剛好是 \(1/6\)。
一般離散分佈 (General Discrete Distributions)
分佈通常以表格形式呈現,其中所有機率 \(P(X=x)\) 的總和必須等於 1。如果加起來不等於 1,那這就不是一個有效的機率分佈!
快速回顧:- 離散型:只能取可數的數值。
- 均勻分佈:所有結果的機率相同。
- 機率總和:\(\sum P(X=x) = 1\)。
2. 二項分佈 (The Binomial Distribution) \(X \sim B(n, p)\)
當你進行固定次數的「試驗」並想求出「成功」次數的機率時,就會用到二項分佈。
什麼時候可以使用?(BINS 準則)
要使用二項分佈模型,必須滿足四個條件。你可以透過縮寫 BINS 來記憶:
- B - Binary (二元):只有兩種可能的結果(成功或失敗)。
- I - Independent (獨立):一次試驗的結果不會影響下一次。
- N - Number (次數):試驗次數是固定的 (\(n\))。
- S - Success (成功率):每次試驗的成功機率 (\(p\)) 保持不變。
使用計算機
對於 9MA0 課程,你不需要死記複雜的公式,善用計算機就夠了!你需要熟悉兩種模式:
- Binomial PD (機率密度):用於計算「剛好」等於某個數值的情況。例如:\(P(X = 5)\)。
- Binomial CD (累積機率):用於計算「小於或等於」某個數值的情況。例如:\(P(X \leq 5)\)。
常見錯誤:如果題目問的是 \(P(X > 5)\),請記住你的計算機只會計算「小於或等於」。你必須計算 \(1 - P(X \leq 5)\)。
重點總結:二項分佈用於模擬在 \(n\) 次試驗中,以固定機率 \(p\) 獲得成功的次數。使用前一定要檢查是否符合 BINS 準則!3. 常態分佈 (The Normal Distribution) \(X \sim N(\mu, \sigma^2)\)
如果說二項分佈用於計數,那麼常態分佈就是用於測量身高、體重或時間等連續數值。它是連續型分佈,意味著 \(X\) 可以取任何數值(例如 1.752m)。
鐘形曲線 (The Bell Curve)
常態分佈呈現對稱的鐘形:
- 頂峰位於平均值 (Mean) (\(\mu\)) 處。
- 曲線以平均值為中心完全對稱。
- 曲線下的總面積為 1(代表 100% 的機率)。
- 曲線的「寬度」由標準差 (Standard Deviation) (\(\sigma\)) 決定。
拐點 (Points of Inflection)
你知道嗎?當距離平均值正好一個標準差時,鐘形曲線的「弧度」會從向下彎曲變為向上彎曲。 重要點:拐點位於 \(x = \mu + \sigma\) 和 \(x = \mu - \sigma\)。
求機率
請使用計算機的 Normal CD 模式。你需要輸入下限 (Lower)、上限 (Upper)、\(\sigma\) 和 \(\mu\)。 例子:要計算 \(P(X > 10)\),將下限設為 10,上限設為一個非常大的數字,如 99,999。
快速回顧:- \(\mu\):鐘形的中心。
- \(\sigma\):鐘形的寬度。
- 總面積:永遠等於 1。
4. 用常態分佈近似二項分佈 (Normal Approximation to the Binomial)
有時候,當二項分佈的規模非常大時,其形狀會變得非常接近常態分佈。我們可以使用常態分佈來近似二項分佈,從而簡化計算。
什麼時候可以使用這種方法?
只有滿足以下條件時,才能用常態分佈近似 \(B(n, p)\):
- \(n\) 很大(通常 \(n > 50\))。
- \(p\) 接近 0.5(分佈不會太過偏斜)。
參數設定
如果 \(X \sim B(n, p)\),那麼近似的常態分佈 \(Y \sim N(\mu, \sigma^2)\) 的參數為:
- 平均值:\(\mu = np\)
- 變異數:\(\sigma^2 = np(1 - p)\)
連續性修正 (Continuity Correction)
這是最讓學生頭痛的地方!因為我們從離散的「階梯狀」(二項)轉變為平滑的「斜坡」(常態),我們必須對數值進行微調。
- 如果二項題目問 \(P(X \leq 5)\),使用常態分佈計算 \(P(Y < 5.5)\)。
- 如果二項題目問 \(P(X \geq 5)\),使用常態分佈計算 \(P(Y > 4.5)\)。
- 如果二項題目問 \(P(X = 5)\),使用常態分佈計算 \(P(4.5 < Y < 5.5)\)。
可以這樣想:為了完整包含數字 5 的整個「柱狀圖區間」,你需要從 4.5 延伸到 5.5。
5. 選擇與評估分佈模型
在考試中,你可能會被問到為什麼某個模型不適用。以下是一些常見的原因:
二項分佈失效的原因:
- 試驗不獨立(例如:從抽屜中取出襪子但不放回)。
- 機率會隨時間改變(例如:天氣模式)。
常態分佈失效的原因:
- 數據呈現偏斜 (Skewed)(不對稱)。
- 數據中存在常態模型無法解釋的「極端離群值」。
9MA0 最終考試小撇步
- 讀懂符號:\(N(\mu, \sigma^2)\) 中括號裡的是變異數 (Variance)。如果題目說 \(N(10, 16)\),則 \(\sigma = 4\)。別忘了輸入計算機前要開根號!
- 畫出曲線:在做常態分佈題時,一定要快速畫出鐘形曲線,並標示出你要找的區域。這有助於避免在上下限設定上犯低級錯誤。
- 聯立方程:如果需要求 \(\mu\) 和 \(\sigma\),請使用統計分佈表或計算機的 Inverse Normal 功能來建立兩個方程式求解。
- 檢查邊界:對於 Binomial CD,務必檢查題目問的是 \(\leq\) 還是 \(<\)。你的計算機只會計算 \(\leq\)。
你一定做得到的!統計分佈只是一套工具。一旦你知道該選哪種工具,以及按下計算機上的哪些按鈕,分數自然會手到擒來!