機率分佈導論
歡迎!在本章中,我們將連接基本機率與科學家、企業及研究人員所使用的進階統計模型。你可以將機率分佈(Probability Distribution)想像成一張「地圖」,它告訴我們隨機實驗中不同結果出現的可能性。無論你是要預測一支球隊可能會進多少球,還是要計算一包糖的精確重量,你都在使用這些分佈。如果初看之下覺得有點抽象,不用擔心——我們會一步一步為你拆解!
1. 隨機變數:構建統計學的基石
在繪製分佈圖之前,我們需要了解我們正在測量的是什麼。我們稱之為隨機變數(Random Variable),通常用大寫字母(例如 \(X\))來表示。
離散 vs. 連續
這是本章你必須掌握的最重要區別:
離散隨機變數(Discrete Random Variables):這些變數取特定的、獨立的值。你可以用手指數出來。
例子:擲 10 次硬幣出現人頭的次數,或是班級中的學生人數。你不可能有 20.5 個學生!
連續隨機變數(Continuous Random Variables):這些變數可以在某個範圍內取任何值。通常是我們測量出來的數據。
例子:跑完馬拉松所需的時間,或是樹木的高度。一棵樹的高度可能是 15 米、15.1 米,或者 15.1234... 米。
獨立與相依
獨立變數(Independent Variables):一個結果的出現不會影響另一個結果。就像擲兩顆骰子,第一顆骰子出的點數與第二顆無關。
相依變數(Dependent Variables):一個結果的出現會影響另一個結果的可能性。就像從一副牌中抽兩張牌,且第一張不放回去。
快速複習:
- 離散 = 可數的(例如:1, 2, 3)
- 連續 = 可測量的(例如:1.527...)
- 隨機變數 = 對實驗結果的數值化描述。
2. 離散機率分佈
對於離散變數,我們通常會將機率列在表格中,或使用一個公式(稱為機率函數 probability function)。
黃金法則
對於任何離散機率分佈:
1. 每個個別的機率必須介於 0 和 1 之間:\(0 \le P(X=x) \le 1\)。
2. 所有機率的總和必須恰好等於 1:\(\sum P(X=x) = 1\)。
如果你的機率總和是 1.1 或 0.9,那肯定出錯了!
計算期望值 \(E(X)\)
期望值(Expected Value)其實就是「長期平均值」的華麗說法。如果你進行幾千次實驗,平均結果會是多少?
公式為:\(E(X) = \sum x P(X=x)\)
逐步範例:
想像一個遊戲,你贏得 £1 的機率是 0.6,贏得 £5 的機率是 0.4。
1. 將每個值乘以其機率:\((1 \times 0.6) = 0.6\) 且 \((5 \times 0.4) = 2.0\)。
2. 將它們相加:\(0.6 + 2.0 = 2.6\)。
期望值 \(E(X)\) 為 £2.60。
計算變異數與標準差
變異數(Variance)衡量的是結果偏離平均值的「散佈程度」。
公式為:\(Var(X) = E(X^2) - [E(X)]^2\)
記憶小撇步:「平方值的平均減去平均值的平方」。
要得到標準差(Standard Deviation,\(\sigma\)),只需對變異數取平方根即可:\(\sigma = \sqrt{Var(X)}\)。
常見錯誤:許多學生在變異數公式結尾時會忘記將 \(E(X)\) 平方。請永遠記住:\(E(X^2)\) 並不等於 \([E(X)]^2\)!
本節總結:
- 使用表格來整理 \(x\) 和 \(P(X=x)\)。
- 期望值是平均結果。
- 變異數是結果的散佈範圍。
3. 連續分佈與均勻分佈
對於連續變數,我們無法列出每一個可能的值(因為有無窮多個值!)。相反,我們使用圖形,其中曲線下的總面積等於 1。
連續均勻分佈(Continuous Uniform Distribution)
這是最簡單的連續分佈。它通常被稱為矩形分佈(Rectangular Distribution),因為在某個範圍內每個結果出現的可能性都相等,在圖形上形成一個完美的矩形。
關鍵特性:
- 矩形的高度是固定的。
- 機率是透過面積來計算的。
- \(P(X = \text{剛好某個特定數值}) = 0\)。(因為單一點的「寬度」為零,所以面積為零!)
類比:想像一輛巴士每隔 10 分鐘準時抵達一次。如果你在隨機時間出現,你的等待時間就是一個介於 0 到 10 分鐘之間的均勻分佈。等待時間介於 2 到 4 分鐘之間的機率,就是矩形中那一小塊切片的面積。
解讀圖形
觀察連續分佈圖時:
- 平坦的線(直線)表示均勻分佈。
- 線下方的總面積必須為 1。
- 要找到兩個點之間的機率,只需找出該兩點之間矩形的面積:\(\text{面積} = \text{寬} \times \text{高}\)。
你知道嗎?
在從 \(a\) 到 \(b\) 的均勻分佈中,矩形的高度永遠是 \(\frac{1}{b-a}\)。這確保了總面積(\(\text{寬} \times \text{高}\))為 \((b-a) \times \frac{1}{b-a} = 1\)。
4. 為現實世界的情況建模
統計學的核心就是為任務挑選合適的「工具」(分佈)。
- 離散模型:用於計算事項,例如一批貨物中瑕疵品的數量,或經過閘門的紅色車輛數量。
- 連續模型:用於測量,例如物理測量的誤差,或燈泡壞掉前持續的時間。
鼓勵語:如果現在覺得選擇正確的分佈像是在猜謎,請不用擔心。當你進入後面的章節(二項分佈、常態分佈及卜瓦松分佈)時,你將學會特定的「線索」,告訴你該使用哪一個!
Paper 1 考試重點摘要:
1. 變數類型:確保 100% 判斷出數據是離散還是連續。
2. 機率總和:永遠檢查 \(\sum P(X=x) = 1\)。
3. 期望值:將其視為分佈的「平衡點」。
4. 變異數:使用「平方值的平均減去平均值的平方」這個技巧。
5. 連續型:記住機率就是面積,對於均勻分佈,該面積就是一個矩形。