歡迎來到離散隨機變數的世界!
你好,未來的進階數學家!這一章是你學習以結構化、數字化的方式理解機遇與機率的基礎。雖然統計學聽起來可能很抽象,但離散隨機變數 (Discrete Random Variables, DRVs) 能幫助我們預測和量化結果,這對於從風險評估到博弈論的各個領域來說都是必不可少的。
如果起初覺得有點棘手,不用擔心。 我們只是在學習如何將現實世界中的不確定事件(例如擲骰子或計算次品數量)轉化為易於處理的數學函數。
第 1 節:定義離散隨機變數
1.1 甚麼是隨機變數?
隨機變數 (Random Variable, RV) 簡單來說,就是一個其值由隨機現象的結果決定的變數。我們通常使用大寫字母,如 \(X\)、\(Y\) 或 \(Z\),來表示隨機變數。
- 變數所取的觀測值通常用小寫字母表示,例如 \(x\)。因此,\(P(X=x)\) 的意思是「隨機變數 \(X\) 取特定值 \(x\) 的機率」。
1.2 離散型與連續型
在 S1 單元中,我們專注於離散隨機變數 (DRVs)。甚麼是「離散」呢?
DRV 只能取可數個數值。 這些數值通常是整數。
- 離散型的例子:
- 一小時內通過路口的汽車數量 (0, 1, 2, 3, ...)。
- 擲一顆標準六面骰子所得的點數 (1, 2, 3, 4, 5, 6)。
- 拋擲硬幣 10 次時正面出現的次數 (0, 1, 2, ..., 10)。
類比: 把 DRV 想成是在數彈珠。你可以剛好有 1、2 或 3 顆彈珠,但不可能有 2.5 顆。(相比之下,連續型隨機變數,如身高或時間,可以在給定範圍內取任何值。)
快速回顧:關鍵術語
- 隨機變數 (X): 隨機事件的數值結果。
- 離散: 可數的數值,通常為整數。
第 2 節:機率分佈 (PMF/PDF)
2.1 定義機率分佈
機率分佈 (Probability Distribution)(有時稱為機率質量函數,PMF,或機率分佈函數,PDF)告訴我們 DRV 可以取的所有可能值,以及觀測到每個值的機率。
它可以透過表格、圖表(垂直線圖)或公式來表示。
基本性質:
由於這個列表涵蓋了所有可能的結果,因此所有機率的總和必須等於 1。
$$ \sum P(X=x) = 1 $$2.2 機率分佈表示例
設 \(X\) 為表示某機器每週故障次數的隨機變數:
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | \(k\) |
逐步教學:找出未知機率 (k)
- 我們知道所有機率之和必須為 1。
- \(0.15 + 0.40 + 0.35 + k = 1\)
- \(0.90 + k = 1\)
- \(k = 1 - 0.90 = 0.10\)
2.3 從分佈計算機率
一旦你有了完整的分佈表,就可以輕鬆計算組合機率:
- \(P(X=2) = 0.35\) (直接從表格讀取)
- \(P(X \ge 2) = P(X=2) + P(X=3) = 0.35 + 0.10 = 0.45\)
- \(P(X < 3) = P(X=0) + P(X=1) + P(X=2) = 0.15 + 0.40 + 0.35 = 0.90\)
記憶小撇步: 當處理不等式(\(\le\)、\(\ge\)、\(<\)、\(>\))時,記得留意端點是否包含在內。由於 \(X\) 是離散的,在本例中 \(P(X \le 2)\) 與 \(P(X < 3)\) 是不同的,儘管它們剛好包含相同的數值 (0, 1, 2)。請務必精確!
重點總結
機率分佈是核心工具。務必檢查 \(\sum P(X=x) = 1\)。
第 3 節:累積機率分佈函數 (CDF)
有時我們會對「隨機變數小於或等於某個值」的機率感興趣。這就是累積機率分佈函數 (Cumulative Distribution Function, CDF) 的用武之地。
3.1 F(x) 的定義
CDF,記為 \(F(x)\),定義如下:
$$ F(x) = P(X \le x) = \sum_{t \le x} P(X=t) $$它僅僅是直到給定值 \(x\) 為止的機率累加總和。
3.2 建立 CDF
使用之前的故障範例(其中 P(3) = 0.10):
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | 0.10 |
| \(F(x) = P(X \le x)\) | 0.15 | 0.55 | 0.90 | 1.00 |
檢查: \(F(2) = P(X \le 2) = P(0) + P(1) + P(2) = 0.15 + 0.40 + 0.35 = 0.90\)
3.3 使用 CDF
CDF 對於快速計算機率非常有用,特別是涉及補集法則 (Complement Rule) 的情況:
- 計算 P(X > x): 使用補集法則。 $$ P(X > x) = 1 - P(X \le x) = 1 - F(x) $$ 例子: \(P(X > 1) = 1 - F(1) = 1 - 0.55 = 0.45\)。(驗算:\(P(2) + P(3) = 0.35 + 0.10 = 0.45\)。計算正確!)
- 計算 P(a < X \le b): $$ P(a < X \le b) = F(b) - F(a) $$ 例子: \(P(1 < X \le 3) = F(3) - F(1) = 1.00 - 0.55 = 0.45\)。
常見錯誤警示!
由於 \(X\) 是離散的,對於嚴格不等式要格外小心:
- \(P(X < 3)\) 意味著 \(P(X \le 2)\),即 \(F(2)\)。
- \(P(X \le 3)\) 意味著 \(F(3)\)。
- \(P(X > 3)\) 意味著 \(P(X \ge 4)\)。如果最大值是 3,這個機率為 0。
第 4 節:集中趨勢度量(期望值)
如果我們進行隨機實驗非常多次,平均結果會是多少?這就是隨機變數的期望值 (Expectation) 或平均數 (Mean)。
4.1 期望值 (平均數), \(E(X)\)
期望值,記為 \(E(X)\) 或 \(\mu\) (mu),是一種加權平均數,其中每個可能的結果都由其機率進行加權。
$$ E(X) = \mu = \sum x P(X=x) $$類比: 想像一下你的班級成績,考試權重不同。你將每個考試分數乘以其權重(機率)並相加,得到最終的加權平均數(期望值)。
逐步教學:計算 E(X)
使用故障範例:
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | 0.10 |
| \(x P(X=x)\) | \(0 \times 0.15 = 0\) | \(1 \times 0.40 = 0.40\) | \(2 \times 0.35 = 0.70\) | \(3 \times 0.10 = 0.30\) |
$$ E(X) = 0 + 0.40 + 0.70 + 0.30 = 1.40 $$
詮釋: 從長遠來看,公司預計每週會發生 1.4 次機器故障。
4.2 X 函數的期望值, \(E(g(X))\)
有時你需要計算 \(X\) 的函數的期望值,例如 \(E(X^2)\) 或 \(E(3X-5)\)。原理是一樣的:將 \(x\) 的函數值乘以其機率。
$$ E(g(X)) = \sum g(x) P(X=x) $$例如,計算 \(E(X^2)\):
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(x^2\) | 0 | 1 | 4 | 9 |
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | 0.10 |
| \(x^2 P(X=x)\) | \(0 \times 0.15 = 0\) | \(1 \times 0.40 = 0.40\) | \(4 \times 0.35 = 1.40\) | \(9 \times 0.10 = 0.90\) |
$$ E(X^2) = 0 + 0.40 + 1.40 + 0.90 = 2.70 $$
重點總結
期望值是加權平均數。\(E(X) = \sum x P(X=x)\)。如果你需要 \(E(X^2)\),請先將 \(x\) 值平方,再乘以機率。
第 5 節:離散度度量(變異數與標準差)
平均數告訴我們中心位置,但我們也需要知道這些可能值有多分散。這由變異數 (Variance) 和標準差 (Standard Deviation) 來衡量。
5.1 變異數,Var(X)
變異數,記為 \(\text{Var}(X)\) 或 \(\sigma^2\),衡量的是隨機變數偏離其平均數的平方距離的期望值。
變異數有兩個關鍵公式。第二個(計算公式)在考試中幾乎總是比較簡單快捷。
1. 定義公式:
$$ \text{Var}(X) = E((X - \mu)^2) = \sum (x - \mu)^2 P(X=x) $$2. 計算公式(建議使用的公式!):
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$或者,使用符號 \(\mu\):
$$ \text{Var}(X) = E(X^2) - \mu^2 $$逐步教學:計算 Var(X)
我們在第 4 節已經計算了兩個關鍵值:
- \(E(X) = \mu = 1.40\)
- \(E(X^2) = 2.70\)
現在,套用計算公式:
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$ $$ \text{Var}(X) = 2.70 - (1.40)^2 $$ $$ \text{Var}(X) = 2.70 - 1.96 $$ $$ \text{Var}(X) = 0.74 $$
你知道嗎? 變異數的單位是 (原始單位)\(^2\)。由於單位被平方了,變異數很難直接詮釋,這就是為什麼我們通常會進一步計算標準差。
5.2 標準差,\(\sigma\)
標準差 (Standard Deviation) (\(\sigma\)) 僅僅是變異數的平方根。它將離散度量帶回 \(X\) 的原始單位。
$$ \sigma = \sqrt{\text{Var}(X)} $$在本例中:
$$ \sigma = \sqrt{0.74} \approx 0.860 \text{ (至 3 位有效數字)} $$常見錯誤警示!
使用 \(\text{Var}(X) = E(X^2) - [E(X)]^2\) 公式時,學生常忘記將 \(E(X)\) 平方!記住:這是「平方的期望值」減去「期望值的平方」。
快速回顧:變異數口訣
VEX ME! (Variance = E of X^2 Minus E of X, squared.)
第 6 節:編碼與變換
如果我們改變隨機變數會發生甚麼?例如,如果公司根據故障次數 \(X\) 來支付費用。如果成本 \(C\) 計算為 \(C = 5X + 10\),預期成本會如何變化?這稱為編碼 (coding) 或變換 (transformation)。
設 \(Y = aX + b\),其中 \(a\) 和 \(b\) 是常數。
6.1 期望值的規則 \(E(Y)\)
期望值具有線性。如果你對 \(X\) 進行變換,平均數會以完全相同的方式平移和伸展。
$$ E(aX + b) = a E(X) + b $$例子: 如果 \(E(X) = 1.40\) 且成本 \(C = 5X + 10\):
$$ E(C) = 5 E(X) + 10 = 5(1.40) + 10 = 7.00 + 10 = 17.00 $$
預期成本為 17 個單位。
6.2 變異數的規則 \(\text{Var}(Y)\)
變異數衡量分散程度。增加常數 \(b\) 只是平移了整個分佈,但不會改變數據的分散程度。因此,\(b\) 對變異數沒有影響。
乘以 \(a\) 會對分佈進行縮放,因此變異數會乘以 \(a^2\)。
$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$例子: 如果 \(\text{Var}(X) = 0.74\) 且成本 \(C = 5X + 10\):
$$ \text{Var}(C) = \text{Var}(5X + 10) $$
$$ \text{Var}(C) = 5^2 \text{Var}(X) = 25 \times 0.74 = 18.5 $$
規則總結:
| 運算 | 對期望值的影響 (\(E\)) | 對變異數的影響 (\(\text{Var}\)) |
|---|---|---|
| 加常數 (例如 \(X+b\)) | 加 \(b\) | 無變化 |
| 乘常數 (例如 \(aX\)) | 乘 \(a\) | 乘 \(a^2\) |
給學習者的建議: 記住常數 \(b\) 只是固定費用或基本金額。如果每個人的分數都提高了 10 分(加 \(b\)),平均分會提高 10 分,但分數之間的差距保持不變。
最終章總結:三大核心公式
務必將這三個核心公式牢記在心,隨時準備使用:
1. 期望值 (平均數):
$$ E(X) = \sum x P(X=x) $$
2. 變異數 (計算形式):
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$
3. 變異數的變換:
$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$
掌握這些,你就已經掌握了離散隨機變數!