歡迎來到離散隨機變數的世界!

你好,未來的進階數學家!這一章是你學習以結構化、數字化的方式理解機遇與機率的基礎。雖然統計學聽起來可能很抽象,但離散隨機變數 (Discrete Random Variables, DRVs) 能幫助我們預測和量化結果,這對於從風險評估到博弈論的各個領域來說都是必不可少的。

如果起初覺得有點棘手,不用擔心。 我們只是在學習如何將現實世界中的不確定事件(例如擲骰子或計算次品數量)轉化為易於處理的數學函數。


第 1 節:定義離散隨機變數

1.1 甚麼是隨機變數?

隨機變數 (Random Variable, RV) 簡單來說,就是一個其值由隨機現象的結果決定的變數。我們通常使用大寫字母,如 \(X\)、\(Y\) 或 \(Z\),來表示隨機變數。

  • 變數所取的觀測值通常用小寫字母表示,例如 \(x\)。因此,\(P(X=x)\) 的意思是「隨機變數 \(X\) 取特定值 \(x\) 的機率」。

1.2 離散型與連續型

在 S1 單元中,我們專注於離散隨機變數 (DRVs)。甚麼是「離散」呢?

DRV 只能取可數個數值。 這些數值通常是整數。

  • 離散型的例子:
    • 一小時內通過路口的汽車數量 (0, 1, 2, 3, ...)。
    • 擲一顆標準六面骰子所得的點數 (1, 2, 3, 4, 5, 6)。
    • 拋擲硬幣 10 次時正面出現的次數 (0, 1, 2, ..., 10)。

類比: 把 DRV 想成是在數彈珠。你可以剛好有 1、2 或 3 顆彈珠,但不可能有 2.5 顆。(相比之下,連續型隨機變數,如身高或時間,可以在給定範圍內取任何值。)

快速回顧:關鍵術語
  • 隨機變數 (X): 隨機事件的數值結果。
  • 離散: 可數的數值,通常為整數。

第 2 節:機率分佈 (PMF/PDF)

2.1 定義機率分佈

機率分佈 (Probability Distribution)(有時稱為機率質量函數,PMF,或機率分佈函數,PDF)告訴我們 DRV 可以取的所有可能值,以及觀測到每個值的機率。

它可以透過表格、圖表(垂直線圖)或公式來表示。

基本性質:

由於這個列表涵蓋了所有可能的結果,因此所有機率的總和必須等於 1。

$$ \sum P(X=x) = 1 $$

2.2 機率分佈表示例

設 \(X\) 為表示某機器每週故障次數的隨機變數:

\(x\) 0 1 2 3
\(P(X=x)\) 0.15 0.40 0.35 \(k\)
逐步教學:找出未知機率 (k)
  1. 我們知道所有機率之和必須為 1。
  2. \(0.15 + 0.40 + 0.35 + k = 1\)
  3. \(0.90 + k = 1\)
  4. \(k = 1 - 0.90 = 0.10\)

2.3 從分佈計算機率

一旦你有了完整的分佈表,就可以輕鬆計算組合機率:

  • \(P(X=2) = 0.35\) (直接從表格讀取)
  • \(P(X \ge 2) = P(X=2) + P(X=3) = 0.35 + 0.10 = 0.45\)
  • \(P(X < 3) = P(X=0) + P(X=1) + P(X=2) = 0.15 + 0.40 + 0.35 = 0.90\)

記憶小撇步: 當處理不等式(\(\le\)、\(\ge\)、\(<\)、\(>\))時,記得留意端點是否包含在內。由於 \(X\) 是離散的,在本例中 \(P(X \le 2)\) 與 \(P(X < 3)\) 是不同的,儘管它們剛好包含相同的數值 (0, 1, 2)。請務必精確!

重點總結

機率分佈是核心工具。務必檢查 \(\sum P(X=x) = 1\)。


第 3 節:累積機率分佈函數 (CDF)

有時我們會對「隨機變數小於或等於某個值」的機率感興趣。這就是累積機率分佈函數 (Cumulative Distribution Function, CDF) 的用武之地。

3.1 F(x) 的定義

CDF,記為 \(F(x)\),定義如下:

$$ F(x) = P(X \le x) = \sum_{t \le x} P(X=t) $$

它僅僅是直到給定值 \(x\) 為止的機率累加總和。

3.2 建立 CDF

使用之前的故障範例(其中 P(3) = 0.10):

\(x\) 0 1 2 3
\(P(X=x)\) 0.15 0.40 0.35 0.10
\(F(x) = P(X \le x)\) 0.15 0.55 0.90 1.00

檢查: \(F(2) = P(X \le 2) = P(0) + P(1) + P(2) = 0.15 + 0.40 + 0.35 = 0.90\)

3.3 使用 CDF

CDF 對於快速計算機率非常有用,特別是涉及補集法則 (Complement Rule) 的情況:

  • 計算 P(X > x): 使用補集法則。 $$ P(X > x) = 1 - P(X \le x) = 1 - F(x) $$ 例子: \(P(X > 1) = 1 - F(1) = 1 - 0.55 = 0.45\)。(驗算:\(P(2) + P(3) = 0.35 + 0.10 = 0.45\)。計算正確!)
  • 計算 P(a < X \le b): $$ P(a < X \le b) = F(b) - F(a) $$ 例子: \(P(1 < X \le 3) = F(3) - F(1) = 1.00 - 0.55 = 0.45\)。
常見錯誤警示!

由於 \(X\) 是離散的,對於嚴格不等式要格外小心:

  • \(P(X < 3)\) 意味著 \(P(X \le 2)\),即 \(F(2)\)。
  • \(P(X \le 3)\) 意味著 \(F(3)\)。
  • \(P(X > 3)\) 意味著 \(P(X \ge 4)\)。如果最大值是 3,這個機率為 0。

第 4 節:集中趨勢度量(期望值)

如果我們進行隨機實驗非常多次,平均結果會是多少?這就是隨機變數的期望值 (Expectation)平均數 (Mean)

4.1 期望值 (平均數), \(E(X)\)

期望值,記為 \(E(X)\) 或 \(\mu\) (mu),是一種加權平均數,其中每個可能的結果都由其機率進行加權。

$$ E(X) = \mu = \sum x P(X=x) $$

類比: 想像一下你的班級成績,考試權重不同。你將每個考試分數乘以其權重(機率)並相加,得到最終的加權平均數(期望值)。

逐步教學:計算 E(X)

使用故障範例:

\(x\) 0 1 2 3
\(P(X=x)\) 0.15 0.40 0.35 0.10
\(x P(X=x)\) \(0 \times 0.15 = 0\) \(1 \times 0.40 = 0.40\) \(2 \times 0.35 = 0.70\) \(3 \times 0.10 = 0.30\)

$$ E(X) = 0 + 0.40 + 0.70 + 0.30 = 1.40 $$

詮釋: 從長遠來看,公司預計每週會發生 1.4 次機器故障。

4.2 X 函數的期望值, \(E(g(X))\)

有時你需要計算 \(X\) 的函數的期望值,例如 \(E(X^2)\) 或 \(E(3X-5)\)。原理是一樣的:將 \(x\) 的函數值乘以其機率。

$$ E(g(X)) = \sum g(x) P(X=x) $$

例如,計算 \(E(X^2)\):

\(x\) 0 1 2 3
\(x^2\) 0 1 4 9
\(P(X=x)\) 0.15 0.40 0.35 0.10
\(x^2 P(X=x)\) \(0 \times 0.15 = 0\) \(1 \times 0.40 = 0.40\) \(4 \times 0.35 = 1.40\) \(9 \times 0.10 = 0.90\)

$$ E(X^2) = 0 + 0.40 + 1.40 + 0.90 = 2.70 $$

重點總結

期望值是加權平均數。\(E(X) = \sum x P(X=x)\)。如果你需要 \(E(X^2)\),請先將 \(x\) 值平方,再乘以機率。


第 5 節:離散度度量(變異數與標準差)

平均數告訴我們中心位置,但我們也需要知道這些可能值有多分散。這由變異數 (Variance)標準差 (Standard Deviation) 來衡量。

5.1 變異數,Var(X)

變異數,記為 \(\text{Var}(X)\) 或 \(\sigma^2\),衡量的是隨機變數偏離其平均數的平方距離的期望值。

變異數有兩個關鍵公式。第二個(計算公式)在考試中幾乎總是比較簡單快捷。

1. 定義公式:

$$ \text{Var}(X) = E((X - \mu)^2) = \sum (x - \mu)^2 P(X=x) $$

2. 計算公式(建議使用的公式!):

$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$

或者,使用符號 \(\mu\):

$$ \text{Var}(X) = E(X^2) - \mu^2 $$
逐步教學:計算 Var(X)

我們在第 4 節已經計算了兩個關鍵值:

  • \(E(X) = \mu = 1.40\)
  • \(E(X^2) = 2.70\)

現在,套用計算公式:

$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$ $$ \text{Var}(X) = 2.70 - (1.40)^2 $$ $$ \text{Var}(X) = 2.70 - 1.96 $$ $$ \text{Var}(X) = 0.74 $$

你知道嗎? 變異數的單位是 (原始單位)\(^2\)。由於單位被平方了,變異數很難直接詮釋,這就是為什麼我們通常會進一步計算標準差。

5.2 標準差,\(\sigma\)

標準差 (Standard Deviation) (\(\sigma\)) 僅僅是變異數的平方根。它將離散度量帶回 \(X\) 的原始單位。

$$ \sigma = \sqrt{\text{Var}(X)} $$

在本例中:

$$ \sigma = \sqrt{0.74} \approx 0.860 \text{ (至 3 位有效數字)} $$
常見錯誤警示!

使用 \(\text{Var}(X) = E(X^2) - [E(X)]^2\) 公式時,學生常忘記將 \(E(X)\) 平方!記住:這是「平方的期望值」減去「期望值的平方」。

快速回顧:變異數口訣

VEX ME! (Variance = E of X^2 Minus E of X, squared.)


第 6 節:編碼與變換

如果我們改變隨機變數會發生甚麼?例如,如果公司根據故障次數 \(X\) 來支付費用。如果成本 \(C\) 計算為 \(C = 5X + 10\),預期成本會如何變化?這稱為編碼 (coding)變換 (transformation)

設 \(Y = aX + b\),其中 \(a\) 和 \(b\) 是常數。

6.1 期望值的規則 \(E(Y)\)

期望值具有線性。如果你對 \(X\) 進行變換,平均數會以完全相同的方式平移和伸展。

$$ E(aX + b) = a E(X) + b $$

例子: 如果 \(E(X) = 1.40\) 且成本 \(C = 5X + 10\):
$$ E(C) = 5 E(X) + 10 = 5(1.40) + 10 = 7.00 + 10 = 17.00 $$ 預期成本為 17 個單位。

6.2 變異數的規則 \(\text{Var}(Y)\)

變異數衡量分散程度。增加常數 \(b\) 只是平移了整個分佈,但不會改變數據的分散程度。因此,\(b\) 對變異數沒有影響。

乘以 \(a\) 會對分佈進行縮放,因此變異數會乘以 \(a^2\)。

$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$

例子: 如果 \(\text{Var}(X) = 0.74\) 且成本 \(C = 5X + 10\):
$$ \text{Var}(C) = \text{Var}(5X + 10) $$ $$ \text{Var}(C) = 5^2 \text{Var}(X) = 25 \times 0.74 = 18.5 $$

規則總結:

運算 對期望值的影響 (\(E\)) 對變異數的影響 (\(\text{Var}\))
加常數 (例如 \(X+b\)) 加 \(b\) 無變化
乘常數 (例如 \(aX\)) 乘 \(a\) 乘 \(a^2\)

給學習者的建議: 記住常數 \(b\) 只是固定費用或基本金額。如果每個人的分數都提高了 10 分(加 \(b\)),平均分會提高 10 分,但分數之間的差距保持不變。


最終章總結:三大核心公式

務必將這三個核心公式牢記在心,隨時準備使用:

1. 期望值 (平均數):
$$ E(X) = \sum x P(X=x) $$

2. 變異數 (計算形式):
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$

3. 變異數的變換:
$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$

掌握這些,你就已經掌握了離散隨機變數!