連續隨機變量:學習筆記 (9231 Further Probability & Statistics)
歡迎來到連續隨機變量(Continuous Random Variables, CRV)的奇妙世界!在之前的統計學課程(9709)中,你們主要集中研究離散變量(例如計算某個事件發生的次數)。現在,我們要深入探討可以在指定範圍內取「任何」值的變量——例如測量時間、身高或溫度等數據。
這一章至關重要,因為它超越了標準分佈(如常態分佈),並教你如何利用微積分(積分和微分)來處理自定義的概率模型。如果起初覺得有點困難也別擔心;我們會將微積分拆解成簡單清晰的步驟!
1. 理解連續隨機變量 (CRVs)
連續隨機變量 (CRV),通常記作 \(X\),是指可以在指定區間內取任何值的變量。
例子:電腦啟動所需的精確時間(以秒為單位)。它可以是 15.00 秒、15.01 秒,或是 15.0000001 秒。
為什麼 CRV 與離散變量不同?
- 對於離散變量,我們可以求出 \(P(X = x)\)。
-
對於 CRV,落在某個確切數值的概率始終為零:\(P(X = a) = 0\)。
類比:想像一條 1 米長的連續繩子。隨機挑選一點剛好落在 0.5000000... 這一點的機會是多少?是零,因為它周圍有無窮多個點。 - 因此,我們只會討論某個區間內的概率,例如 \(P(a < X < b)\)。
溫馨提示: 由於 \(P(X=a)=0\),是否包含等號並不會改變概率的結果:
\(P(a < X < b) = P(a \leq X \leq b) = P(a < X \leq b)\)
2. 概率密度函數 (PDF)
由於我們無法為單一點賦予概率,因此使用一種稱為概率密度函數 (PDF) 的函數,記作 \(f(x)\)。該函數描述了變量落在某個範圍內的「可能性」。
PDF, \(f(x)\) 的性質
一個函數要成為有效的 PDF,必須滿足兩個基本規則:
-
非負性: 密度不可能為負。
$$f(x) \geq 0 \text{ 對於所有 } x \text{ 的值}$$ -
總面積為一: 所有可能結果的總概率必須等於 1(或 100%)。這是透過在整個定義域上積分來計算的。
$$\int_{-\infty}^{\infty} f(x) dx = 1$$
分段函數注意事項: 通常,CRV 是使用分段函數定義的,這意味著 PDF 僅在特定範圍 \([a, b]\) 內存在,而在該範圍之外 \(f(x) = 0\)。
在此情況下,總概率規則簡化為:
$$\int_{a}^{b} f(x) dx = 1$$
逐步教學:求概率 \(P(a < X < b)\)
\(X\) 落在 \(a\) 和 \(b\) 之間的概率就是 PDF 曲線在這些點之間的面積。
- 確定範圍: 找出所需的區間 \([a, b]\)。
-
積分: 計算 PDF 在該範圍內的定積分。
$$P(a < X < b) = \int_{a}^{b} f(x) dx$$
重點總結: PDF 利用積分將概率定義為曲線下的面積。切記總面積必須剛好等於 1。
3. 累積分布函數 (CDF)
累積分布函數 (CDF),記作 \(F(x)\),給出了隨機變量 \(X\) 小於或等於某個值 \(x\) 的概率。
$$\text{定義:} F(x) = P(X \leq x)$$PDF 與 CDF 之間的關係(使用微積分)
由於 CDF 測量累積到 \(x\) 為止的總概率,因此它是透過對 PDF 積分得到的:
$$F(x) = \int_{-\infty}^{x} f(t) dt$$相反地,如果你有 CDF 並需要 PDF,則進行微分:
$$f(x) = \frac{d}{dx} F(x)$$記憶小撇步: 想想字母順序:C (CDF) 排在 P (PDF) 前面。積分涉及向「上」走(冪次增加),微分則向「下」走(冪次減少)。你對 PDF 積分得到 CDF,對 CDF 微分得到 PDF。
CDF, \(F(x)\) 的性質
如果變量 \(X\) 定義在範圍 \([a, b]\) 內:
- 下限: \(F(a) = 0\)(小於起始點的概率為零)。
- 上限: \(F(b) = 1\)(小於終點的概率為一)。
- 非遞減性: \(F(x)\) 必須始終增加或保持不變(它永遠不會下降)。
使用 CDF 計算概率:
如果你已有 CDF,則無需積分即可計算 \(P(a < X < b\):
$$P(a < X < b) = F(b) - F(a)$$
你知道嗎? 在許多專業統計軟件包中,使用 CDF 的頻率遠高於 PDF,因為它能直接提供累積概率值,這比閱讀 PDF 更直觀。
4. 百分位數與位置度量
百分位數(或四分位數)是一個將概率分佈劃分為特定比例的數值。
第 \(p\) 個百分位數是指滿足 \(X\) 小於或等於該數值 \(k\) 的概率為 \(p\) 的值 \(k\)。
$$\text{數學表達:} F(k) = p$$關鍵百分位數
- 中位數 (\(m\)): 第 50 個百分位數。這是滿足 \(F(m) = 0.5\) 的值 \(m\)。一半的數據位於其下方,一半位於其上方。
- 下四分位數 (\(Q_1\)): 第 25 個百分位數,滿足 \(F(Q_1) = 0.25\)。
- 上四分位數 (\(Q_3\)): 第 75 個百分位數,滿足 \(F(Q_3) = 0.75\)。
逐步教學:尋找中位數
-
建立積分: 透過解以下方程來找到中位數 \(m\):
$$\int_{-\infty}^{m} f(x) dx = 0.5$$ -
或者使用 CDF: 如果你已經算出了 CDF, \(F(x)\),直接解:
$$F(m) = 0.5$$
5. 期望值(平均值與方差)
期望值 (Expected Value) 或 平均值 (Mean),記作 \(E(X)\) 或 \(\mu\),是該變量的長期平均值。
X 的期望值(平均值)
對於 CRV,離散變量使用的求和符號將被積分符號取代:
$$\mu = E(X) = \int_{-\infty}^{\infty} x f(x) dx$$X 的方差
方差 \(Var(X)\) 用於衡量分佈圍繞平均值的離散程度。我們使用標準公式,但將期望值的計算改為積分:
$$Var(X) = E(X^2) - [E(X)]^2$$其中 \(E(X^2)\) 使用以下通用公式計算:
進階數學核心概念:函數的期望值
這是 Paper 4 的一個關鍵考點。如果 \(g(X)\) 是隨機變量 \(X\) 的任意函數,其期望值可以透過將積分中的 \(x\) 替換為 \(g(x)\) 來求得。
$$\mathbf{E(g(X))} = \int_{-\infty}^{\infty} \mathbf{g(x)} f(x) dx$$
例子:要找到 \(E(X^2)\),令 \(g(x) = x^2\):
$$E(X^2) = \int x^2 f(x) dx$$
例子:如果你需要計算某商品的預期成本,且價格由公式 \(C = 5X + 10\) 決定,你需要計算 \(E(5X + 10) = \int (5x + 10) f(x) dx\)。
常見錯誤: 在計算方差時,學生常忘記將公式中的「最終平均值」平方,即 \([E(X)]^2\)。請確保先計算 \(E(X)\),再計算 \(E(X^2)\),最後應用方差公式。
6. 連續隨機變量的函數(進階步驟)
在進階數學中,你必須能求出新變量 \(Y\) 的分佈(包括 CDF 和 PDF),其中 \(Y\) 定義為 \(X\) 的函數,即 \(Y = g(X)\)。
最可靠的方法是先找到 Y 的 CDF, \(F_Y(y)\),然後對其微分以求出 Y 的 PDF, \(f_Y(y)\)。
逐步教學:尋找 \(Y = g(X)\) 的分佈
-
定義 Y 的 CDF: 從定義出發:
$$F_Y(y) = P(Y \leq y)$$ -
代入並與 X 聯繫: 將 \(Y\) 替換為 \(g(X)\):
$$F_Y(y) = P(g(X) \leq y)$$ -
解出 X: 重新排列不等式 \(g(X) \leq y\) 以分離 \(X\)。假設所得的不等式為 \(X \leq h(y)\)。
(如果函數 \(g\) 是遞減的,請小心符號和方向的變化!) -
使用 X 的 CDF: 既然我們現在有了關於 \(X\) 的概率陳述,我們可以使用已知的 \(X\) 的 CDF, \(F_X(x)\):
$$F_Y(y) = P(X \leq h(y)) = F_X(h(y))$$ -
求 Y 的 PDF: 使用連鎖律對 \(F_Y(y)\) 關於 \(y\) 進行微分:
$$f_Y(y) = \frac{d}{dy} F_Y(y)$$
簡單例子:\(Y = X^3\)
假設 \(X\) 是定義在 \(x > 0\) 的 CRV。我們要求 \(Y\) 的 PDF。
- $$F_Y(y) = P(Y \leq y)$$
- $$F_Y(y) = P(X^3 \leq y)$$
- 解出 X:假設 \(y>0\),這意味著 \(X \leq y^{1/3}\)。 (此處 \(h(y) = y^{1/3}\))
- 使用 \(F_X\): $$F_Y(y) = F_X(y^{1/3})$$
-
微分得到 \(f_Y(y)\):使用連鎖律,\(f_Y(y) = F'_X(y^{1/3}) \cdot \frac{d}{dy}(y^{1/3})\)。
由於 \(F'_X = f_X\),我們得到:
$$f_Y(y) = f_X(y^{1/3}) \cdot \frac{1}{3} y^{-2/3}$$
接著,你只需將 \(X\) 的具體 PDF \(f_X(x)\) 代入此結果即可得到最終答案。
重點總結: 求 X 函數的分佈始終遵循相同的模式:CDF、代入、求解、微分。
章節總結:連續隨機變量
- PDF \(f(x)\): 定義概率密度。必須滿足 \(\geq 0\) 且 \(\int f(x) dx = 1\)。
- 概率: \(P(a < X < b) = \int_a^b f(x) dx\)。
- CDF \(F(x)\): 累積概率:\(F(x) = \int_{-\infty}^{x} f(t) dt\)。
- 微積分連結: \(f(x) = F'(x)\)。
-
期望值: 計算函數期望值的通用結果為:
$$E(g(X)) = \int g(x) f(x) dx$$ - CRV 的函數: 先通過將不等式 \(Y \leq y\) 轉化為 \(X\) 的不等式來求 \(F_Y(y)\),然後對 \(F_Y(y)\) 微分得到 \(f_Y(y)\)。