Continuous random variables

連續隨機變量：S2 統計學筆記

歡迎來到精彩的連續隨機變量 (Continuous Random Variables) 世界！如果你已經成功掌握了離散隨機變量，那麼你已經成功了一半。它們的主要區別在於：我們不再是「數」結果（例如擲骰子的次數），而是「測量」結果（例如時間或身高）。由於無法進行計數，我們需要將統計工具箱中的求和符號 ($\Sigma$) 升級為強大的微積分 (Calculus) 語言（積分與微分）！

如果積分讓你感到頭痛，別擔心——這一章是運用你純數 (Pure Maths) 技巧的絕佳機會，它會讓你明白為什麼那些積分法則如此重要。

1. 離散與連續：關鍵區別

在研究隨機變量 (Random Variables, RVs) 時，我們根據它們可取值的類型進行分類：

離散隨機變量（複習）

取值為有限的、可數的數值（例如：0, 1, 2, 3）。
我們使用概率質量函數 (Probability Mass Function, PMF)，即 $P(X=x)$，為每個點分配一個特定的概率。
我們使用求和 ($\Sigma$) 來計算總概率或期望值。

連續隨機變量 (CRVs)

可以在指定範圍或區間內取任意值（例如：機器故障的時間、學生的精確身高）。
由於任意兩點之間有無窮多個可能的值，變量取某個確切單點值的概率為零。
關鍵結論： $P(X = a) = 0$。這意味著對於連續隨機變量，$P(a < X < b)$ 與 $P(a \le X \le b)$ 是完全一樣的！
我們使用積分 ($\int$) 來計算區間內的概率（即曲線下的面積）。

類比：想像馬拉松選手的完賽時間。他們在 4 小時 0 分 0.00000000... 秒「精確」完成比賽的概率幾乎為零，因為時間是連續的。我們只能計算他們在 4 小時到 4 小時 5 分鐘之間完成比賽的概率。

重點總結 1：

對於連續隨機變量，概率是在一個區間（面積）上進行測量的，而不是在單點上。如果你看到 $P(X=k)$，答案永遠是 $0$。

2. 概率密度函數 (PDF), $f(x)$

對於連續隨機變量 $X$，我們使用一個稱為概率密度函數 (Probability Density Function, PDF) 的函數，記作 $f(x)$。

什麼是 $f(x)$？

PDF 描述了概率如何在所有可能值的範圍內分佈。它本身不是概率，而是點 $x$ 處的概率「密度」。

PDF 的有效性條件

要使 $f(x)$ 成為有效的 PDF，它必須滿足兩個基本條件：

非負性： 概率密度不能為負。
$$\text{即，對所有 } x \text{，都有 } f(x) \ge 0$$
總概率（面積為 1）： PDF 曲線下的總面積必須等於 1。
$$\text{即，} \int_{-\infty}^{\infty} f(x) dx = 1$$ （實際應用中，由於 $f(x)$ 通常定義在特定區間 $[a, b]$ 上，該積分變為 $\int_{a}^{b} f(x) dx = 1$）。

使用 PDF 計算概率

要找出 $X$ 介於兩個值 $a$ 和 $b$ 之間的概率，我們只需計算該區間內 PDF 曲線下的面積：

$$P(a < X < b) = \int_{a}^{b} f(x) dx$$

逐步教學：求未知常數 $k$

許多考試題目會要求你求出定義在區間 $[a, b]$ 上的 PDF 中的未知常數 $k$。

建立積分式： 使用總概率規則，$\int_{a}^{b} k \cdot (\text{關於 } x \text{ 的函數}) dx = 1$。
對函數積分： 執行關於 $x$ 的積分運算。
代入極限： 使用 $F(b) - F(a)$ 計算定積分。
解出 $k$： 將結果等於 1，並解出 $k$ 的值。

快速複習：PDF

$f(x)$ 是概率密度。
$f(x)$ 下方的總面積必須為 $1$。
概率通過積分求得。

3. 累積分布函數 (CDF), $F(x)$

累積分布函數 (Cumulative Distribution Function, CDF)，記作 $F(x)$，告訴我們累積到特定值 $x$ 為止的總概率。其定義為：

$$F(x) = P(X \le x)$$

微積分關係：PDF 與 CDF

這就是純數知識派上用場的地方！由於 $F(x)$ 是累積的概率（面積），它是 PDF $f(x)$ 的積分：

$$F(x) = \int_{-\infty}^{x} f(t) dt$$

（我們在積分內使用虛擬變量 $t$，以免與上限 $x$ 混淆。）

反之，PDF 是 CDF 的變化率，即 CDF 的導數：

$$f(x) = \frac{d}{dx} F(x)$$

CDF 的性質與應用

CDF 必須從 0 開始並以 1 結束：
- 對於 $X$ 的最小值，$F(x) = 0$。
- 對於 $X$ 的最大值，$F(x) = 1$。
使用 CDF 計算區間概率： 這通常比積分 PDF 快得多。
$$P(a < X < b) = F(b) - F(a)$$

求百分位數與中位數

常見的任務是求與給定概率對應的特定值 $k$（百分位數或四分位數）。例如，求中位數 (Median)，$m$。

中位數 $m$ 是滿足 $P(X \le m) = 0.5$ 的值。
要求 $m$，你需要解方程 $F(m) = 0.5$，或者如果尚未求出 $F(x)$： $$ \int_{a}^{m} f(x) dx = 0.5 $$

你知道嗎？中位數是一個衡量集中趨勢的重要指標，因為與平均值不同，它不受極端離群值影響！

重點總結 2：

PDF 和 CDF 通過微分和積分相互聯繫。使用 PDF 來推導 CDF，並使用 CDF 快速求得概率和百分位數。

4. 集中趨勢與離散程度的度量

與離散隨機變量一樣，我們需要計算連續隨機變量的平均值（期望值）、方差和標準差。我們只需要將求和改為積分即可。

平均值或期望值, $E(X)$

平均值 $\mu$ 是隨機變量的長期平均水平，代表了分佈的「平衡點」。

$$E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx$$

函數的期望值, $E(g(X))$

如果我們對 $X$ 的某個函數（例如 $X^2$, $1/X$）的期望值感興趣，我們使用通用公式：

$$E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dx$$

常見錯誤：請記得在積分前，先將函數 $g(x)$ 乘以密度函數 $f(x)$。

方差, $\text{Var}(X)$

方差衡量數據圍繞平均值的離散程度。

定義公式為 $\text{Var}(X) = E((X-\mu)^2)$。但在計算時，你必須使用以下公式：

$$\text{Var}(X) = E(X^2) - [E(X)]^2$$

使用該公式的步驟：

先計算 $E(X)$（如上所述）。
使用 $E(g(X))$ 的公式計算 $E(X^2)$，其中 $g(x) = x^2$：
$$E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx$$
將兩個結果代入方差公式。

標準差, $\sigma$

標準差僅是方差的平方根，它給出了與 $X$ 原始單位相同的離散程度。

$$\sigma = \sqrt{\text{Var}(X)}$$

重點總結 3：

平均值和方差的計算涉及積分。計算方差時，請始終使用簡化公式 $\text{Var}(X) = E(X^2) - [E(X)]^2$。

5. 連續隨機變量的運算

這些規則規定了當你轉換單個變量或組合兩個獨立變量時，均值和方差如何變化。它們與離散隨機變量的規則完全相同。

5.1 單個變量的線性變換

設 $Y = aX + b$，其中 $a$ 和 $b$ 為常數。

期望值規則

乘以 $a$ 並加上 $b$，平均值會發生相同的偏移：

$$E(aX + b) = aE(X) + b$$

例子：如果平均分 $E(X)$ 是 50，那麼乘以 2 再加上 10 後的平均分是 $2(50) + 10 = 110$。

方差規則

加上常數 $b$ 不會改變離散程度，但乘以 $a$ 會使方差按 $a^2$ 的比例縮放（因為方差的單位是平方）：

$$\text{Var}(aX + b) = a^2\text{Var}(X)$$

例子：如果 $\text{Var}(X)=4$，那麼 $\text{Var}(3X - 5)$ 等於 $3^2 \times 4 = 36$。

5.2 兩個獨立變量的和與差

設 $X$ 和 $Y$ 為兩個獨立的連續隨機變量。

期望值規則（加法性）

和或差的期望值等於個別期望值的和或差：

$$E(aX \pm bY) = aE(X) \pm bE(Y)$$

方差規則（永遠相加）

當你組合獨立變量時，無論你是相加還是相減，不確定性（方差）總是會增加。兩個變量的波動都會導致最終離散程度的增加。

$$\text{Var}(aX \pm bY) = a^2\text{Var}(X) + b^2\text{Var}(Y)$$

記憶小竅門：方差的差值計算依然是求和！$\text{Var}(X-Y) = \text{Var}(X) + \text{Var}(Y)$。
思考：減去兩個變量只會使整體結果更加分散且不可預測，因此方差必然增加。

重點總結 4：

線性變換規則至關重要！記住，期望值是線性縮放的，但方差按係數的平方縮放，且當組合獨立隨機變量時，方差永遠相加。

快速複習：連續隨機變量

下表總結了本章計算所需的核心公式：

計算總結

概念	公式
總面積（歸一化）	$\int_{-\infty}^{\infty} f(x) dx = 1$
區間概率	$P(a < X < b) = \int_{a}^{b} f(x) dx$
CDF	$F(x) = \int_{-\infty}^{x} f(t) dt$
平均值 $E(X)$	$\int_{-\infty}^{\infty} x f(x) dx$
方差 $\text{Var}(X)$	$E(X^2) - [E(X)]^2$
線性期望值	$E(aX+b) = aE(X) + b$
線性方差	$\text{Var}(aX+b) = a^2\text{Var}(X)$
和/差的方差（獨立）	$\text{Var}(aX \pm bY) = a^2\text{Var}(X) + b^2\text{Var}(Y)$

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

概念	公式
總面積（歸一化）	\(\int_{-\infty}^{\infty} f(x) dx = 1\)
區間概率	\(P(a < X < b) = \int_{a}^{b} f(x) dx\)
CDF	\(F(x) = \int_{-\infty}^{x} f(t) dt\)
平均值 \(E(X)\)	\(\int_{-\infty}^{\infty} x f(x) dx\)
方差 \(\text{Var}(X)\)	\(E(X^2) - [E(X)]^2\)
線性期望值	\(E(aX+b) = aE(X) + b\)
線性方差	\(\text{Var}(aX+b) = a^2\text{Var}(X)\)
和/差的方差（獨立）	\(\text{Var}(aX \pm bY) = a^2\text{Var}(X) + b^2\text{Var}(Y)\)