Continuous random variables

📚 學習筆記：連續隨機變量 (9709 P&S 2, 第 6.3 節)

歡迎來到概率與統計 2 (Probability and Statistics 2) 中最理論化但也最核心的課題之一！在單元 5 (P&S 1) 中，我們處理的主要是離散隨機變量 (Discrete Random Variables)（例如計數數據）。現在，我們將踏入連續隨機變量 (Continuous Random Variables) 的世界，這裡我們處理的是測量數據（例如時間、重量或溫度）。這正是你的純數 (Pure Mathematics) 技巧（尤其是積分！）與統計學結合的地方。如果初看覺得棘手也不用擔心——這其實就只是在求圖形下的面積而已！

1. 理解連續隨機變量 (CRVs)

連續隨機變量 (X) 是指在給定範圍（或區間）內可以取任何值的變量。試著把它想像成「測量」某個量，而不是「計算」某個數。

CRV 與 DRV 的簡要回顧

離散隨機變量 (DRV)： 取值是可數的（例如擲硬幣的正反面次數、擲骰子的點數）。概率由 $P(X=x)$ 給出。
連續隨機變量 (CRV)： 在一個區間內可以取任何值（例如跑 100 米所需的時間、身高）。

⚠ CRV 的關鍵性質：
對於任何單一的特定值 $x$，其概率永遠為零：

$$P(X = x) = 0$$

類比：想像在數線上投擲飛鏢。擊中 $x=5.000000...$ 這個精確點的機會是零。我們只能算出落入某個範圍（例如 4.9 到 5.1 之間）的概率。

正因如此，在計算概率時，是否包含邊界點並不重要：

$$P(a \le X \le b) = P(a < X < b) = P(a < X \le b)$$

重點總結： 對於 CRV，我們計算的是區間（面積）的概率，而非單個點的概率。

2. 概率密度函數 (PDF), $f(x)$

由於我們不能像離散統計那樣使用概率質量函數，我們改用概率密度函數 (Probability Density Function, PDF), $f(x)$。此函數描述了隨機變量取某個值的相對可能性。

把 PDF 想像成一座小山的輪廓。山的高度 ($f(x)$) 顯示了數值最容易聚積的地方。

PDF 的性質

為了讓 $f(x)$ 成為有效的 PDF，它必須滿足兩個基本性質：

1. 非負性 (Non-negativity)

函數值必須永遠大於或等於零，因為概率不可能是負數。
$$f(x) \ge 0 \quad \text{對於所有 } x$$

2. 總面積為 1

整個圖形下的總面積必須等於 1 (即 100%)，因為隨機變量必然會取到某個值。
$$\int_{-\infty}^{\infty} f(x) \, dx = 1$$
在實際應用中，由於 $f(x)$ 通常是在特定的區間 $[a, b]$ 內定義的，這可以簡化為： $$\int_{a}^{b} f(x) \, dx = 1$$

學習小撇步：這個性質通常用於求函數定義中的未知常數 $k$（例如 $f(x) = kx^2$）。

3. 計算概率（積分的威力）

連續隨機變量 $X$ 落在兩個數值 $a$ 和 $b$ 之間的概率，等於該區間內 PDF 曲線下的面積。

概率公式

$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$

計算步驟

如果你已知 $f(x)$ 並被要求計算 $P(a < X < b)$：

確定上下限： 找出下限 $a$ 和上限 $b$。
建立積分式： 寫出定積分 $\int_{a}^{b} f(x) \, dx$。
進行積分： 計算積分值（記住純數的積分規則，必要時使用代換法，雖然這裡很少用到複雜的 P3 代換）。
求值： 代入上限 $b$ 和下限 $a$ 以得出最終概率。

需避免的常見錯誤： 在計算概率時，請確保你的積分限 $(a, b)$ 落在 $f(x)$ 的定義域內。如果變量只存在於 0 到 5 之間，積分到 10 是沒有意義的！

重點總結： 概率是通過對 PDF 在所需區間進行積分（即求面積）來找到的。

4. 求位置和離散程度的指標

與離散變量一樣，我們需要平均值 (mean) 和變異數 (variance) 來理解分佈的中心和離散程度。

A. 平均值（期望值）, $E(X)$

平均值 $\mu$ 是 $X$ 的期望值。

該公式將離散變量中的總和 $\sum x P(X=x)$ 替換為積分：

$$E(X) = \mu = \int_{-\infty}^{\infty} x f(x) \, dx$$

如果函數僅在 $a$ 到 $b$ 之間定義：

$$E(X) = \int_{a}^{b} x f(x) \, dx$$

記憶輔助：要求平均值，你需要積分 x 乘以該函數 ($x \cdot f(x)$)。

B. 變異數, $Var(X)$

變異數衡量數據圍繞平均值的離散程度。通用公式同樣適用：

$$Var(X) = E(X^2) - [E(X)]^2$$

首先，你必須透過積分計算 $E(X^2)$：

$$E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) \, dx$$

然後，將此值與之前算出的平均值 $E(X)$ 代入變異數公式即可。

重點總結： 平均值和變異數的計算分別需要對 $x f(x)$ 和 $x^2 f(x)$ 進行積分。積分完成後，請善用你的計算機進行繁重的算術運算！

5. 求中位數與百分位數

中位數和百分位數用來定位分佈中的特定點，通常需要解一個包含積分的方程。

A. 中位數, $m$

中位數 ($m$) 是將分佈平分的值。一半的概率質量位於其下方，另一半位於其上方。

因此，要找到中位數 $m$，你需要解以下方程：

$$\int_{Domain_{start}}^{m} f(x) \, dx = 0.5$$

例如：如果函數定義在 0 到 4 之間，你要找出 $m$，使得 $\int_{0}^{m} f(x) \, dx = 0.5$。

B. 百分位數

$p^{th}$ 百分位數 ($k$) 是指一個值，使得有 $p\%$ 的分佈位於其下方。

要找出代表 $p^{th}$ 百分位數的值 $k$（例如第 90 百分位數，即 $p=90$），你需要解：

$$\int_{Domain_{start}}^{k} f(x) \, dx = \frac{p}{100}$$

你知道嗎？中位數其實就是第 50 百分位數！

☞ 例子：求第 90 百分位數

如果 $X$ 定義在 $x > 0$，而你需要求第 90 百分位數 $k$：

$$P(X < k) = 0.9$$

你建立積分式：$\int_{0}^{k} f(x) \, dx = 0.9$。接著進行積分，代入 $k$ 和 0，最後解出關於 $k$ 的方程。

重點總結： 中位數與百分位數涉及將面積積分設為所需的概率（中位數為 0.5），並解出積分上限。

6. 公式快速回顧 (MF19 參考)

以下是你必須掌握的 CRV 關鍵公式，詳見你的公式手冊 (MF19, 概率與統計部分)：

連續隨機變量

期望值（平均值）：

$$E(X) = \int x f(x) \, dx$$

變異數：

$$Var(X) = \int x^2 f(x) \, dx - \{E(X)\}^2$$

請記住，任何 PDF $f(x)$ 的絕對要求是總面積必須為 1：

$$\int f(x) \, dx = 1$$

這個單元的成功很大程度上依賴於準確的積分以及解方程的能力。設置積分限時一定要細心！

最後的鼓勵： 你已經在純數學中掌握了積分。這一章只是教你如何在概率的背景下，運用積分的知識以及了解其背後的原因。繼續練習你的積分計算吧！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。