📚 學習筆記:連續隨機變量 (9709 P&S 2, 第 6.3 節)

歡迎來到概率與統計 2 (Probability and Statistics 2) 中最理論化但也最核心的課題之一!在單元 5 (P&S 1) 中,我們處理的主要是離散隨機變量 (Discrete Random Variables)(例如計數數據)。現在,我們將踏入連續隨機變量 (Continuous Random Variables) 的世界,這裡我們處理的是測量數據(例如時間、重量或溫度)。這正是你的純數 (Pure Mathematics) 技巧(尤其是積分!)與統計學結合的地方。如果初看覺得棘手也不用擔心——這其實就只是在求圖形下的面積而已!


1. 理解連續隨機變量 (CRVs)

連續隨機變量 (X) 是指在給定範圍(或區間)內可以取任何值的變量。試著把它想像成「測量」某個量,而不是「計算」某個數。

CRV 與 DRV 的簡要回顧
  • 離散隨機變量 (DRV): 取值是可數的(例如擲硬幣的正反面次數、擲骰子的點數)。概率由 \(P(X=x)\) 給出。
  • 連續隨機變量 (CRV): 在一個區間內可以取任何值(例如跑 100 米所需的時間、身高)。

⚠ CRV 的關鍵性質:
對於任何單一的特定值 \(x\),其概率永遠為零:

$$P(X = x) = 0$$

類比:想像在數線上投擲飛鏢。擊中 \(x=5.000000...\) 這個精確點的機會是零。我們只能算出落入某個範圍(例如 4.9 到 5.1 之間)的概率。

正因如此,在計算概率時,是否包含邊界點並不重要:

$$P(a \le X \le b) = P(a < X < b) = P(a < X \le b)$$

重點總結: 對於 CRV,我們計算的是區間(面積)的概率,而非單個點的概率。


2. 概率密度函數 (PDF), \(f(x)\)

由於我們不能像離散統計那樣使用概率質量函數,我們改用概率密度函數 (Probability Density Function, PDF), \(f(x)\)。此函數描述了隨機變量取某個值的相對可能性。

把 PDF 想像成一座小山的輪廓。山的高度 (\(f(x)\)) 顯示了數值最容易聚積的地方。

PDF 的性質

為了讓 \(f(x)\) 成為有效的 PDF,它必須滿足兩個基本性質:

1. 非負性 (Non-negativity)

  • 函數值必須永遠大於或等於零,因為概率不可能是負數。
  • $$f(x) \ge 0 \quad \text{對於所有 } x$$

2. 總面積為 1

  • 整個圖形下的總面積必須等於 1 (即 100%),因為隨機變量必然會取到某個值。
  • $$\int_{-\infty}^{\infty} f(x) \, dx = 1$$
  • 在實際應用中,由於 \(f(x)\) 通常是在特定的區間 \([a, b]\) 內定義的,這可以簡化為: $$\int_{a}^{b} f(x) \, dx = 1$$

學習小撇步:這個性質通常用於求函數定義中的未知常數 \(k\)(例如 \(f(x) = kx^2\))。


3. 計算概率(積分的威力)

連續隨機變量 \(X\) 落在兩個數值 \(a\) 和 \(b\) 之間的概率,等於該區間內 PDF 曲線下的面積

概率公式

$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$

計算步驟

如果你已知 \(f(x)\) 並被要求計算 \(P(a < X < b)\):

  1. 確定上下限: 找出下限 \(a\) 和上限 \(b\)。
  2. 建立積分式: 寫出定積分 \(\int_{a}^{b} f(x) \, dx\)。
  3. 進行積分: 計算積分值(記住純數的積分規則,必要時使用代換法,雖然這裡很少用到複雜的 P3 代換)。
  4. 求值: 代入上限 \(b\) 和下限 \(a\) 以得出最終概率。

需避免的常見錯誤: 在計算概率時,請確保你的積分限 \((a, b)\) 落在 \(f(x)\) 的定義域內。如果變量只存在於 0 到 5 之間,積分到 10 是沒有意義的!

重點總結: 概率是通過對 PDF 在所需區間進行積分(即求面積)來找到的。


4. 求位置和離散程度的指標

與離散變量一樣,我們需要平均值 (mean) 和變異數 (variance) 來理解分佈的中心和離散程度。

A. 平均值(期望值), \(E(X)\)

平均值 \(\mu\) 是 \(X\) 的期望值。

該公式將離散變量中的總和 \(\sum x P(X=x)\) 替換為積分:

$$E(X) = \mu = \int_{-\infty}^{\infty} x f(x) \, dx$$

如果函數僅在 \(a\) 到 \(b\) 之間定義:

$$E(X) = \int_{a}^{b} x f(x) \, dx$$

記憶輔助:要求平均值,你需要積分 x 乘以該函數 (\(x \cdot f(x)\))。

B. 變異數, \(Var(X)\)

變異數衡量數據圍繞平均值的離散程度。通用公式同樣適用:

$$Var(X) = E(X^2) - [E(X)]^2$$

首先,你必須透過積分計算 \(E(X^2)\):

$$E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) \, dx$$

然後,將此值與之前算出的平均值 \(E(X)\) 代入變異數公式即可。

重點總結: 平均值和變異數的計算分別需要對 \(x f(x)\) 和 \(x^2 f(x)\) 進行積分。積分完成後,請善用你的計算機進行繁重的算術運算!


5. 求中位數與百分位數

中位數和百分位數用來定位分佈中的特定點,通常需要解一個包含積分的方程。

A. 中位數, \(m\)

中位數 (\(m\)) 是將分佈平分的值。一半的概率質量位於其下方,另一半位於其上方。

因此,要找到中位數 \(m\),你需要解以下方程:

$$\int_{Domain_{start}}^{m} f(x) \, dx = 0.5$$

例如:如果函數定義在 0 到 4 之間,你要找出 \(m\),使得 \(\int_{0}^{m} f(x) \, dx = 0.5\)。

B. 百分位數

\(p^{th}\) 百分位數 (\(k\)) 是指一個值,使得有 \(p\%\) 的分佈位於其下方。

要找出代表 \(p^{th}\) 百分位數的值 \(k\)(例如第 90 百分位數,即 \(p=90\)),你需要解:

$$\int_{Domain_{start}}^{k} f(x) \, dx = \frac{p}{100}$$

你知道嗎?中位數其實就是第 50 百分位數!

☞ 例子:求第 90 百分位數

如果 \(X\) 定義在 \(x > 0\),而你需要求第 90 百分位數 \(k\):

$$P(X < k) = 0.9$$

你建立積分式:\(\int_{0}^{k} f(x) \, dx = 0.9\)。接著進行積分,代入 \(k\) 和 0,最後解出關於 \(k\) 的方程。

重點總結: 中位數與百分位數涉及將面積積分設為所需的概率(中位數為 0.5),並解出積分上限。


6. 公式快速回顧 (MF19 參考)

以下是你必須掌握的 CRV 關鍵公式,詳見你的公式手冊 (MF19, 概率與統計部分):

連續隨機變量

期望值(平均值):

$$E(X) = \int x f(x) \, dx$$

變異數:

$$Var(X) = \int x^2 f(x) \, dx - \{E(X)\}^2$$

請記住,任何 PDF \(f(x)\) 的絕對要求是總面積必須為 1:

$$\int f(x) \, dx = 1$$

這個單元的成功很大程度上依賴於準確的積分以及解方程的能力。設置積分限時一定要細心!

最後的鼓勵: 你已經在純數學中掌握了積分。這一章只是教你如何在概率的背景下,運用積分的知識以及了解其背後的原因。繼續練習你的積分計算吧!