簡介:歡迎來到連續變數的世界

各位未來的統計學家,你們好!單元 S2 將帶領大家進入連續隨機變數 (Continuous Random Variables) 的精彩世界。你們在 S1 已經熟練掌握了「離散隨機變數」,也就是統計那些可以「數」出來的項目(例如擲硬幣的正面次數:0, 1, 2 等等)。

在這一章,我們要將焦點轉向「測量」——比如時間、高度、重量或溫度。這些測量值可以在一個範圍內取任何數值,而不僅僅是特定的整數。

這一章至關重要,因為它將統計學與微積分(積分與微分)結合在一起。別擔心!我們會一步步拆解每一個概念。掌握這些計算方法後,你將能解鎖強大的預測能力!


快速複習:離散 vs. 連續

  • 離散 (Discrete):數值是可數的。機率定義在確定的點上:\(P(X = x)\)。
  • 連續 (Continuous):數值是在一個範圍內可測量的。機率定義在區間之上。

第 1 節:認識連續隨機變數 (CRVs)

什麼是 CRV?

連續隨機變數 (Continuous Random Variable, CRV),通常以 \(X\) 表示,是指可以在指定區間或多個區間內取任意值的變數。

它與離散變數的主要區別在於我們如何處理機率:

零機率規則

對於任何連續隨機變數 \(X\),變數取某個精確單一點值的機率永遠為零

\[P(X = x) = 0\]

類比:試想你要射中一個連續線段上的目標。你擊中精確點 3.000000000... 的機率是多少?這個機率小到無限趨近於零,所以我們直接將其視為零。

核心含義:由於擊中精確點的機率為零,所以在計算區間機率時,是否包含端點完全沒有影響:

\[P(a \le X \le b) = P(a < X < b) = P(a \le X < b)\]

與離散變數相比,這簡化了不少工作!


第 2 節:機率密度函數 (PDF) – \(f(x)\)

由於我們不能將機率分配給單一點,我們使用一個函數來描述機率如何在一個範圍內「分佈」。這就是機率密度函數 (Probability Density Function, PDF),記作 \(f(x)\)。

你可以把 PDF 想成機率分佈的形狀。在 \(f(x)\) 較高的地方,該變數出現的機率就越高。

PDF \(f(x)\) 的性質

要成為有效的 PDF,\(f(x)\) 必須滿足兩個基本規則:

  1. 非負性:密度函數絕不能為負數。 \[f(x) \ge 0 \quad \text{對於所有 } x\]
  2. 總面積為一:曲線 \(f(x)\) 下方的總面積必須等於 1,這代表總機率 (100%)。 \[\int_{\text{所有 } x} f(x) \, dx = 1\]

使用 PDF 計算機率

機率可以通過計算 \(f(x)\) 在目標區間內的曲線下面積得出。這意味著我們需要使用積分

變數 \(X\) 落在 \(a\) 和 \(b\) 之間的機率為:

\[P(a < X < b) = \int_{a}^{b} f(x) \, dx\]

逐步教學:尋找未知常數 (k)

通常 PDF 會以 \(f(x) = kx^2\)(在特定區間內)的形式給出,你需要求出 \(k\)。

  1. 設定積分:使用「總面積規則」(性質 2)。 \[\int_{\text{下限}}^{\text{上限}} f(x) \, dx = 1\]
  2. 積分並代入極限:對該函數關於 \(x\) 進行積分。
  3. 解出 k:將結果設為 1 並解方程式。

步驟 1 的重要提示:只對 \(f(x)\) 非零的範圍進行積分。如果 \(f(x)\) 定義在 \(1 \le x \le 3\),你的積分上下限就是 1 和 3。

快速複習:PDF 重點

PDF (\(f(x)\)):描述機率密度。

機率:PDF 曲線下的面積(通過積分計算)。

關鍵恆等式:總面積必須等於 1。


第 3 節:累積分布函數 (CDF) – \(F(x)\)

PDF 告訴我們某一點的密度,而累積分布函數 (Cumulative Distribution Function, CDF) 則告訴我們累積到某個數值 \(x\) 為止的總機率。

定義與計算

CDF 記作 \(F(x)\),定義為隨機變數 \(X\) 小於或等於特定值 \(x\) 的機率。

\[F(x) = P(X \le x) = \int_{\text{最小值}}^{x} f(t) \, dt\]

注意:我們在積分內使用 \(t\) 作為虛擬變數,以避免與上限 \(x\) 混淆。

CDF \(F(x)\) 的性質
  1. \(F(x)\) 是一個非遞減函數(隨著 \(x\) 增加,機率只會增加或保持不變)。
  2. 在分佈的起點(下限 L):\(F(L) = 0\)。
  3. 在分佈的終點(上限 U):\(F(U) = 1\)。

PDF 與 CDF 的關係:微積分是你的好朋友

這兩個函數通過微積分基本定理聯繫在一起:

  1. PDF \(\to\) CDF:對 \(f(x)\) 進行積分以求出 \(F(x)\)。
  2. CDF \(\to\) PDF:對 \(F(x)\) 進行微分以求出 \(f(x)\)。 \[f(x) = \frac{d}{dx} F(x)\]

記憶小撇步:在字母表中,C 排在 P 後面。如果你從 F(x) 回到 f(x)(字母表倒退),你需要微分(較簡單的運算)。如果你從 f(x) 到 F(x)(字母表前進),你需要積分(較複雜的運算)。

使用 CDF 找區間機率

一旦你有了 \(F(x)\),求區間機率只需簡單的減法:

\[P(a < X < b) = F(b) - F(a)\]

這通常比再次對 PDF 進行積分要快得多!

避免常見錯誤!

當使用積分計算 \(F(x)\) 時,千萬別忘了加上 +C(積分常數)(如果你進行的是不定積分)。你可以通過邊界條件 \(F(\text{下限}) = 0\) 來求出 C。


第 4 節:位置測量(平均值、中位數、眾數)

就像任何數據集一樣,我們需要找出分佈的中心和典型值。

1. 平均值(期望值,\(\mu\) 或 \(E(X)\))

平均值代表如果你對變數進行多次抽樣後所預期的平均值。它是分佈的重心。

對於連續變數,期望值的計算公式如下:

\[E(X) = \mu = \int_{\text{所有 } x} x \cdot f(x) \, dx\]

你知道嗎?這是離散公式 \(\sum x P(X=x)\) 的連續版本。在這裡,積分取代了求和,而 \(f(x) \, dx\) 取代了 \(P(X=x)\)。

2. 中位數 (\(m\))

中位數是將機率分佈精確分為兩半的數值 \(m\)。分佈中 50% 的部分低於 \(m\),50% 高於 \(m\)。

要找到中位數 \(m\),你需要解以下其中一個方程式:

使用 CDF: \[F(m) = 0.5\]

使用 PDF: \[\int_{\text{下限}}^{m} f(x) \, dx = 0.5\]

給同學的小撇步:如果你已經算出了 CDF \(F(x)\),那麼找中位數通常更容易。只需將 \(F(x)\) 的表達式設為 0.5 並解出 \(x\) 即可。

3. 眾數

眾數是 \(X\) 的值,使得機率密度函數 \(f(x)\) 達到其最高點(曲線的峰值)。

尋找眾數(無需微積分):
如果 \(f(x)\) 的形狀簡單(例如常數或直線),通過觀察或在範圍邊界即可找到眾數。

尋找眾數(使用微積分):
如果 \(f(x)\) 是複雜曲線(例如二次或三次函數):

  1. 微分 PDF:求出 \(f'(x)\)。
  2. 將導數設為零:\(f'(x) = 0\)。
  3. 解出 \(x\)。
  4. 檢查邊界,並使用二階導數檢定(或觀察法)確保這是最大值,而不是最小值。


第 5 節:離散度測量(變異數與標準差)

離散度測量告訴我們數據圍繞平均值的集中或分散程度。

\(X^2\) 的期望值

在計算變異數之前,必須先計算 \(X^2\) 的期望值,記作 \(E(X^2)\)。其計算方式類似 \(E(X)\),但我們要積分 \(x^2 f(x)\)。

\[E(X^2) = \int_{\text{所有 } x} x^2 \cdot f(x) \, dx\]

變異數 (\(Var(X)\) 或 \(\sigma^2\))

變異數測量的是距離平均值的平方平均距離。它定義為著名的恆等式:

\[Var(X) = E(X^2) - [E(X)]^2\]

變異數計算步驟:

  1. 使用 \(\int x f(x) \, dx\) 計算 \(E(X) = \mu\)。
  2. 使用 \(\int x^2 f(x) \, dx\) 計算 \(E(X^2)\)。
  3. 將結果代入變異數公式:\(E(X^2) - (\mu)^2\)。

標準差 (\(\sigma\))

標準差是變異數的平方根。我們通常更偏好使用標準差,因為它的單位與隨機變數 \(X\) 相同。

\[\sigma = \sqrt{Var(X)}\]

🚨 常見錯誤警示!

千萬不要將 \(E(X^2)\) 與 \([E(X)]^2\) 混淆。它們是完全不同的東西。你必須先計算 \(E(X)\),然後再將該結果平方,用於計算變異數。

你現在已經涵蓋了連續隨機變數的所有核心概念!記住,多做積分練習是這一章成功的關鍵。