動差生成函數 (Moment Generating Functions, MGFs):統計學的超強工具

各位未來的進階數學家,大家好!歡迎來到統計學中最強大且優雅的主題之一:動差生成函數 (Moment Generating Functions,簡稱 MGFs)。

這一章節可能會因為涉及指數函數和微積分而顯得有些嚇人,但請別擔心!MGF 本質上是一個秘密武器——它是一個巧妙的函數,能將關於機率分佈的所有重要資訊(如平均值和變異數)通通打包在一起。

看完這些筆記後,你將能掌握如何定義 MGF,運用它快速求出分佈的平均值與變異數,並結合 MGF 來分析獨立變數之和。

什麼是「動差」(Moment)?

在統計學中,動差是一種特定類型的期望值。

  • 一階動差就是期望值 \(E(X)\),也就是平均值 (\(\mu\))。
  • 二階動差則是 \(E(X^2)\)。

之所以稱為動差生成函數,是因為當我們對它進行微分並代入 \(t=0\) 時,就能「生成」這些動差!

1. 定義動差生成函數 \(M_X(t)\)

定義

隨機變數 \(X\) 的動差生成函數定義為 \(e^{tX}\) 的期望值,其中 \(t\) 是一個虛擬變數(佔位符)。

它記作 \(M_X(t)\):

\[ M_X(t) = E(e^{tX}) \]

計算 \(M_X(t)\)(公式)

計算期望值的方法取決於隨機變數 \(X\) 是離散型還是連續型。

(a) 對於離散隨機變數(例如卜瓦松分佈)

如果 \(X\) 是離散型,且機率質量函數 (p.m.f.) 為 \(P(X=x) = p_i\):

\[ M_X(t) = \sum e^{tx} p_i \]

(這是對所有可能的 \(x\) 值進行求和。)

(b) 對於連續隨機變數(例如指數分佈、常態分佈)

如果 \(X\) 是連續型,且機率密度函數 (p.d.f.) 為 \(f(x)\):

\[ M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \]

(這是對 \(x\) 的整個範圍進行積分。)

快速回顧:MGF 運作守則

MGF 實際上就是 \(e^{tX}\) 的期望值。你只需將標準期望值公式 \(E(g(X))\) 中的 \(X\) 替換為特定函數 \(g(X) = e^{tX}\) 即可。

2. 關鍵性質:求平均值與變異數

這是 MGF 真正發光發熱的地方。我們不需要使用繁瑣的方法來求 \(E(X)\) 和 \(E(X^2)\)(例如對 \(x p_i\) 或 \(x f(x)\) 進行求和或積分),而是可以透過微分輕鬆達成。

尋找平均值 (\(\mu\))

平均值 \(\mu = E(X)\) 可以透過對 MGF 微分一次,然後代入 \(t=0\) 來求得。

\[ \mu = E(X) = M'_X(0) \]

求平均值的步驟:

  1. 找出 \(M_X(t)\) 的一階導數,記作 \(M'_X(t)\)。
  2. 將 \(t=0\) 代入 \(M'_X(t)\)。

尋找變異數 (\(\sigma^2\))

變異數 \(\sigma^2 = Var(X) = E(X^2) - [E(X)]^2\),這需要用到二階動差 \(E(X^2)\)。

二階動差可以透過對 MGF 微分兩次,然後代入 \(t=0\) 來求得。

\[ E(X^2) = M''_X(0) \]

最終的變異數公式為:

\[ \sigma^2 = M''_X(0) - [M'_X(0)]^2 \]

求變異數的步驟:

  1. 找出 \(M_X(t)\) 的二階導數,記作 \(M''_X(t)\)。
  2. 將 \(t=0\) 代入 \(M''_X(t)\),這會得到 \(E(X^2)\)。
  3. 使用求平均值時得到的結果 \(\mu = M'_X(0)\)。
  4. 計算 \(\sigma^2 = E(X^2) - \mu^2\)。

記憶小撇步:微分的次數對應著動差的階數。\(M'_X(0) \rightarrow E(X^1)\),\(M''_X(0) \rightarrow E(X^2)\)。記得永遠要代入 \(t=0\)!

⚠️ 常見錯誤警示!

千萬不要在微分之前就代入 \(t=0\)。如果你先代入,MGF 就會變成 \(M_X(0) = E(e^0) = E(1) = 1\),而常數 (1) 的導數是 0!請務必先微分,再代入 \(t=0\)。

3. 常見分佈的 MGF(需掌握推導)

課程大綱要求你必須了解卜瓦松 (Poisson)、指數 (Exponential) 和常態 (Normal) 分佈的 MGF 及其推導過程。雖然此處不展示完整的代數證明,但記住它們的最終形式對於解題至關重要。

3.1. 卜瓦松分佈 (Poisson Distribution)

若 \(X \sim \text{Po}(\lambda)\),則其 MGF 為:

\[ M_X(t) = e^{\lambda(e^t - 1)} \]

(推導過程涉及使用 \(e^u\) 的泰勒級數。)

你知道嗎? 利用此 MGF 的微分規則,可以證實對於卜瓦松分佈,\(\mu = \lambda\) 且 \(\sigma^2 = \lambda\)。

3.2. 指數分佈 (Exponential Distribution)

若 \(X \sim \text{Exp}(\lambda)\),其 p.d.f. 為 \(f(x) = \lambda e^{-\lambda x}\)(當 \(x \geq 0\) 時)。其 MGF 為:

\[ M_X(t) = \frac{\lambda}{\lambda - t}, \quad \text{對於 } t < \lambda \]

(推導過程涉及計算積分 \(\int_0^\infty e^{tx} \cdot \lambda e^{-\lambda x} dx\)。)

3.3. 常態分佈 (Normal Distribution)

若 \(X \sim N(\mu, \sigma^2)\),雖然其 MGF 推導過程相當複雜,但最終形式非常精簡:

\[ M_X(t) = e^{\mu t + \frac{1}{2}\sigma^2 t^2} \]

重點總結(標準 MGF)

識別這些特定形式至關重要。如果計算結果呈現指數分佈的 MGF 形式,你立刻就能知道該分佈及其參數 \(\lambda\)。

4. 操作 MGF:線性組合與加總

MGF 之所以重要,是因為它們簡化了隨機變數的操作,通常能用簡單的代數取代複雜的卷積 (convolutions) 或密度轉換。

4.1. 線性變換:\(Y = a + bX\)

如果我們透過縮放和平移 \(X\) 來定義一個新變數 \(Y\),其 MGF \(M_Y(t)\) 可以輕易求出:

\[ M_{a+bX}(t) = e^{at} M_X(bt) \]

這是如何運作的?
根據定義: \(M_{a+bX}(t) = E(e^{t(a+bX)}) = E(e^{at} e^{btX})\)。 由於 \(e^{at}\) 是一個常數(它不依賴於隨機變數 \(X\)),我們可以將其從期望值符號中提出來: \(M_{a+bX}(t) = e^{at} E(e^{btX})\)。 又因為 \(E(e^{uX}) = M_X(u)\),所以 \(E(e^{btX}) = M_X(bt)\)。

當我們將隨機變數標準化(例如 \(Z = \frac{X - \mu}{\sigma}\),其中 \(a = -\frac{\mu}{\sigma}\) 且 \(b = \frac{1}{\sigma}\))時,這個性質特別有用。

4.2. 獨立隨機變數之和

這一節最重要的結論之一是 MGF 如何處理獨立變數的和。

如果 \(X_1\) 和 \(X_2\) 是獨立隨機變數,且 \(Z = X_1 + X_2\),則總和的 MGF 等於各自 MGF 的乘積

\[ M_{X_1 + X_2}(t) = M_{X_1}(t) \cdot M_{X_2}(t) \]

類比:將 MGF 想像成一個分佈的「DNA」或「藍圖」。當你結合兩個獨立系統(例如將兩項分數相加)時,只需將它們的統計藍圖相乘,就能得到總分的藍圖。

應用:為什麼這很強大?

此性質對於證明統計定理至關重要,特別是在涉及常態分佈和卜瓦松分佈時。

  • 例 1 (常態分佈): 如果 \(X_1 \sim N(\mu_1, \sigma_1^2)\) 和 \(X_2 \sim N(\mu_2, \sigma_2^2)\) 是獨立的,我們將它們的 MGF 相乘:
    \(M_{X_1+X_2}(t) = e^{\mu_1 t + \frac{1}{2}\sigma_1^2 t^2} \cdot e^{\mu_2 t + \frac{1}{2}\sigma_2^2 t^2}\)
    \(M_{X_1+X_2}(t) = e^{(\mu_1 + \mu_2) t + \frac{1}{2}(\sigma_1^2 + \sigma_2^2) t^2}\)

由此得到的 MGF 明顯符合常態分佈 \(N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)\) 的形式。這證明了兩個獨立常態變數之和仍然是常態分佈!

  • 例 2 (卜瓦松分佈): 如果 \(X_1 \sim \text{Po}(\lambda_1)\) 和 \(X_2 \sim \text{Po}(\lambda_2)\) 是獨立的,將它們的 MGF 相乘即可證明 \(X_1 + X_2 \sim \text{Po}(\lambda_1 + \lambda_2)\)。

5. 學習技巧與核心數學能力

必備的微積分技巧

本章節的成功很大程度上取決於你是否能精確地對指數和代數函數進行微分。

你必須熟練掌握以下技巧:

  • 連鎖律 (Chain Rule): 當微分含有複合函數的 MGF 時非常重要,例如 \(M_X(t) = e^{\lambda(e^t - 1)}\)。記得要乘以內部函數的導數 (\(\lambda e^t\))。
  • 乘積律 (Product Rule): 如果微分結果是兩個 \(t\) 函數的乘積(例如 \(t \cdot e^{-t}\)),就需要用到此法則。
  • \(e^{kt}\) 的基本微分: \(\frac{d}{dt}(e^{kt}) = k e^{kt}\)。

MGF 唯一性定理

MGF 唯一性定理指出,如果兩個隨機變數具有相同的 MGF,那麼它們一定具有相同的機率分佈。

為什麼這很重要? 這意味著如果你計算出變數總和的 MGF,且結果看起來與某個標準分佈(如常態分佈)的 MGF 完全一樣,那麼你就不需要額外的步驟,直接就能識別出總和的分佈型態!

快速複習檢核表

當解決 MGF 問題時,請自我檢核:

  • 處理的是離散型(求和)還是連續型(積分)變數?
  • 為了求平均值,我有沒有微分一次並代入 \(t=0\)?即 \(M'_X(0)\)。
  • 為了求 \(E(X^2)\),我有沒有微分兩次並代入 \(t=0\)?即 \(M''_X(0)\)。
  • 當結合獨立變數時,我有沒有將它們的 MGF 相乘