Moment generating functions (mgf)

矩母函数 (MGFs)：统计学中的“超级工具”

各位未来的高等数学（Further Mathematicians）学霸们，大家好！欢迎来到统计学中最强大且最优雅的主题之一：矩母函数 (Moment Generating Functions, MGFs)。

这一章可能因为涉及指数函数和微积分而看起来有些令人头疼，但别担心！矩母函数本质上是一种秘密武器——它是一个极其精妙的函数，将概率分布中所有最重要的信息（如均值和方差）全部打包在一起。

学完这份笔记，你将掌握如何定义 MGF，如何利用它快速求出分布的均值和方差，以及如何结合 MGF 来分析独立变量之和。

什么是“矩”（Moment）？

在统计学中，矩是一种特定形式的期望值。

一阶矩就是期望值，即 \(E(X)\)，也就是我们常说的均值（\(\mu\)）。
二阶矩即 \(E(X^2)\)。

之所以叫“矩母函数”，是因为它的导数在 \(t=0\) 时的取值，正好就是这些“矩”！

1. 定义矩母函数 \(M_X(t)\)

定义

随机变量 \(X\) 的矩母函数 (MGF) 定义为 \(e^{tX}\) 的期望值，其中 \(t\) 是一个辅助变量（占位符）。

记作 \(M_X(t)\)：

\[ M_X(t) = E(e^{tX}) \]

计算 \(M_X(t)\) （公式）

计算期望的方法取决于随机变量 \(X\) 是离散的还是连续的。

(a) 对于离散型随机变量（如泊松分布）

如果 \(X\) 是离散的，其概率质量函数 (p.m.f.) 为 \(P(X=x) = p_i\)：

\[ M_X(t) = \sum e^{tx} p_i \]

（这是对所有可能取值 \(x\) 求和。）

(b) 对于连续型随机变量（如指数分布、正态分布）

如果 \(X\) 是连续的，其概率密度函数 (p.d.f.) 为 \(f(x)\)：

\[ M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x) dx \]

（这是对 \(x\) 的整个定义域进行积分。）

快速回顾：MGF 秘籍

MGF 仅仅是 \(e^{tX}\) 的期望值。你只需将标准公式 \(E(g(X))\) 中的 \(X\) 替换为函数 \(g(X) = e^{tX}\) 即可。

2. 核心性质：求均值和方差

这就是 MGF 大显身手的地方。我们不必再使用繁琐的方法去寻找 \(E(X)\) 和 \(E(X^2)\)（比如求和或积分 \(x p_i\) 或 \(x f(x)\) 等），而是可以通过求导直接得出。

寻找均值 (\(\mu\))

均值 \(\mu = E(X)\)，可以通过将 MGF 求一次导数，然后令 \(t=0\) 得到。

\[ \mu = E(X) = M'_X(0) \]

均值计算步骤：

对 \(M_X(t)\) 求一阶导数，记作 \(M'_X(t)\)。
将 \(t=0\) 代入 \(M'_X(t)\)。

寻找方差 (\(\sigma^2\))

方差 \(\sigma^2 = Var(X) = E(X^2) - [E(X)]^2\)，需要用到二阶矩 \(E(X^2)\)。

二阶矩可以通过将 MGF 求两次导数，然后令 \(t=0\) 得到。

\[ E(X^2) = M''_X(0) \]

最终方差公式为：

\[ \sigma^2 = M''_X(0) - [M'_X(0)]^2 \]

方差计算步骤：

对 \(M_X(t)\) 求二阶导数，记作 \(M''_X(t)\)。
将 \(t=0\) 代入 \(M''_X(t)\)，得到 \(E(X^2)\)。
使用之前求得的均值 \(\mu = M'_X(0)\)。
计算 \(\sigma^2 = E(X^2) - \mu^2\)。

记忆辅助：求导符号的数量对应期望中 \(X\) 的幂次。\(M'_X(0) \rightarrow E(X^1)\)，\(M''_X(0) \rightarrow E(X^2)\)。切记一定要在 \(t=0\) 时取值！

⚠️ 常见错误提醒！

千万不要先代入 \(t=0\) 再求导。如果你先代入，MGF 就变成了 \(M_X(0) = E(e^0) = E(1) = 1\)，而常数 (1) 的导数永远是 0！你必须先求导，再代入 \(t=0\)。

3. 标准分布的 MGF（需掌握推导）

考纲要求你掌握泊松分布、指数分布和正态分布的 MGF 及其推导。虽然这里不展示完整的代数证明，但记住最终形式对实际应用至关重要。

3.1. 泊松分布

若 \(X \sim \text{Po}(\lambda)\)，则 MGF 为：

\[ M_X(t) = e^{\lambda(e^t - 1)} \]

（推导涉及 \(e^u\) 的泰勒级数展开。）

你知道吗？ 对这个 MGF 进行求导，可以证实对于泊松分布，\(\mu = \lambda\) 且 \(\sigma^2 = \lambda\)。

3.2. 指数分布

若 \(X \sim \text{Exp}(\lambda)\)，其 p.d.f. 为 \(f(x) = \lambda e^{-\lambda x}\)（对于 \(x \geq 0\)）。其 MGF 为：

\[ M_X(t) = \frac{\lambda}{\lambda - t}, \quad \text{当 } t < \lambda \text{ 时} \]

（推导涉及计算积分 \(\int_0^\infty e^{tx} \cdot \lambda e^{-\lambda x} dx\)。）

3.3. 正态分布

若 \(X \sim N(\mu, \sigma^2)\)，该 MGF 的推导相当复杂，但最终形式非常简洁：

\[ M_X(t) = e^{\mu t + \frac{1}{2}\sigma^2 t^2} \]

核心要点（标准 MGF）

识别这些特定的形式非常关键。如果计算结果符合指数分布的 MGF 形式，你就能立刻识别出分布类型及其参数 \(\lambda\)。

4. MGF 的运算：线性组合与和

MGF 之所以重要，是因为它简化了随机变量的运算，经常能用简单的代数代替复杂的卷积或密度函数变换。

4.1. 线性变换：\(Y = a + bX\)

如果通过缩放和平移 \(X\) 定义了一个新变量 \(Y\)，其 MGF \(M_Y(t)\) 可以很容易得出：

\[ M_{a+bX}(t) = e^{at} M_X(bt) \]

原理是什么？
根据定义： \(M_{a+bX}(t) = E(e^{t(a+bX)}) = E(e^{at} e^{btX})\)。因为 \(e^{at}\) 是常数（与随机变量 \(X\) 无关），我们可以将其移出期望算子： \(M_{a+bX}(t) = e^{at} E(e^{btX})\)。由于 \(E(e^{uX}) = M_X(u)\)，我们得到 \(E(e^{btX}) = M_X(bt)\)。

在标准化随机变量（例如 \(Z = \frac{X - \mu}{\sigma}\)，此时 \(a = -\frac{\mu}{\sigma}\)，\(b = \frac{1}{\sigma}\)）时，这一性质特别有用。

4.2. 独立随机变量之和

本节最重要的结论之一是 MGF 如何处理独立变量之和。

如果 \(X_1\) 和 \(X_2\) 是独立随机变量，且 \(Z = X_1 + X_2\)，那么和的 MGF 等于它们各自 MGF 的乘积：

\[ M_{X_1 + X_2}(t) = M_{X_1}(t) \cdot M_{X_2}(t) \]

类比：把 MGF 看作分布的“DNA”或“蓝图”。当你结合两个独立系统（如将两个得分相加）时，只需将它们的统计蓝图相乘，即可得到总得分的蓝图。

应用：为什么它如此强大？

这一性质对于证明统计定理至关重要，特别是在处理正态分布和泊松分布时。

例 1（正态分布）： 如果 \(X_1 \sim N(\mu_1, \sigma_1^2)\) 和 \(X_2 \sim N(\mu_2, \sigma_2^2)\) 是独立的，我们相乘它们的 MGF：
\(M_{X_1+X_2}(t) = e^{\mu_1 t + \frac{1}{2}\sigma_1^2 t^2} \cdot e^{\mu_2 t + \frac{1}{2}\sigma_2^2 t^2}\)
\(M_{X_1+X_2}(t) = e^{(\mu_1 + \mu_2) t + \frac{1}{2}(\sigma_1^2 + \sigma_2^2) t^2}\)

最终得出的 MGF 显然是一个均值为 \(\mu_1 + \mu_2\)，方差为 \(\sigma_1^2 + \sigma_2^2\) 的正态分布的 MGF。这证明了两个独立正态变量之和仍服从正态分布！

例 2（泊松分布）： 如果 \(X_1 \sim \text{Po}(\lambda_1)\) 和 \(X_2 \sim \text{Po}(\lambda_2)\) 是独立的，通过相乘 MGF，可以证明 \(X_1 + X_2 \sim \text{Po}(\lambda_1 + \lambda_2)\)。

5. 学习技巧与关键数学技能

微积分先修技能

在这一章取得成功的关键在于能否准确地对指数函数和代数函数进行求导。

你必须熟练掌握以下技能：

链式法则： 在对复合 MGF 求导时至关重要，例如 \(M_X(t) = e^{\lambda(e^t - 1)}\)。记住要乘以内部函数的导数 (\(\lambda e^t\))。
乘积法则： 如果求导结果包含两个关于 \(t\) 的函数相乘（例如 \(t \cdot e^{-t}\)），则必须使用此法则。
\(e^{kt}\) 的基本求导： \(\frac{d}{dt}(e^{kt}) = k e^{kt}\)。

MGF 唯一性定理

MGF 唯一性定理指出，如果两个随机变量具有相同的 MGF，那么它们必然服从相同的分布。

为什么这很重要？ 这意味着如果你计算出一个和的 MGF，且结果看起来与某个标准分布（如正态分布 MGF）完全一致，那么你就自动识别出了该和的分布，无需进行任何额外的工作！

快速检查清单

解决 MGF 问题时，问自己：

我处理的是离散（求和）还是连续（积分）变量？
为了求均值，我是否只求导一次并令 \(t=0\)？即 \(M'_X(0)\)
为了求\(E(X^2)\)，我是否求导两次并令 \(t=0\)？即 \(M''_X(0)\)
当合并独立变量时，我是否把 MGF 相乘了？

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。