Probability generating functions

概率生成函数 (PGFs)：学习笔记（9231 进阶概率与统计）

你好！本章将介绍进阶统计中最优雅的工具之一：概率生成函数 (Probability Generating Function, PGF)。如果听起来觉得复杂，请别担心——它本质上是一种巧妙的方法，将离散随机变量的所有概率信息“打包”进一个函数中。一旦打包完成，我们就可以利用微积分（微分！）这一强大工具来轻松求得均值和方差。是不是很酷？

这一课题对于 Paper 4 至关重要，且仅针对离散随机变量。

1. 理解 PGF 的概念与定义

1.1 什么是 PGF？

PGF 通常记作 $G_X(t)$，它是一个代数函数，通过虚拟变量 $t$ 的幂次来存储离散随机变量 $X$ 的概率分布。

你可以把它想象成一个文件柜：索引编号（$t$ 的指数）告诉你正在查看哪个结果，而文件的内容（$t$ 的系数）则告诉你该结果的发生概率。

1.2 正式定义

对于取值为 $x_i$ 且概率为 $P(X=x_i)$ 的离散随机变量 $X$，其 PGF 定义为 $t^X$ 的期望值：

定义： $$G_X(t) = E(t^X) = \sum_{x} P(X=x) t^x$$

由于所有概率之和必须为 1，如果我们令 $t=1$，结果必须为 1：

$$G_X(1) = \sum P(X=x) (1)^x = \sum P(X=x) = 1$$

记忆小贴士：一定要检查 $G(1) = 1$。这是验证你推导的 PGF 是否正确的好方法！

1.3 提取概率

PGF 的精妙之处在于，一旦知道了函数 $G_X(t)$，你只需观察 $t$ 对应幂次的系数，就能找到任何特定结果的概率。

$P(X=0)$ 是 $t^0$ 的系数。
$P(X=1)$ 是 $t^1$ 的系数。
$P(X=k)$ 是 $t^k$ 的系数。

如果 PGF 是一个简单的多项式，你可以直接读出概率。如果它是一个更复杂的函数（例如包含 $e$ 或分数），你可能需要使用麦克劳林级数展开 (Maclaurin series expansion)（这是进阶纯数学中的概念）来求出系数。

$$P(X=k) = \frac{G_X^{(k)}(0)}{k!}$$ （即第 $k$ 阶导数在 $t=0$ 时的值，除以 $k!$）

核心要点： PGF $G_X(t)$ 是一系列项的和，其中 $t$ 的指数是随机变量的取值，系数是该取值的概率。且恒有 $G_X(1)=1$。

2. 构建标准分布的 PGF

你必须能够推导并使用最常见离散分布的 PGF。

2.1 离散均匀分布 (D(n))

如果 $X$ 是掷公平骰子的结果（$X=1, 2, 3, 4, 5, 6$），则对于所有结果，$P(X=x) = 1/6$。

$$G_X(t) = \sum_{x=1}^{6} P(X=x) t^x = \frac{1}{6}t^1 + \frac{1}{6}t^2 + ... + \frac{1}{6}t^6$$ $$G_X(t) = \frac{1}{n} \sum_{x=1}^{n} t^x \quad \text{或一般形式为} \quad G_X(t) = \frac{t(1-t^n)}{n(1-t)}$$ （注意：这是一个等比数列求和！）

2.2 二项分布 ($X \sim B(n, p)$)

使用定义 $G_X(t) = \sum P(X=x) t^x$。回想 $P(X=x) = \binom{n}{x} p^x q^{n-x}$，其中 $q=1-p$。

$$G_X(t) = \sum_{x=0}^{n} \left[ \binom{n}{x} q^{n-x} p^x \right] t^x$$ $$G_X(t) = \sum_{x=0}^{n} \binom{n}{x} q^{n-x} (pt)^x$$

根据二项式定理，该求和可以简化为：

$$G_X(t) = (q + pt)^n$$

2.3 几何分布 ($X \sim Geo(p)$)

几何分布（取决于你在基础 A Level 课程中使用的定义，这里指首次成功前的失败次数或直到首次成功所需的试验次数——我们使用 $P(X=x) = p q^{x-1}$，其中 $x=1, 2, 3...$ 的定义）

$$G_X(t) = \sum_{x=1}^{\infty} P(X=x) t^x = \sum_{x=1}^{\infty} p q^{x-1} t^x$$

提取 $pt$：

$$G_X(t) = pt \sum_{x=1}^{\infty} q^{x-1} t^{x-1} = pt \sum_{k=0}^{\infty} (qt)^k$$

这是一个公比为 $qt$ 的等比级数，且假设 $|qt| < 1$，其和为 $\frac{1}{1-qt}$。

$$G_X(t) = \frac{pt}{1 - qt}$$

2.4 泊松分布 ($X \sim Po(\lambda)$)

回想 $P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!}$，其中 $x=0, 1, 2...$

$$G_X(t) = \sum_{x=0}^{\infty} \left[ \frac{e^{-\lambda} \lambda^x}{x!} \right] t^x$$

提取 $e^{-\lambda}$ 并重排：

$$G_X(t) = e^{-\lambda} \sum_{x=0}^{\infty} \frac{(\lambda t)^x}{x!}$$

内部求和即为 $e^{\lambda t}$ 的麦克劳林级数展开。

$$G_X(t) = e^{-\lambda} e^{\lambda t} = e^{\lambda t - \lambda}$$

$$G_X(t) = e^{\lambda(t-1)}$$

标准 PGF 汇总（必须背诵或能快速推导）

二项分布： $G_X(t) = (q + pt)^n$
泊松分布： $G_X(t) = e^{\lambda(t-1)}$
几何分布： $G_X(t) = \frac{pt}{1 - qt}$

3. 使用 PGF 求均值和方差

这才是最神奇的地方！我们利用微分（微积分）来计算均值和方差，使得复杂的期望计算变得简单得多。

关键性质在于将 $G_X(t)$ 的一阶和二阶导数在 $t=1$ 处求值。

3.1 均值（期望值）

均值 $E(X)$ 可通过计算 PGF 的一阶导数并在 $t=1$ 处求值得出：

$$E(X) = G'_X(1)$$

你知道吗？这是因为当你对 $t$ 进行求导时，$t^{x-1}$ 的系数变成了 $x P(X=x)$。令 $t=1$ 后，求和项即为 $\sum x P(X=x)$，这正是均值 $E(X)$ 的定义。

3.2 方差 ($Var(X)$)

方差计算稍微复杂一些，需要二阶导数。MF19 手册中给出的公式为：

$$Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$$

这个公式看起来可能有些吓人，但请注意： $$E(X) = G'_X(1)$$ 且 $$E[X(X-1)] = G''_X(1)$$ 所以，方差公式不过是恒等式 $Var(X) = E(X^2) - [E(X)]^2$ 使用 PGF 的变形。

分步计算过程：

求一阶导数 $G'_X(t)$。
计算 $G'_X(1)$ 得出均值 $E(X)$。
求二阶导数 $G''_X(t)$。（如果需要，记得使用乘法法则！）
计算 $G''_X(1)$。
将 $G''_X(1)$ 和 $G'_X(1)$ 代入方差公式：$Var(X) = G''_X(1) + E(X) - [E(X)]^2$。

常见的错误：一定要在微分之后再代入 $t=1$，千万不要先代入再微分！如果你计算出 $G'_X(1)$ 后再微分，得到的结果只会是零。

示例：求 $X \sim Po(\lambda)$ 的均值和方差

已知 $G_X(t) = e^{\lambda(t-1)}$。

1. 一阶导数： $$G'_X(t) = \lambda e^{\lambda(t-1)}$$

2. 均值： 在 $t=1$ 处求值。 $$E(X) = G'_X(1) = \lambda e^{\lambda(1-1)} = \lambda e^0 = \lambda$$ （与泊松分布的已知结果一致！）

3. 二阶导数： 再次对 $G'_X(t)$ 微分。 $$G''_X(t) = \frac{d}{dt} \left[ \lambda e^{\lambda(t-1)} \right] = \lambda (\lambda e^{\lambda(t-1)}) = \lambda^2 e^{\lambda(t-1)}$$

4. 求 $G''_X(1)$： $$G''_X(1) = \lambda^2 e^{\lambda(1-1)} = \lambda^2$$

5. 方差： $$Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$$ $$Var(X) = \lambda^2 + \lambda - (\lambda)^2$$ $$Var(X) = \lambda$$ （与泊松分布的已知结果一致！这证实了 PGF 方法非常有效。）

核心要点： PGF 允许我们通过简单的微分并在 $t=1$ 处求值来找到 $E(X)$ 和 $Var(X)$。请严格使用 MF19 手册中提供的公式。

4. 独立随机变量的和

这可以说是 PGF 最强大的应用——它使我们能够轻松合并独立的随机变量。

4.1 乘法法则

如果 $X$ 和 $Y$ 是两个相互独立的离散随机变量，且 $Z = X + Y$，那么和 $Z$ 的 PGF 等于各自 PGF 的乘积：

$$G_Z(t) = G_X(t) \times G_Y(t)$$

该结果对于任意数量独立变量的求和均成立。

类比：如果 PGF 是“概率食谱”，那么将它们相乘就像是把两份独立的食谱混合在一起，得到合并结果的食谱。

4.2 应用：标准分布的求和

这一性质在证明“两个相同分布类型的变量之和仍保持该类型（但参数更新）”时特别有用。

例 1：独立二项分布变量的和
设 $X_1 \sim B(n_1, p)$ 和 $X_2 \sim B(n_2, p)$，且 $Z = X_1 + X_2$。（注意：它们必须具有相同的概率 $p$）。

$G_{X_1}(t) = (q + pt)^{n_1}$
$G_{X_2}(t) = (q + pt)^{n_2}$

和的 PGF 为： $$G_Z(t) = G_{X_1}(t) G_{X_2}(t) = (q + pt)^{n_1} (q + pt)^{n_2} = (q + pt)^{n_1 + n_2}$$ 由于 $G_Z(t)$ 的形式符合二项分布的 PGF，我们得出结论：$Z \sim B(n_1 + n_2, p)$。

例 2：独立泊松分布变量的和
设 $X_1 \sim Po(\lambda_1)$ 和 $X_2 \sim Po(\lambda_2)$，且 $Z = X_1 + X_2$。

$G_{X_1}(t) = e^{\lambda_1(t-1)}$
$G_{X_2}(t) = e^{\lambda_2(t-1)}$

和的 PGF 为： $$G_Z(t) = G_{X_1}(t) G_{X_2}(t) = e^{\lambda_1(t-1)} e^{\lambda_2(t-1)}$$ $$G_Z(t) = e^{(\lambda_1 + \lambda_2)(t-1)}$$ 由于 $G_Z(t)$ 的形式符合泊松分布的 PGF，我们得出结论：$Z \sim Po(\lambda_1 + \lambda_2)$。

快速复习：PGF 工具箱

求概率： $t^k$ 的系数即为 $P(X=k)$。
求均值： $E(X) = G'_X(1)$。
求方差： $Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$。
独立变量求和： 将 PGF 相乘：$G_{X+Y}(t) = G_X(t) G_Y(t)$。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

概率生成函数 (PGFs)：学习笔记（9231 进阶概率与统计）

1. 理解 PGF 的概念与定义

1.1 什么是 PGF？

1.2 正式定义

1.3 提取概率

2. 构建标准分布的 PGF

2.1 离散均匀分布 (D(n))

2.2 二项分布 (\(X \sim B(n, p)\))

2.3 几何分布 (\(X \sim Geo(p)\))

2.4 泊松分布 (\(X \sim Po(\lambda)\))

标准 PGF 汇总（必须背诵或能快速推导）

3. 使用 PGF 求均值和方差

3.1 均值（期望值）

3.2 方差 (\(Var(X)\))

示例：求 \(X \sim Po(\lambda)\) 的均值和方差

4. 独立随机变量的和

4.1 乘法法则

4.2 应用：标准分布的求和

立即实践所学