Probability generating functions (pgf)

概率生成函数 (PGF)：FS1.4 学习笔记

你好，未来的数学家！欢迎来到统计学中最巧妙、最强大的工具之一：概率生成函数 (Probability Generating Function, PGF)。

别被它的名字吓到了！简单来说，PGF 就像是一段简洁的数学“代码”或“数据文件”，它将离散随机变量概率分布的*所有*信息都压缩在一个整洁的多项式（或幂级数）中。

本章将带你解锁这段代码，让你能够轻松求出概率、均值和方差，而无需进行复杂的求和或积分。让我们开始吧！

1. 定义概率生成函数 (\(G_X(t)\))

什么是 PGF？

离散随机变量 \(X\) 的 PGF 记作 \(G_X(t)\)，它是包含哑变量 \(t\) 的一个期望值。

你可以把 \(t\) 看作一个占位符。我们利用 \(t\) 的幂指数来“存储”每个可能结果对应的概率。

正式定义

对于取值为 \(x_1, x_2, x_3, \dots\) 且对应概率为 \(p_1, p_2, p_3, \dots\) 的离散随机变量 \(X\)，其 PGF 定义为：

\(G_X(t) = E(t^X) = \sum_{\text{all } x} t^x P(X=x)\)

通俗点说：你取随机变量 \(X\) 的每一个可能值 \(x\)，将 \(t\) 的 \(x\) 次幂 (\(t^x\)) 乘以该值发生的概率 (\(P(X=x)\))，最后将它们全部加起来。

示例：掷骰子

设 \(X\) 为掷一枚公平六面骰子的结果。\(X\) 的取值为 1, 2, 3, 4, 5 或 6，每个结果的概率均为 \(1/6\)。
其 PGF 为：
\(G_X(t) = t^1 P(X=1) + t^2 P(X=2) + \dots + t^6 P(X=6)\)
\(G_X(t) = \frac{1}{6}t + \frac{1}{6}t^2 + \frac{1}{6}t^3 + \frac{1}{6}t^4 + \frac{1}{6}t^5 + \frac{1}{6}t^6\)
\(G_X(t) = \frac{1}{6}(t + t^2 + t^3 + t^4 + t^5 + t^6)\)

重点提示：概率 \(P(X=x)\) 正是函数 \(G_X(t)\) 中项 \(t^x\) 的系数。

2. 性质：从 PGF 中提取概率

最直接且实用的性质之一就是能够还原出原始概率。

性质 1：提取概率

如果你已知 PGF \(G_X(t)\)，那么随机变量 \(X\) 取特定值 \(x\) 的概率可以通过以下方式找到：

\(P(X = x) = G_X(t) \text{ 中 } t^x \text{ 的系数}\)

这就是 PGF 如此强大的原因——它确实能够“生成”概率！

快速检查性质：\(G_X(1) = 1\)

如果在 PGF 公式中令 \(t=1\)：
\(G_X(1) = \sum 1^x P(X=x) = \sum P(X=x)\)
由于所有概率之和必须为 1，因此 \(G_X(1)\) 必须始终等于 1。这是检验你推导出的 PGF 是否正确的绝佳方法。

避免常见错误：记住 \(G_X(t)\) 是 \(t\) 的函数。不要试图解出 \(t\) 的值，要把 \(t\) 看作一个符号占位符。

3. 性质：生成均值和方差（矩）

PGF 最大的用处在于通过简单的求导来计算均值 (\(\mu\)) 和方差 (\(\sigma^2\))。

寻找均值 (\(\mu\))

均值，即期望 \(E(X)\)，可以通过 PGF 的一阶导数在 \(t=1\) 时的值求得。

第一步：求出导数 \(G'_X(t)\)。
第二步：将 \(t=1\) 代入导数中。

均值：\(\mu = E(X) = G'_X(1)\)

寻找方差 (\(\sigma^2\))

方差需要用到一阶和二阶导数，并在 \(t=1\) 时求值。

第一步：求出二阶导数 \(G''_X(t)\)。
第二步：计算 \(G''_X(1)\)。
第三步：使用方差公式（大纲中提供）：

方差：\(\sigma^2 = G''_X(1) + \mu - \mu^2\)

等等，为什么要用这个公式？
你知道吗？ \(G''_X(1)\) 的值实际上等于 \(E(X^2) - E(X)\)，即 \(E(X^2) - \mu\)。如果你重排方差的标准公式 \(\sigma^2 = E(X^2) - \mu^2\)，你会得到：
\(\sigma^2 = [G''_X(1) + \mu] - \mu^2\)。
这就是为什么在 PGF 中必须使用 \(\sigma^2 = G''_X(1) + \mu - \mu^2\) 这个特定公式。

重点提示：PGF 将复杂的求和运算转化为了简单的求导步骤，从而轻松求出均值和方差。

4. 标准分布的 PGF 推导

根据教学大纲要求，你需要掌握（或能立即写出）关键分布的 PGF。

4.1 伯努利分布 (Ber(p))

伯努利变量 \(X\) 取值为 \(x=0\)（失败）或 \(x=1\)（成功）。
\(P(X=0) = q\) (其中 \(q = 1-p\))
\(P(X=1) = p\)

\(G_X(t) = \sum t^x P(X=x)\)
\(G_X(t) = t^0 P(X=0) + t^1 P(X=1)\)
\(G_X(t) = 1 \cdot q + t \cdot p\)

伯努利 PGF：\(G_X(t) = q + pt\)

4.2 二项分布 (B(n, p))

二项变量 \(X\) 是 \(n\) 次独立伯努利试验的成功次数之和。
\(P(X=x) = \binom{n}{x} p^x q^{n-x}\)，其中 \(x=0, 1, \dots, n\)。

\(G_X(t) = \sum_{x=0}^{n} t^x P(X=x)\)
\(G_X(t) = \sum_{x=0}^{n} t^x \binom{n}{x} p^x q^{n-x}\)
\(G_X(t) = \sum_{x=0}^{n} \binom{n}{x} (pt)^x q^{n-x}\)

认出这个结构了吗？这就是 \((A+B)^n\) 的二项式展开，其中 \(A=q\)，\(B=pt\)。

二项分布 PGF：\(G_X(t) = (q + pt)^n\)

4.3 几何分布 (Geo(p))

几何变量 \(X\) 表示首次成功所需的试验次数 (\(x=1, 2, 3, \dots\))。
\(P(X=x) = q^{x-1} p\)

\(G_X(t) = \sum_{x=1}^{\infty} t^x P(X=x)\)
\(G_X(t) = \sum_{x=1}^{\infty} t^x q^{x-1} p\)
\(G_X(t) = p \sum_{x=1}^{\infty} t^x q^{x-1}\)

展开级数：
\(G_X(t) = p (t^1 q^0 + t^2 q^1 + t^3 q^2 + \dots)\)
\(G_X(t) = pt (1 + qt + (qt)^2 + (qt)^3 + \dots)\)

括号内的表达式是一个无限几何级数，首项 \(a=1\)，公比 \(r=qt\)。
级数和为 \(\frac{a}{1-r} = \frac{1}{1 - qt}\)。

几何分布 PGF：\(G_X(t) = \frac{pt}{1 - qt}\)

4.4 离散均匀分布

设 \(X\) 为离散均匀变量，取值为 \(1, 2, \dots, N\)，每个取值的概率均为 \(1/N\)。

\(G_X(t) = \sum_{x=1}^{N} t^x P(X=x) = \sum_{x=1}^{N} t^x \frac{1}{N}\)
\(G_X(t) = \frac{1}{N} (t^1 + t^2 + t^3 + \dots + t^N)\)

括号内的表达式是一个几何级数，其中 \(a=t\)，公比 \(r=t\)，共有 \(N\) 项。其和为 \(\frac{a(1-r^N)}{1-r}\)。

均匀分布 PGF：\(G_X(t) = \frac{t(1 - t^N)}{N(1 - t)}\)

快速回顾：必须牢记的 PGF

伯努利 \(Ber(p)\)： \(G_X(t) = q + pt\)

二项分布 \(B(n, p)\)： \(G_X(t) = (q + pt)^n\)

几何分布 \(Geo(p)\)： \(G_X(t) = \frac{pt}{1 - qt}\)

5. 独立随机变量之和

这可以说是使用 PGF 最强大的理由：它们简化了独立随机变量相加的过程。

性质 2：和的 PGF

如果 \(X\) 和 \(Y\) 是独立的离散随机变量，且 \(W = X + Y\)，那么和 \(W\) 的 PGF 等于它们各自 PGF 的乘积。

\(G_{X+Y}(t) = G_X(t) G_Y(t)\)

类比：想象你有两个不同过程的独立数据文件（PGF）。如果这些过程是相互独立的，你只需将文件相乘，就能合并它们的信息！

应用示例：二项分布之和

假设 \(X_1 \sim B(n_1, p)\) 和 \(X_2 \sim B(n_2, p)\) 是相互独立的，分别测量两组不同试验的成功次数（成功概率 \(p\) 相同）。
设 \(W = X_1 + X_2\)。
\(G_{X_1}(t) = (q + pt)^{n_1}\)
\(G_{X_2}(t) = (q + pt)^{n_2}\)

\(G_W(t) = G_{X_1}(t) G_{X_2}(t) = (q + pt)^{n_1} \cdot (q + pt)^{n_2}\)
\(G_W(t) = (q + pt)^{n_1 + n_2}\)

由于结果符合二项分布的 PGF 形式，我们可以直接断定和 \(W\) 服从二项分布：
\(W \sim B(n_1 + n_2, p)\)。

这种乘法性质使得合并分布变得极其简单，而如果使用传统的概率方法（卷积）来计算分布之和，过程会非常复杂。

重点提示：当对独立随机变量求和时，请将它们的 PGF 相乘。这通常有助于识别最终结果的分布规律。

重要提醒与常见错误

1. 求导是关键：在求方差时，切记要计算 \(G'_X(1)\)（均值 \(\mu\)）和 \(G''_X(1)\) 二者，然后再带入公式：\(\sigma^2 = G''_X(1) + \mu - \mu^2\)。

2. 仅限独立和：性质 \(G_{X+Y}(t) = G_X(t) G_Y(t)\) 仅在 \(X\) 和 \(Y\) 独立时成立。如果它们不独立，该关系式不适用。

3. 检查 \(G_X(1) = 1\)：如果你推导出的 PGF 在 \(t=1\) 时不等于 1，那么你一定算错了！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。