概率生成函数 (PGF):FS1.4 学习笔记

你好,未来的数学家!欢迎来到统计学中最巧妙、最强大的工具之一:概率生成函数 (Probability Generating Function, PGF)

别被它的名字吓到了!简单来说,PGF 就像是一段简洁的数学“代码”或“数据文件”,它将离散随机变量概率分布的*所有*信息都压缩在一个整洁的多项式(或幂级数)中。

本章将带你解锁这段代码,让你能够轻松求出概率、均值和方差,而无需进行复杂的求和或积分。让我们开始吧!


1. 定义概率生成函数 (\(G_X(t)\))

什么是 PGF?

离散随机变量 \(X\) 的 PGF 记作 \(G_X(t)\),它是包含哑变量 \(t\) 的一个期望值。

你可以把 \(t\) 看作一个占位符。我们利用 \(t\) 的幂指数来“存储”每个可能结果对应的概率。

正式定义

对于取值为 \(x_1, x_2, x_3, \dots\) 且对应概率为 \(p_1, p_2, p_3, \dots\) 的离散随机变量 \(X\),其 PGF 定义为:

\(G_X(t) = E(t^X) = \sum_{\text{all } x} t^x P(X=x)\)

通俗点说:你取随机变量 \(X\) 的每一个可能值 \(x\),将 \(t\) 的 \(x\) 次幂 (\(t^x\)) 乘以该值发生的概率 (\(P(X=x)\)),最后将它们全部加起来。

示例:掷骰子

设 \(X\) 为掷一枚公平六面骰子的结果。\(X\) 的取值为 1, 2, 3, 4, 5 或 6,每个结果的概率均为 \(1/6\)。
其 PGF 为:
\(G_X(t) = t^1 P(X=1) + t^2 P(X=2) + \dots + t^6 P(X=6)\)
\(G_X(t) = \frac{1}{6}t + \frac{1}{6}t^2 + \frac{1}{6}t^3 + \frac{1}{6}t^4 + \frac{1}{6}t^5 + \frac{1}{6}t^6\)
\(G_X(t) = \frac{1}{6}(t + t^2 + t^3 + t^4 + t^5 + t^6)\)

重点提示:概率 \(P(X=x)\) 正是函数 \(G_X(t)\) 中项 \(t^x\) 的系数。


2. 性质:从 PGF 中提取概率

最直接且实用的性质之一就是能够还原出原始概率。

性质 1:提取概率

如果你已知 PGF \(G_X(t)\),那么随机变量 \(X\) 取特定值 \(x\) 的概率可以通过以下方式找到:

\(P(X = x) = G_X(t) \text{ 中 } t^x \text{ 的系数}\)

这就是 PGF 如此强大的原因——它确实能够“生成”概率!

快速检查性质:\(G_X(1) = 1\)

如果在 PGF 公式中令 \(t=1\):
\(G_X(1) = \sum 1^x P(X=x) = \sum P(X=x)\)
由于所有概率之和必须为 1,因此 \(G_X(1)\) 必须始终等于 1。这是检验你推导出的 PGF 是否正确的绝佳方法。

避免常见错误:记住 \(G_X(t)\) 是 \(t\) 的函数。不要试图解出 \(t\) 的值,要把 \(t\) 看作一个符号占位符。


3. 性质:生成均值和方差(矩)

PGF 最大的用处在于通过简单的求导来计算均值 (\(\mu\)) 和方差 (\(\sigma^2\))。

寻找均值 (\(\mu\))

均值,即期望 \(E(X)\),可以通过 PGF 的一阶导数在 \(t=1\) 时的值求得。

第一步:求出导数 \(G'_X(t)\)。
第二步:将 \(t=1\) 代入导数中。

均值:\(\mu = E(X) = G'_X(1)\)

寻找方差 (\(\sigma^2\))

方差需要用到一阶和二阶导数,并在 \(t=1\) 时求值。

第一步:求出二阶导数 \(G''_X(t)\)。
第二步:计算 \(G''_X(1)\)。
第三步:使用方差公式(大纲中提供):

方差:\(\sigma^2 = G''_X(1) + \mu - \mu^2\)

等等,为什么要用这个公式?
你知道吗? \(G''_X(1)\) 的值实际上等于 \(E(X^2) - E(X)\),即 \(E(X^2) - \mu\)。如果你重排方差的标准公式 \(\sigma^2 = E(X^2) - \mu^2\),你会得到:
\(\sigma^2 = [G''_X(1) + \mu] - \mu^2\)。
这就是为什么在 PGF 中必须使用 \(\sigma^2 = G''_X(1) + \mu - \mu^2\) 这个特定公式。

重点提示:PGF 将复杂的求和运算转化为了简单的求导步骤,从而轻松求出均值和方差。


4. 标准分布的 PGF 推导

根据教学大纲要求,你需要掌握(或能立即写出)关键分布的 PGF。

4.1 伯努利分布 (Ber(p))

伯努利变量 \(X\) 取值为 \(x=0\)(失败)或 \(x=1\)(成功)。
\(P(X=0) = q\) (其中 \(q = 1-p\))
\(P(X=1) = p\)

\(G_X(t) = \sum t^x P(X=x)\)
\(G_X(t) = t^0 P(X=0) + t^1 P(X=1)\)
\(G_X(t) = 1 \cdot q + t \cdot p\)

伯努利 PGF:\(G_X(t) = q + pt\)

4.2 二项分布 (B(n, p))

二项变量 \(X\) 是 \(n\) 次独立伯努利试验的成功次数之和。
\(P(X=x) = \binom{n}{x} p^x q^{n-x}\),其中 \(x=0, 1, \dots, n\)。

\(G_X(t) = \sum_{x=0}^{n} t^x P(X=x)\)
\(G_X(t) = \sum_{x=0}^{n} t^x \binom{n}{x} p^x q^{n-x}\)
\(G_X(t) = \sum_{x=0}^{n} \binom{n}{x} (pt)^x q^{n-x}\)

认出这个结构了吗?这就是 \((A+B)^n\) 的二项式展开,其中 \(A=q\),\(B=pt\)。

二项分布 PGF:\(G_X(t) = (q + pt)^n\)

4.3 几何分布 (Geo(p))

几何变量 \(X\) 表示首次成功所需的试验次数 (\(x=1, 2, 3, \dots\))。
\(P(X=x) = q^{x-1} p\)

\(G_X(t) = \sum_{x=1}^{\infty} t^x P(X=x)\)
\(G_X(t) = \sum_{x=1}^{\infty} t^x q^{x-1} p\)
\(G_X(t) = p \sum_{x=1}^{\infty} t^x q^{x-1}\)

展开级数:
\(G_X(t) = p (t^1 q^0 + t^2 q^1 + t^3 q^2 + \dots)\)
\(G_X(t) = pt (1 + qt + (qt)^2 + (qt)^3 + \dots)\)

括号内的表达式是一个无限几何级数,首项 \(a=1\),公比 \(r=qt\)。
级数和为 \(\frac{a}{1-r} = \frac{1}{1 - qt}\)。

几何分布 PGF:\(G_X(t) = \frac{pt}{1 - qt}\)

4.4 离散均匀分布

设 \(X\) 为离散均匀变量,取值为 \(1, 2, \dots, N\),每个取值的概率均为 \(1/N\)。

\(G_X(t) = \sum_{x=1}^{N} t^x P(X=x) = \sum_{x=1}^{N} t^x \frac{1}{N}\)
\(G_X(t) = \frac{1}{N} (t^1 + t^2 + t^3 + \dots + t^N)\)

括号内的表达式是一个几何级数,其中 \(a=t\),公比 \(r=t\),共有 \(N\) 项。其和为 \(\frac{a(1-r^N)}{1-r}\)。

均匀分布 PGF:\(G_X(t) = \frac{t(1 - t^N)}{N(1 - t)}\)

快速回顾:必须牢记的 PGF

伯努利 \(Ber(p)\): \(G_X(t) = q + pt\)

二项分布 \(B(n, p)\): \(G_X(t) = (q + pt)^n\)

几何分布 \(Geo(p)\): \(G_X(t) = \frac{pt}{1 - qt}\)


5. 独立随机变量之和

这可以说是使用 PGF 最强大的理由:它们简化了独立随机变量相加的过程。

性质 2:和的 PGF

如果 \(X\) 和 \(Y\) 是独立的离散随机变量,且 \(W = X + Y\),那么和 \(W\) 的 PGF 等于它们各自 PGF 的乘积。

\(G_{X+Y}(t) = G_X(t) G_Y(t)\)

类比:想象你有两个不同过程的独立数据文件(PGF)。如果这些过程是相互独立的,你只需将文件相乘,就能合并它们的信息!

应用示例:二项分布之和

假设 \(X_1 \sim B(n_1, p)\) 和 \(X_2 \sim B(n_2, p)\) 是相互独立的,分别测量两组不同试验的成功次数(成功概率 \(p\) 相同)。
设 \(W = X_1 + X_2\)。
\(G_{X_1}(t) = (q + pt)^{n_1}\)
\(G_{X_2}(t) = (q + pt)^{n_2}\)

\(G_W(t) = G_{X_1}(t) G_{X_2}(t) = (q + pt)^{n_1} \cdot (q + pt)^{n_2}\)
\(G_W(t) = (q + pt)^{n_1 + n_2}\)

由于结果符合二项分布的 PGF 形式,我们可以直接断定和 \(W\) 服从二项分布:
\(W \sim B(n_1 + n_2, p)\)。

这种乘法性质使得合并分布变得极其简单,而如果使用传统的概率方法(卷积)来计算分布之和,过程会非常复杂。

重点提示:当对独立随机变量求和时,请将它们的 PGF 相乘。这通常有助于识别最终结果的分布规律。

重要提醒与常见错误

1. 求导是关键:在求方差时,切记要计算 \(G'_X(1)\)(均值 \(\mu\))和 \(G''_X(1)\) 二者,然后再带入公式:\(\sigma^2 = G''_X(1) + \mu - \mu^2\)。

2. 仅限独立和:性质 \(G_{X+Y}(t) = G_X(t) G_Y(t)\) 仅在 \(X\) 和 \(Y\) 独立时成立。如果它们不独立,该关系式不适用。

3. 检查 \(G_X(1) = 1\):如果你推导出的 PGF 在 \(t=1\) 时不等于 1,那么你一定算错了!