概率生成函数 (PGFs):学习笔记(9231 进阶概率与统计)
你好!本章将介绍进阶统计中最优雅的工具之一:概率生成函数 (Probability Generating Function, PGF)。如果听起来觉得复杂,请别担心——它本质上是一种巧妙的方法,将离散随机变量的所有概率信息“打包”进一个函数中。一旦打包完成,我们就可以利用微积分(微分!)这一强大工具来轻松求得均值和方差。是不是很酷?
这一课题对于 Paper 4 至关重要,且仅针对离散随机变量。
1. 理解 PGF 的概念与定义
1.1 什么是 PGF?
PGF 通常记作 \(G_X(t)\),它是一个代数函数,通过虚拟变量 \(t\) 的幂次来存储离散随机变量 \(X\) 的概率分布。
你可以把它想象成一个文件柜:索引编号(\(t\) 的指数)告诉你正在查看哪个结果,而文件的内容(\(t\) 的系数)则告诉你该结果的发生概率。
1.2 正式定义
对于取值为 \(x_i\) 且概率为 \(P(X=x_i)\) 的离散随机变量 \(X\),其 PGF 定义为 \(t^X\) 的期望值:
定义: $$G_X(t) = E(t^X) = \sum_{x} P(X=x) t^x$$
由于所有概率之和必须为 1,如果我们令 \(t=1\),结果必须为 1:
$$G_X(1) = \sum P(X=x) (1)^x = \sum P(X=x) = 1$$
记忆小贴士:一定要检查 \(G(1) = 1\)。这是验证你推导的 PGF 是否正确的好方法!
1.3 提取概率
PGF 的精妙之处在于,一旦知道了函数 \(G_X(t)\),你只需观察 \(t\) 对应幂次的系数,就能找到任何特定结果的概率。
- \(P(X=0)\) 是 \(t^0\) 的系数。
- \(P(X=1)\) 是 \(t^1\) 的系数。
- \(P(X=k)\) 是 \(t^k\) 的系数。
如果 PGF 是一个简单的多项式,你可以直接读出概率。如果它是一个更复杂的函数(例如包含 \(e\) 或分数),你可能需要使用麦克劳林级数展开 (Maclaurin series expansion)(这是进阶纯数学中的概念)来求出系数。
$$P(X=k) = \frac{G_X^{(k)}(0)}{k!}$$ (即第 \(k\) 阶导数在 \(t=0\) 时的值,除以 \(k!\))
核心要点: PGF \(G_X(t)\) 是一系列项的和,其中 \(t\) 的指数是随机变量的取值,系数是该取值的概率。且恒有 \(G_X(1)=1\)。
2. 构建标准分布的 PGF
你必须能够推导并使用最常见离散分布的 PGF。
2.1 离散均匀分布 (D(n))
如果 \(X\) 是掷公平骰子的结果(\(X=1, 2, 3, 4, 5, 6\)),则对于所有结果,\(P(X=x) = 1/6\)。
$$G_X(t) = \sum_{x=1}^{6} P(X=x) t^x = \frac{1}{6}t^1 + \frac{1}{6}t^2 + ... + \frac{1}{6}t^6$$ $$G_X(t) = \frac{1}{n} \sum_{x=1}^{n} t^x \quad \text{或一般形式为} \quad G_X(t) = \frac{t(1-t^n)}{n(1-t)}$$ (注意:这是一个等比数列求和!)
2.2 二项分布 (\(X \sim B(n, p)\))
使用定义 \(G_X(t) = \sum P(X=x) t^x\)。回想 \(P(X=x) = \binom{n}{x} p^x q^{n-x}\),其中 \(q=1-p\)。
$$G_X(t) = \sum_{x=0}^{n} \left[ \binom{n}{x} q^{n-x} p^x \right] t^x$$ $$G_X(t) = \sum_{x=0}^{n} \binom{n}{x} q^{n-x} (pt)^x$$
根据二项式定理,该求和可以简化为:
$$G_X(t) = (q + pt)^n$$
2.3 几何分布 (\(X \sim Geo(p)\))
几何分布(取决于你在基础 A Level 课程中使用的定义,这里指首次成功前的失败次数或直到首次成功所需的试验次数——我们使用 \(P(X=x) = p q^{x-1}\),其中 \(x=1, 2, 3...\) 的定义)
$$G_X(t) = \sum_{x=1}^{\infty} P(X=x) t^x = \sum_{x=1}^{\infty} p q^{x-1} t^x$$
提取 \(pt\):
$$G_X(t) = pt \sum_{x=1}^{\infty} q^{x-1} t^{x-1} = pt \sum_{k=0}^{\infty} (qt)^k$$
这是一个公比为 \(qt\) 的等比级数,且假设 \(|qt| < 1\),其和为 \(\frac{1}{1-qt}\)。
$$G_X(t) = \frac{pt}{1 - qt}$$
2.4 泊松分布 (\(X \sim Po(\lambda)\))
回想 \(P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!}\),其中 \(x=0, 1, 2...\)
$$G_X(t) = \sum_{x=0}^{\infty} \left[ \frac{e^{-\lambda} \lambda^x}{x!} \right] t^x$$
提取 \(e^{-\lambda}\) 并重排:
$$G_X(t) = e^{-\lambda} \sum_{x=0}^{\infty} \frac{(\lambda t)^x}{x!}$$
内部求和即为 \(e^{\lambda t}\) 的麦克劳林级数展开。
$$G_X(t) = e^{-\lambda} e^{\lambda t} = e^{\lambda t - \lambda}$$
$$G_X(t) = e^{\lambda(t-1)}$$
标准 PGF 汇总(必须背诵或能快速推导)
- 二项分布: \(G_X(t) = (q + pt)^n\)
- 泊松分布: \(G_X(t) = e^{\lambda(t-1)}\)
- 几何分布: \(G_X(t) = \frac{pt}{1 - qt}\)
3. 使用 PGF 求均值和方差
这才是最神奇的地方!我们利用微分(微积分)来计算均值和方差,使得复杂的期望计算变得简单得多。
关键性质在于将 \(G_X(t)\) 的一阶和二阶导数在 \(t=1\) 处求值。
3.1 均值(期望值)
均值 \(E(X)\) 可通过计算 PGF 的一阶导数并在 \(t=1\) 处求值得出:
$$E(X) = G'_X(1)$$
你知道吗?这是因为当你对 \(t\) 进行求导时,\(t^{x-1}\) 的系数变成了 \(x P(X=x)\)。令 \(t=1\) 后,求和项即为 \(\sum x P(X=x)\),这正是均值 \(E(X)\) 的定义。
3.2 方差 (\(Var(X)\))
方差计算稍微复杂一些,需要二阶导数。MF19 手册中给出的公式为:
$$Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$$
这个公式看起来可能有些吓人,但请注意: $$E(X) = G'_X(1)$$ 且 $$E[X(X-1)] = G''_X(1)$$ 所以,方差公式不过是恒等式 \(Var(X) = E(X^2) - [E(X)]^2\) 使用 PGF 的变形。
分步计算过程:
- 求一阶导数 \(G'_X(t)\)。
- 计算 \(G'_X(1)\) 得出均值 \(E(X)\)。
- 求二阶导数 \(G''_X(t)\)。(如果需要,记得使用乘法法则!)
- 计算 \(G''_X(1)\)。
- 将 \(G''_X(1)\) 和 \(G'_X(1)\) 代入方差公式:\(Var(X) = G''_X(1) + E(X) - [E(X)]^2\)。
常见的错误:一定要在微分之后再代入 \(t=1\),千万不要先代入再微分!如果你计算出 \(G'_X(1)\) 后再微分,得到的结果只会是零。
示例:求 \(X \sim Po(\lambda)\) 的均值和方差
已知 \(G_X(t) = e^{\lambda(t-1)}\)。
1. 一阶导数: $$G'_X(t) = \lambda e^{\lambda(t-1)}$$
2. 均值: 在 \(t=1\) 处求值。 $$E(X) = G'_X(1) = \lambda e^{\lambda(1-1)} = \lambda e^0 = \lambda$$ (与泊松分布的已知结果一致!)
3. 二阶导数: 再次对 \(G'_X(t)\) 微分。 $$G''_X(t) = \frac{d}{dt} \left[ \lambda e^{\lambda(t-1)} \right] = \lambda (\lambda e^{\lambda(t-1)}) = \lambda^2 e^{\lambda(t-1)}$$
4. 求 \(G''_X(1)\): $$G''_X(1) = \lambda^2 e^{\lambda(1-1)} = \lambda^2$$
5. 方差: $$Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$$ $$Var(X) = \lambda^2 + \lambda - (\lambda)^2$$ $$Var(X) = \lambda$$ (与泊松分布的已知结果一致!这证实了 PGF 方法非常有效。)
核心要点: PGF 允许我们通过简单的微分并在 \(t=1\) 处求值来找到 \(E(X)\) 和 \(Var(X)\)。请严格使用 MF19 手册中提供的公式。
4. 独立随机变量的和
这可以说是 PGF 最强大的应用——它使我们能够轻松合并独立的随机变量。
4.1 乘法法则
如果 \(X\) 和 \(Y\) 是两个相互独立的离散随机变量,且 \(Z = X + Y\),那么和 \(Z\) 的 PGF 等于各自 PGF 的乘积:
$$G_Z(t) = G_X(t) \times G_Y(t)$$
该结果对于任意数量独立变量的求和均成立。
类比:如果 PGF 是“概率食谱”,那么将它们相乘就像是把两份独立的食谱混合在一起,得到合并结果的食谱。
4.2 应用:标准分布的求和
这一性质在证明“两个相同分布类型的变量之和仍保持该类型(但参数更新)”时特别有用。
例 1:独立二项分布变量的和
设 \(X_1 \sim B(n_1, p)\) 和 \(X_2 \sim B(n_2, p)\),且 \(Z = X_1 + X_2\)。(注意:它们必须具有相同的概率 \(p\))。
- \(G_{X_1}(t) = (q + pt)^{n_1}\)
- \(G_{X_2}(t) = (q + pt)^{n_2}\)
和的 PGF 为: $$G_Z(t) = G_{X_1}(t) G_{X_2}(t) = (q + pt)^{n_1} (q + pt)^{n_2} = (q + pt)^{n_1 + n_2}$$ 由于 \(G_Z(t)\) 的形式符合二项分布的 PGF,我们得出结论:\(Z \sim B(n_1 + n_2, p)\)。
例 2:独立泊松分布变量的和
设 \(X_1 \sim Po(\lambda_1)\) 和 \(X_2 \sim Po(\lambda_2)\),且 \(Z = X_1 + X_2\)。
- \(G_{X_1}(t) = e^{\lambda_1(t-1)}\)
- \(G_{X_2}(t) = e^{\lambda_2(t-1)}\)
和的 PGF 为: $$G_Z(t) = G_{X_1}(t) G_{X_2}(t) = e^{\lambda_1(t-1)} e^{\lambda_2(t-1)}$$ $$G_Z(t) = e^{(\lambda_1 + \lambda_2)(t-1)}$$ 由于 \(G_Z(t)\) 的形式符合泊松分布的 PGF,我们得出结论:\(Z \sim Po(\lambda_1 + \lambda_2)\)。
快速复习:PGF 工具箱
- 求概率: \(t^k\) 的系数即为 \(P(X=k)\)。
- 求均值: \(E(X) = G'_X(1)\)。
- 求方差: \(Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2\)。
- 独立变量求和: 将 PGF 相乘:\(G_{X+Y}(t) = G_X(t) G_Y(t)\)。