概率生成函数 (PGFs):学习笔记(9231 进阶概率与统计)

你好!本章将介绍进阶统计中最优雅的工具之一:概率生成函数 (Probability Generating Function, PGF)。如果听起来觉得复杂,请别担心——它本质上是一种巧妙的方法,将离散随机变量的所有概率信息“打包”进一个函数中。一旦打包完成,我们就可以利用微积分(微分!)这一强大工具来轻松求得均值和方差。是不是很酷?

这一课题对于 Paper 4 至关重要,且仅针对离散随机变量


1. 理解 PGF 的概念与定义

1.1 什么是 PGF?

PGF 通常记作 \(G_X(t)\),它是一个代数函数,通过虚拟变量 \(t\) 的幂次来存储离散随机变量 \(X\) 的概率分布。

你可以把它想象成一个文件柜:索引编号(\(t\) 的指数)告诉你正在查看哪个结果,而文件的内容(\(t\) 的系数)则告诉你该结果的发生概率。

1.2 正式定义

对于取值为 \(x_i\) 且概率为 \(P(X=x_i)\) 的离散随机变量 \(X\),其 PGF 定义为 \(t^X\) 的期望值:

定义: $$G_X(t) = E(t^X) = \sum_{x} P(X=x) t^x$$

由于所有概率之和必须为 1,如果我们令 \(t=1\),结果必须为 1:

$$G_X(1) = \sum P(X=x) (1)^x = \sum P(X=x) = 1$$

记忆小贴士:一定要检查 \(G(1) = 1\)。这是验证你推导的 PGF 是否正确的好方法!

1.3 提取概率

PGF 的精妙之处在于,一旦知道了函数 \(G_X(t)\),你只需观察 \(t\) 对应幂次的系数,就能找到任何特定结果的概率。

  • \(P(X=0)\) 是 \(t^0\) 的系数。
  • \(P(X=1)\) 是 \(t^1\) 的系数。
  • \(P(X=k)\) 是 \(t^k\) 的系数。

如果 PGF 是一个简单的多项式,你可以直接读出概率。如果它是一个更复杂的函数(例如包含 \(e\) 或分数),你可能需要使用麦克劳林级数展开 (Maclaurin series expansion)(这是进阶纯数学中的概念)来求出系数。

$$P(X=k) = \frac{G_X^{(k)}(0)}{k!}$$ (即第 \(k\) 阶导数在 \(t=0\) 时的值,除以 \(k!\))

核心要点: PGF \(G_X(t)\) 是一系列项的和,其中 \(t\) 的指数是随机变量的取值,系数是该取值的概率。且恒有 \(G_X(1)=1\)。

2. 构建标准分布的 PGF

你必须能够推导并使用最常见离散分布的 PGF。

2.1 离散均匀分布 (D(n))

如果 \(X\) 是掷公平骰子的结果(\(X=1, 2, 3, 4, 5, 6\)),则对于所有结果,\(P(X=x) = 1/6\)。

$$G_X(t) = \sum_{x=1}^{6} P(X=x) t^x = \frac{1}{6}t^1 + \frac{1}{6}t^2 + ... + \frac{1}{6}t^6$$ $$G_X(t) = \frac{1}{n} \sum_{x=1}^{n} t^x \quad \text{或一般形式为} \quad G_X(t) = \frac{t(1-t^n)}{n(1-t)}$$ (注意:这是一个等比数列求和!)

2.2 二项分布 (\(X \sim B(n, p)\))

使用定义 \(G_X(t) = \sum P(X=x) t^x\)。回想 \(P(X=x) = \binom{n}{x} p^x q^{n-x}\),其中 \(q=1-p\)。

$$G_X(t) = \sum_{x=0}^{n} \left[ \binom{n}{x} q^{n-x} p^x \right] t^x$$ $$G_X(t) = \sum_{x=0}^{n} \binom{n}{x} q^{n-x} (pt)^x$$

根据二项式定理,该求和可以简化为:

$$G_X(t) = (q + pt)^n$$

2.3 几何分布 (\(X \sim Geo(p)\))

几何分布(取决于你在基础 A Level 课程中使用的定义,这里指首次成功前的失败次数或直到首次成功所需的试验次数——我们使用 \(P(X=x) = p q^{x-1}\),其中 \(x=1, 2, 3...\) 的定义

$$G_X(t) = \sum_{x=1}^{\infty} P(X=x) t^x = \sum_{x=1}^{\infty} p q^{x-1} t^x$$

提取 \(pt\):

$$G_X(t) = pt \sum_{x=1}^{\infty} q^{x-1} t^{x-1} = pt \sum_{k=0}^{\infty} (qt)^k$$

这是一个公比为 \(qt\) 的等比级数,且假设 \(|qt| < 1\),其和为 \(\frac{1}{1-qt}\)。

$$G_X(t) = \frac{pt}{1 - qt}$$

2.4 泊松分布 (\(X \sim Po(\lambda)\))

回想 \(P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!}\),其中 \(x=0, 1, 2...\)

$$G_X(t) = \sum_{x=0}^{\infty} \left[ \frac{e^{-\lambda} \lambda^x}{x!} \right] t^x$$

提取 \(e^{-\lambda}\) 并重排:

$$G_X(t) = e^{-\lambda} \sum_{x=0}^{\infty} \frac{(\lambda t)^x}{x!}$$

内部求和即为 \(e^{\lambda t}\) 的麦克劳林级数展开。

$$G_X(t) = e^{-\lambda} e^{\lambda t} = e^{\lambda t - \lambda}$$

$$G_X(t) = e^{\lambda(t-1)}$$

标准 PGF 汇总(必须背诵或能快速推导)

  • 二项分布: \(G_X(t) = (q + pt)^n\)
  • 泊松分布: \(G_X(t) = e^{\lambda(t-1)}\)
  • 几何分布: \(G_X(t) = \frac{pt}{1 - qt}\)

3. 使用 PGF 求均值和方差

这才是最神奇的地方!我们利用微分(微积分)来计算均值和方差,使得复杂的期望计算变得简单得多。

关键性质在于将 \(G_X(t)\) 的一阶和二阶导数在 \(t=1\) 处求值。

3.1 均值(期望值)

均值 \(E(X)\) 可通过计算 PGF 的一阶导数并在 \(t=1\) 处求值得出:

$$E(X) = G'_X(1)$$

你知道吗?这是因为当你对 \(t\) 进行求导时,\(t^{x-1}\) 的系数变成了 \(x P(X=x)\)。令 \(t=1\) 后,求和项即为 \(\sum x P(X=x)\),这正是均值 \(E(X)\) 的定义。

3.2 方差 (\(Var(X)\))

方差计算稍微复杂一些,需要二阶导数。MF19 手册中给出的公式为:

$$Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$$

这个公式看起来可能有些吓人,但请注意: $$E(X) = G'_X(1)$$ 且 $$E[X(X-1)] = G''_X(1)$$ 所以,方差公式不过是恒等式 \(Var(X) = E(X^2) - [E(X)]^2\) 使用 PGF 的变形。

分步计算过程:

  1. 求一阶导数 \(G'_X(t)\)。
  2. 计算 \(G'_X(1)\) 得出均值 \(E(X)\)。
  3. 求二阶导数 \(G''_X(t)\)。(如果需要,记得使用乘法法则!)
  4. 计算 \(G''_X(1)\)。
  5. 将 \(G''_X(1)\) 和 \(G'_X(1)\) 代入方差公式:\(Var(X) = G''_X(1) + E(X) - [E(X)]^2\)。

常见的错误:一定要在微分之后再代入 \(t=1\),千万不要先代入再微分!如果你计算出 \(G'_X(1)\) 后再微分,得到的结果只会是零。

示例:求 \(X \sim Po(\lambda)\) 的均值和方差

已知 \(G_X(t) = e^{\lambda(t-1)}\)。

1. 一阶导数: $$G'_X(t) = \lambda e^{\lambda(t-1)}$$

2. 均值: 在 \(t=1\) 处求值。 $$E(X) = G'_X(1) = \lambda e^{\lambda(1-1)} = \lambda e^0 = \lambda$$ (与泊松分布的已知结果一致!)

3. 二阶导数: 再次对 \(G'_X(t)\) 微分。 $$G''_X(t) = \frac{d}{dt} \left[ \lambda e^{\lambda(t-1)} \right] = \lambda (\lambda e^{\lambda(t-1)}) = \lambda^2 e^{\lambda(t-1)}$$

4. 求 \(G''_X(1)\): $$G''_X(1) = \lambda^2 e^{\lambda(1-1)} = \lambda^2$$

5. 方差: $$Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2$$ $$Var(X) = \lambda^2 + \lambda - (\lambda)^2$$ $$Var(X) = \lambda$$ (与泊松分布的已知结果一致!这证实了 PGF 方法非常有效。)

核心要点: PGF 允许我们通过简单的微分并在 \(t=1\) 处求值来找到 \(E(X)\) 和 \(Var(X)\)。请严格使用 MF19 手册中提供的公式。

4. 独立随机变量的和

这可以说是 PGF 最强大的应用——它使我们能够轻松合并独立的随机变量。

4.1 乘法法则

如果 \(X\) 和 \(Y\) 是两个相互独立的离散随机变量,且 \(Z = X + Y\),那么和 \(Z\) 的 PGF 等于各自 PGF 的乘积:

$$G_Z(t) = G_X(t) \times G_Y(t)$$

该结果对于任意数量独立变量的求和均成立。

类比:如果 PGF 是“概率食谱”,那么将它们相乘就像是把两份独立的食谱混合在一起,得到合并结果的食谱。

4.2 应用:标准分布的求和

这一性质在证明“两个相同分布类型的变量之和仍保持该类型(但参数更新)”时特别有用。

例 1:独立二项分布变量的和
设 \(X_1 \sim B(n_1, p)\) 和 \(X_2 \sim B(n_2, p)\),且 \(Z = X_1 + X_2\)。(注意:它们必须具有相同的概率 \(p\))。

  • \(G_{X_1}(t) = (q + pt)^{n_1}\)
  • \(G_{X_2}(t) = (q + pt)^{n_2}\)

和的 PGF 为: $$G_Z(t) = G_{X_1}(t) G_{X_2}(t) = (q + pt)^{n_1} (q + pt)^{n_2} = (q + pt)^{n_1 + n_2}$$ 由于 \(G_Z(t)\) 的形式符合二项分布的 PGF,我们得出结论:\(Z \sim B(n_1 + n_2, p)\)。

例 2:独立泊松分布变量的和
设 \(X_1 \sim Po(\lambda_1)\) 和 \(X_2 \sim Po(\lambda_2)\),且 \(Z = X_1 + X_2\)。

  • \(G_{X_1}(t) = e^{\lambda_1(t-1)}\)
  • \(G_{X_2}(t) = e^{\lambda_2(t-1)}\)

和的 PGF 为: $$G_Z(t) = G_{X_1}(t) G_{X_2}(t) = e^{\lambda_1(t-1)} e^{\lambda_2(t-1)}$$ $$G_Z(t) = e^{(\lambda_1 + \lambda_2)(t-1)}$$ 由于 \(G_Z(t)\) 的形式符合泊松分布的 PGF,我们得出结论:\(Z \sim Po(\lambda_1 + \lambda_2)\)。

快速复习:PGF 工具箱

  • 求概率: \(t^k\) 的系数即为 \(P(X=k)\)。
  • 求均值: \(E(X) = G'_X(1)\)。
  • 求方差: \(Var(X) = G''_X(1) + G'_X(1) - \{G'_X(1)\}^2\)。
  • 独立变量求和: 将 PGF 相乘:\(G_{X+Y}(t) = G_X(t) G_Y(t)\)。