数学 (9709) 学习笔记:概率与统计 2 (Paper 6)

6.1 泊松分布 (The Poisson Distribution)

欢迎来到泊松分布的世界!这是 Paper 6 中绝对核心的内容。二项分布处理的是在固定次数的试验中成功的次数,而泊松分布则帮助我们为在特定的时间区间或空间内随机发生的事件建模。你可以把它想象成对罕见事件的计数!

如果刚开始觉得有点棘手,别担心。掌握泊松分布的关键在于理解其适用条件,并记住那些至关重要的近似规则。


1. 理解泊松分布模型

泊松分布,记作 \(X \sim \text{Po}(\lambda)\),是一种离散随机变量,用于计算某个事件在给定区间(时间、面积、体积等)内发生的次数。

什么时候使用泊松模型?(适用条件)

如果满足以下条件,随机变量 \(X\) 就可以用泊松分布建模:

  • 事件独立发生:一个事件的发生不会影响另一个事件发生的概率。
  • 事件单个发生:两个事件不可能在完全相同的瞬间发生。(例如,在严格的数学意义上,两辆车不能在同一瞬间到达路口)。
  • 平均发生率 (\(\lambda\)) 为常数:平均发生率 \(\lambda\) 在整个区间内必须是均匀的。这个发生率通常与区间的大小成正比。

关键术语:平均发生率参数 (\(\lambda\))

\(\lambda\)(读作 "lambda")代表在特定区间内事件发生的平均次数。如果题目给出的区间发生了变化,你必须按比例调整 \(\lambda\)。

示例:如果交换机平均每分钟接到 4 次呼叫,那么在 5 分钟的区间内,\(\lambda = 4 \times 5 = 20\)。

小结(第 1 部分)

泊松分布用于统计在固定空间或时间内发生的随机、罕见且独立的事件,并由平均发生率 \(\lambda\) 控制。


2. 泊松概率公式

为了计算恰好发生 \(r\) 次事件的概率,我们使用公式手册 (MF19) 中提供的公式:

若 \(X \sim \text{Po}(\lambda)\),发生 \(r\) 次的概率为:

$$P(X=r) = \frac{e^{-\lambda} \lambda^r}{r!}$$

其中:

  • \(e\) 是自然对数的底(约等于 2.718)。
  • \(\lambda\) 是平均发生率参数。
  • \(r\) 是我们关注的特定事件次数 (\(r = 0, 1, 2, 3, \dots\))。
  • \(r!\) 是 \(r\) 的阶乘。

分步计算示例

假设某页面错误的平均数为 \(\lambda = 1.5\)。求页面恰好有 3 个错误的概率 \(P(X=3)\)。

  1. 确定参数:\(\lambda = 1.5\),\(r = 3\)。
  2. 代入公式:$$P(X=3) = \frac{e^{-1.5} (1.5)^3}{3!}$$
  3. 计算:$$P(X=3) = \frac{(0.22313) \times (3.375)}{6} \approx 0.1255$$
计算累积概率

由于泊松分布是离散型的,请记住:

  • \(P(X \le r) = P(X=0) + P(X=1) + \dots + P(X=r)\)。
  • \(P(X > r) = 1 - P(X \le r)\)。
  • \(P(X \ge r) = 1 - P(X \le r-1)\)。

记忆窍门:如果你需要求 \(P(X \ge 5)\),你需要计算 \(1 - [P(X=0) + P(X=1) + P(X=2) + P(X=3) + P(X=4)]\)。

小结(第 2 部分)

使用公式 \(P(X=r) = \frac{e^{-\lambda} \lambda^r}{r!}\) 计算精确概率,并牢记“小于等于”或“大于”的累积计算法则。


3. 期望与方差

泊松分布最优雅的特征之一是其期望与方差之间的关系。

泊松分布的黄金法则

若 \(X \sim \text{Po}(\lambda)\),则:

$$E(X) = \lambda$$ $$Var(X) = \lambda$$

这意味着期望与方差完全相同,都等于发生率参数 \(\lambda\)。

你知道吗?这种等式 ($E(X) = \text{Var}(X)$) 在实际中常被用来检验泊松模型是否适合现实数据集。如果观测到的期望值和方差差异巨大,那么该模型可能并不适用。

小结(第 3 部分)

对于泊松分布,\(\text{期望} = \text{方差} = \lambda\)。


4. 二项分布的泊松近似

有时问题看起来像二项分布场景,但由于数值太大,计算二项概率变得不切实际甚至不可能(想象一下计算 \(\binom{1000}{3}\)!)。这时,泊松分布就作为一种有用的近似方法登场了。

回顾:\(X \sim B(n, p)\) 需要固定的试验次数 \(n\)。

Po \(\approx\) B 的适用条件

当满足以下条件时,可以用泊松分布近似二项分布 $B(n, p)$:

  1. \(n\) 很大(试验次数非常多)。
  2. \(p\) 很小(成功的概率很低)。

教学大纲建议以下近似规则作为有效准则:

$$n > 50 \quad \text{且} \quad np < 5$$

如何设置泊松参数 \(\lambda\):

在进行近似时,平均发生率 \(\lambda\) 使用二项分布的期望值计算:

$$\lambda = np$$

示例:一家工厂每天生产 500 件产品。产品有缺陷的概率为 0.005。设 X 为缺陷产品的数量。

二项分布:\(X \sim B(500, 0.005)\)。这里 \(n=500\)(很大)且 \(p=0.005\)(很小)。

泊松近似:计算 \(\lambda = np = 500 \times 0.005 = 2.5\)。我们使用 \(X \sim \text{Po}(2.5)\)。

常见错误提醒!

一定要检查条件。如果 \(n\) 很大但 \(p\) 很大(例如 \(p=0.9\)),或者如果 \(n\) 很小,则泊松近似无效。这种情况下,你应该使用正态分布近似二项分布(如果 \(np > 5\) 且 \(nq > 5\)),或者坚持进行精确的二项计算。

小结(第 4 部分)

如果 \(n\) 很大且 \(p\) 很小 ($\lambda = np < 5$),请使用近似公式 \(B(n, p) \approx \text{Po}(\lambda)\),其中 \(\lambda = np\)。


5. 泊松分布的正态近似

正如当参数处于极端时泊松分布可近似二项分布一样,当 \(\lambda\) 很大时,正态分布可以近似泊松分布。

N \(\approx\) Po 的适用条件

当 \(\lambda\) 很大时,可以使用正态分布 \(N(\mu, \sigma^2)\) 来近似泊松分布 \(X \sim \text{Po}(\lambda)\)。

教学大纲建议的准则是:

$$\lambda > 15 \text{(近似值)}$$

设定正态分布参数

由于泊松分布的期望和方差都等于 \(\lambda\):

$$\mu = \lambda$$ $$\sigma^2 = \lambda$$

因此,我们使用的近似为: $$X \sim N(\lambda, \lambda)$$

连续性修正 (CC) - 关键步骤!

泊松分布是离散的(处理的是整数:0, 1, 2, ...),而正态分布是连续的。当从离散转化为连续时,必须通过将边界值调整 0.5 来应用连续性修正 (CC)

这是学生最容易丢分的地方!记得在脑海中想象那些概率柱状图。

| 离散概率 | 连续近似 (Y) | 解释 | |---|---|---| | \(P(X=r)\) | \(P(r - 0.5 < Y < r + 0.5)\) | 取以 \(r\) 为中心的整个矩形块。 | | \(P(X \le r)\) | \(P(Y < r + 0.5)\) | 包含直至 \(r\) 的整个矩形块。 | | \(P(X < r)\) | \(P(Y < r - 0.5)\) | 排除 \(r\) 所在的矩形块。 | | \(P(X \ge r)\) | \(P(Y > r - 0.5)\) | 包含从 \(r\) 开始的矩形块。 | | \(P(X > r)\) | \(P(Y > r + 0.5)\) | 排除 \(r\) 所在的矩形块。 |

比喻:想象一个柱状图(离散计数)。如果你想求 \(P(X \le 5)\),你需要包括 5 在内的所有柱子。在连续形式中,代表 5 的柱子范围是从 4.5 到 5.5,因此你必须积分到 5.5。

分步示例 (N \(\approx\) Po)

设 \(X \sim \text{Po}(18)\)。使用正态近似计算 \(P(X \le 20)\)。

  1. 检查条件:\(\lambda = 18\)。因为 \(18 > 15\),近似是合适的。
  2. 定义正态分布参数:\(\mu = 18\),\(\sigma^2 = 18\)。\(\sigma = \sqrt{18} \approx 4.243\)。
  3. 应用连续性修正:\(P(X \le 20) \rightarrow P(Y < 20.5)\)。
  4. 标准化:使用 \(Z = \frac{Y - \mu}{\sigma}\)。 $$Z = \frac{20.5 - 18}{\sqrt{18}} = \frac{2.5}{4.2426} \approx 0.589$$
  5. 使用正态分布表 (MF19):\(P(Z < 0.589)\)。
    从表中查找,\(\Phi(0.589) \approx 0.7224\)。
    因此,\(P(X \le 20) \approx 0.7224\)。
小结(第 5 部分)

如果 \(\lambda\) 很大 ($\lambda > 15$),请使用近似 \(X \sim N(\lambda, \lambda)\),并且在从离散的 \(X\) 转为连续的 \(Y\) 时,千万不要忘记连续性修正


复习速记:如何选择分布

当解决涉及计数的概率问题时,请遵循此清单:

  • 精确泊松:如果没有提到 \(n\),且事件在区间内随机发生。使用 \(P(X=r) = \frac{e^{-\lambda} \lambda^r}{r!}\)。
  • 泊松近似:如果已知 \(n\) 且 \(n\) 很大 ($n>50$),且 \(p\) 很小 ($np < 5$)。使用 \(\lambda = np\)。
  • 泊松的正态近似:如果 \(\lambda\) 很大 ($\lambda > 15$)。使用 \(N(\lambda, \lambda)\) 并记得应用连续性修正
调试角:需要避免的常见错误

1. 忘记缩放 \(\lambda\):如果题目给出的是每小时的平均值,但问题询问的是 30 分钟的时段,请将你的 \(\lambda\) 减半!

2. 连续性修正错误:学生在应用修正时经常混淆 \(P(X < r)\) 和 \(P(X \le r)\)。请务必根据是否包含边界点来正确使用 $\pm 0.5$。

3. 误用期望/方差:记住对于泊松分布(及其正态近似),期望值和方差是相等的:\(\mu = \sigma^2 = \lambda\)。