欢迎来到离散分布的世界!

在本章中,我们将探讨统计学家工具箱中最核心的两个工具:二项分布 (Binomial Distribution)泊松分布 (Poisson Distribution)。它们都属于“离散”分布,这意味着它们处理的是我们可以数得出来的数据(例如掷硬币出现正面的次数,或是一小时内你收到的邮件数量)。

如果这些名词听起来有点深奥,别担心!读完这份笔记后,你会发现它们其实只是描述现实生活中某事“发生概率”的数学工具而已。让我们开始吧!

1. 二项分布(快速重温)

你可能还记得在 S1 课程中学过的二项分布。当我们有固定次数的试验,并想找出“成功”次数时,就会使用它。

关键条件 (BINS 记忆法)

要使用二项分布模型 \(X \sim \text{B}(n, p)\),必须符合以下四个条件:

  • B – Binary (二元): 结果只有两种(成功或失败)。
  • I – Independent (独立): 每次试验互不影响。
  • N – Number (数量): 试验次数是固定的 (\(n\))。
  • S – Same probability (概率相同): 每次成功的概率 (\(p\)) 保持不变。

平均值与方差

对于二项分布,你需要记住这两个简单的公式(不需要推导!):

平均值 (期望值): \(E(X) = np\)
方差: \(\text{Var}(X) = np(1 - p)\)

例子: 如果你抛一枚公正硬币 10 次,你预期出现正面的次数为 \(10 \times 0.5 = 5\)。

快速回顾: 二项分布适用于固定次数的试验,且你需要计算成功次数的情况。

2. 泊松分布

二项分布关注的是固定次数的试验,而 泊松分布 (Poisson Distribution) 则关注事件在固定的时间或空间区间内发生的次数。

我们何时使用泊松分布?

想象一下,你站在街角计算 10 分钟内有多少辆车经过,或是计算一块饼干里有多少粒巧克力豆。这些都是典型的泊松分布情境!

我们将其表示为:\(X \sim \text{Po}(\lambda)\)

其中 \(\lambda\)(希腊字母 lambda)是事件发生的平均速率

泊松模型的条件

要使用泊松分布来建模,事件必须符合以下条件:

  • 独立地发生: 一辆车经过不会影响另一辆车经过的概率。
  • 单一地发生: 两个事件不可能在同一瞬间发生。
  • 以恒定的平均速率发生: 在整个区间内,每分钟发生的平均事件数保持不变。
  • 随机地发生: 你无法预测下一个事件确切会在何时发生。

泊松分布公式

若要计算刚好发生 \(x\) 次事件的概率:

\(P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\)

注意:\(e\) 是一个常数,约等于 2.718,而 \(x!\) 是“x 阶乘”。

平均值与方差

这里有一个关于泊松分布的小撇步,非常容易记:

平均值: \(E(X) = \lambda\)
方差: \(\text{Var}(X) = \lambda\)

在泊松分布中,平均值与方差是相等的!如果题目给你的数据中平均值与方差相差很大,那么泊松模型可能就不适用了。

你知道吗?

泊松分布是以法国数学家 Siméon Denis Poisson 的名字命名的。有趣的是,“Poisson”在法文中刚好就是“鱼”的意思!

重点总结: 当事件以恒定速率时间或空间中发生时,请使用泊松分布。其平均值与方差皆等于 \(\lambda\)。

3. 泊松分布的加法特性

泊松分布最实用的特性之一,就是 \(\lambda\) 可以根据区间的大小进行相应的缩放。

调整区间

如果你的邮件收件频率为 \(X \sim \text{Po}(2)\)(每小时),那么:

  • 在 2 小时内,分布为 \(\text{Po}(2 \times 2) = \text{Po}(4)\)。
  • 在 30 分钟(半小时)内,分布为 \(\text{Po}(2 \times 0.5) = \text{Po}(1)\)。

相加独立变量

如果你有两个独立的泊松变量 \(X \sim \text{Po}(\lambda)\) 与 \(Y \sim \text{Po}(\mu)\),它们的总和同样符合泊松分布:

\(X + Y \sim \text{Po}(\lambda + \mu)\)

小贴士: 一定要确保你的 \(\lambda\) 与题目问句中的时间范围一致!

4. 用泊松分布近似二项分布

有时候,计算二项分布概率非常困难,因为 \(n\) 很大(例如 1,000)而 \(p\) 极小(例如 0.001)。在这种情况下,我们可以使用泊松分布作为快捷方式。

何时可以使用近似?

当以下条件满足时,我们可以使用 \(X \sim \text{Po}(np)\) 来近似 \(X \sim \text{B}(n, p)\):

  • \(n\) 够大(通常 \(n > 50\))
  • \(p\) 够小(通常 \(p < 0.1\))

新的平均值 \(\lambda\) 就是 \(n \times p\)。

类比: 想象试着统计巨大体育场里有多少人和你同月同日生。人数 (\(n\)) 非常多,但每个人符合条件的概率 (\(p\)) 很小。泊松模型在这里就非常适用!

常见错误: 同学们常忘记检查 \(p\) 是否够小。如果 \(p\) 接近 0.5,你应该使用正态分布(之后会学到),而不是泊松分布。

5. 处理累积概率

在考试中,你常会被问到“最多”或“多于”某个数值的概率。你可以利用考试提供的统计表格 (Statistical Tables) 来节省时间。

“至少”问题的步骤:

如果要在泊松分布中计算 \(P(X \geq 3)\):

  1. 记得总概率永远为 1。
  2. 找出“至少 3”的相反情况,即“2 或以下”。
  3. 使用公式:\(P(X \geq 3) = 1 - P(X \leq 2)\)。
  4. 在泊松分布表中查出对应你 \(\lambda\) 值的 \(P(X \leq 2)\)。

鼓励一下: 如果表中没有你所需的确切 \(\lambda\) 值,或者题目要求计算如 \(P(X = 4)\) 的特定数值,直接使用公式或计算器的分布函数通常会更安全、更简单!

总结:选择正确的模型

最后,当你遇到问题时,请尝试问自己这些问题:

  • 试验次数是否固定? 是 \(\rightarrow\) 二项分布
  • 时间/空间中是否有恒定速率? 是 \(\rightarrow\) 泊松分布
  • \(n\) 巨大而 \(p\) 微小吗? 是 \(\rightarrow\) 泊松近似

重点总结: 统计学的关键在于挑选正确的“模型形状”来描述数据。只要掌握了二项分布与泊松分布的条件,你就已经成功了一半!