欢迎来到泊松分布 (Poisson Distribution) 与二项分布 (Binomial Distribution)!

高等统计学 1 (Further Statistics 1) 的这一章中,我们将探索统计学家工具箱中最有用的两个工具。虽然你可能以前见过二项分布,但我们这次会深入探讨它,并为你介绍它的“表亲”——泊松分布

为什么这很重要?因为生活充满了计数!无论你是计算一小时内有多少颗流星出现、饼干里有多少粒巧克力豆,还是有多少客户拨打服务热线,这些分布都能帮助我们预测未来。如果一开始觉得有点棘手也不用担心;我们会一步一步把它拆解开来。

1. 什么是泊松分布?

泊松分布用于模拟在一个固定区间(时间或空间)内事件发生的次数。你可以把它想象成“计数分布”。

先备知识:离散随机变量 (discrete random variable) 是指只能取特定数值(如 0, 1, 2...)的变量,这正是我们这里所用的,因为你不可能收到“半封”邮件!

我们何时可以使用泊松模型?

对于一个可以用 \(X \sim Po(\lambda)\) 模拟的情况,其中 \(\lambda\) (lambda) 是平均发生率,这些事件必须满足以下条件:

  • 独立性 (Independent):一个事件的发生不会改变另一个事件发生的概率。
  • 单一性 (Singly):事件不可能在同一个瞬间发生。
  • 随机性 (Random):事件以恒定的平均速率发生。
  • 均匀性 (Uniform):事件发生的概率与区间的大小成正比。

记忆小撇步:记住单词 "ISRU"(独立、单一、随机、均匀),用它来检查泊松分布是否适用!

现实生活类比

想象你正站在一条安静的马路边。平均每 10 分钟有 3 辆车经过。这就是你的平均发生率 (\(\lambda = 3\))。你可以使用泊松分布来计算接下来 10 分钟内正好有 5 辆车经过的概率。

可加性 (Additive Property)

这是一个非常方便的特性!如果你改变了区间,发生率也会按比例改变。
如果 \(X =\) 每分钟事件发生的次数,且 \(X \sim Po(\lambda)\):
- 对于 5 分钟,分布就是 \(Po(5\lambda)\)。
- 对于 10 分钟,分布就是 \(Po(10\lambda)\)。

此外,如果你有两个独立的泊松变量 \(X \sim Po(\lambda)\) 和 \(Y \sim Po(\mu)\),那么它们的总和也是泊松分布:\(X + Y \sim Po(\lambda + \mu)\)

快速复习盒:
- 泊松用于区间内的“计数”。
- \(\lambda\) 是平均发生次数。
- 你可以根据时间或空间区间的大小,按比例调整 \(\lambda\)。

2. 平均数与方差

这些分布最酷的地方之一,就是我们可以使用简单的公式预测它们的“中心”(平均数)和“分散程度”(方差)。

对于二项分布 \(B(n, p)\):

  • 平均数: \(E(X) = np\)
  • 方差: \(Var(X) = np(1-p)\)

对于泊松分布 \(Po(\lambda)\):

  • 平均数: \(E(X) = \lambda\)
  • 方差: \(Var(X) = \lambda\)

你知道吗? 在泊松分布中,平均数和方差完全相同!这是检查泊松模型是否适合真实数据的一个好方法。如果你的数据平均数和方差差异很大,那么泊松分布可能不是最好的选择。

关键点: 如果 \(E(X) \approx Var(X)\),通常就适合使用泊松模型。

3. 使用泊松分布近似二项分布

有时候,计算二项分布的概率会让人心力交瘁,特别是当 \(n\)(试验次数)非常大时。在特定情况下,泊松分布可以“出手相救”,提供一个非常精确的捷径。

“捷径”条件

当满足以下条件时,你可以使用 \(Po(np)\) 来近似 \(B(n, p)\):

  1. \(n\) 很大(通常 \(n > 50\))。
  2. \(p\) 很小(通常 \(p < 0.1\))。

在这种情况下,我们只需将泊松发生率设为 \(\lambda = np\)

例子:假设一家工厂生产 1000 个灯泡,其中一个灯泡有瑕疵的概率是 0.002。与其进行复杂的 \(n=1000\) 的二项分布计算,我们可以直接使用 \(Po(1000 \times 0.002) = Po(2)\)。简单多了!

要避免的常见错误: 如果 \(p\) 很大(接近 0.5),就不要使用这个近似。这种近似只有在“成功”事件非常罕见时才有效!

4. 泊松分布的假设检验

我们可以使用假设检验来判断一个事件的平均发生率 (\(\lambda\)) 是否发生了变化。这就像你在 A Level 数学中所做的假设检验一样,只是分布不同而已。

步骤流程

  1. 设定假设:
    - \(H_0: \lambda = \text{原始发生率}\)
    - \(H_1: \lambda > \text{或} < \text{或} \neq \text{原始发生率}\)
  2. 确定检验统计量:这是你观察到的实际事件数量。
  3. 计算概率:使用计算器找出在 \(H_0\) 为真的假设下,观察值出现“至少如此极端”情况的概率。
  4. 与显著性水平比较:如果概率小于显著性水平(例如 5%),则拒绝 \(H_0\)。

鼓励一下:假设检验其实就是在问:“这个结果是否太诡异了,以至于原来的平均值一定是错的?”如果答案是“是的”,我们就拒绝 \(H_0\)!

关键点:务必使用总体参数(\(\lambda\) 或 \(\mu\))来陈述你的假设。

本章总结

  • 泊松分布:用于在固定区间内以恒定速率发生的独立、随机事件。
  • 计算器:你需要熟练使用计算器的泊松函数,包括单个值 (\(P(X=x)\)) 和累积值 (\(P(X \le x)\)) 的计算。
  • 平均数与方差:对于泊松分布,两者均等于 \(\lambda\)。对于二项分布,平均数为 \(np\),方差为 \(np(1-p)\)。
  • 近似法:当 \(n\) 很大且 \(p\) 很小时,使用泊松分布来近似二项分布。
  • 假设检验:重点在于根据新证据检验发生率 \(\lambda\) 是否改变。