S2.1:泊松分布 - 学习笔记
你好!欢迎来到泊松分布(Poisson Distribution)这一章。这个主题非常实用,因为它能帮助我们对在固定时间或空间内随机且独立发生的事件进行建模——例如你在一个小时内收到的电子邮件数量,或者一页纸上的错别字数量。
如果公式看起来有点吓人,请别担心;其实其中的概念非常直观。一旦你掌握了核心思想和关键假设,解决问题就会变得轻松许多!
1. 什么是泊松分布?
泊松分布是一种离散概率分布,用于对在固定时间或空间间隔内发生的事件次数进行建模。前提是这些事件以已知的恒定速率发生,且与上一次事件发生的时间相互独立。
关键符号与参数
- 我们用以下符号表示随机变量 \(X\) 服从泊松分布:
\(X \sim \text{Po}(\lambda)\) -
符号 \(\lambda\) (lambda) 是该分布所需的唯一参数。
- \(\lambda\) 代表在指定区间内的平均发生率(或平均事件数)。
- \(\lambda\) 必须是一个正数常数(\(\lambda > 0\))。
例子:如果平均每分钟有 4 辆车经过道路上的某一点,那么一分钟内经过的车辆数 \(X\) 可以建模为 \(X \sim \text{Po}(4)\),其中 \(\lambda = 4\)。
2. 应用泊松分布的条件
只有当你统计的事件满足四个严格条件时,才能使用泊松分布。你可以把它们想象成使用泊松分布的“交通规则”:
-
事件单一发生: 事件必须是一个一个发生的。两个事件在同一瞬间发生的概率为零。
(例如:两个电话不能同时打入,尽管在现实中它们可能看起来非常接近。)
-
事件随机发生: 事件发生的时间点没有任何可辨识的规律。
(例如:地震不会按时间表发生;它们是随机的。)
-
事件相互独立: 一个事件的发生不会影响另一个事件发生的概率。
(例如:第一行出现一个错别字的事实,不会增加或减少第二行出现错别字的可能性。)
-
速率恒定(\(\lambda\) 是均匀的): 平均发生率(\(\lambda\))在所考虑的整个时间或空间区间内必须保持不变。
(例如:如果你在统计每个月的事故数量,平均发生率在所有月份内必须保持一致。)
快速回顾:什么时候不能用泊松分布
如果发生率有显著变化(例如:比较凌晨 3 点和下午 3 点的网站点击量),或者事件之间相互影响(例如:统计群体中疾病的传播),那么泊松分布就不适用。
3. 泊松概率公式
要计算恰好发生 \(x\) 次事件的概率,我们使用以下公式:
$$P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!}$$
其中:
- \(P(X=x)\) 是恰好发生 \(x\) 次事件的概率。
- \(\lambda\) 是平均发生率(参数)。
- \(x\) 是我们感兴趣的具体事件次数(\(x = 0, 1, 2, 3, \ldots\))。
- \(e\) 是欧拉常数(\(e \approx 2.71828\))。你会使用计算器来计算 \(e^{-\lambda}\)。
- \(x!\) 是 \(x\) 的阶乘(\(x! = x \times (x-1) \times \ldots \times 1\))。请记住 \(0! = 1\)。
分步计算指南
假设 \(X \sim \text{Po}(3.5)\),求 \(P(X=2)\)。
- 确定 \(\lambda\) 和 \(x\): \(\lambda = 3.5\),\(x = 2\)。
- 代入公式:
$$P(X=2) = \frac{e^{-3.5} (3.5)^2}{2!}$$
- 计算各项:
- \(3.5^2 = 12.25\)
- \(2! = 2\)
- \(e^{-3.5} \approx 0.030197\)
- 得出最终结果:
$$P(X=2) = \frac{0.030197 \times 12.25}{2} \approx 0.185$$
重点提示: 该公式使我们能够计算特定次数 (\(x\)) 的精确概率。
4. 均值、方差和标准差
泊松分布最优雅且最实用的特征之一就是其均值与方差之间的关系。
如果 \(X \sim \text{Po}(\lambda)\),那么:
- 均值:\(E(X) = \lambda\)
- 方差:\(\text{Var}(X) = \lambda\)
- 标准差:\(\sigma = \sqrt{\lambda}\)
这意味着如果你知道平均发生率(\(\lambda\)),你也就自动知道了数据的离散程度(方差)!
你知道吗?均值等于方差是统计学中的一项关键诊断测试。如果现实世界中的数据集其均值与方差相差甚远,那么它通常不能被泊松分布准确建模。
重点提示: 对于泊松分布,均值 = 方差 = \(\lambda\)。
5. 处理区间变化
参数 \(\lambda\) 与特定的区间相关联。如果区间发生变化,你必须按比例调整 \(\lambda\)。
例子:1 公里路段上的坑洼数量为 \(X \sim \text{Po}(2)\)。
求 3 公里路段的分布:
- 1 公里的发生率是 2。
- 3 公里的发生率必须是 \(3 \times 2 = 6\)。
- 设 \(Y\) 为 3 公里内的坑洼数量。则 \(Y \sim \text{Po}(6)\)。
例子:每小时的通话次数为 \(X \sim \text{Po}(12)\)。求 15 分钟内通话次数的分布:
- 1 小时 = 60 分钟。15 分钟是 \(\frac{15}{60} = 0.25\) 小时。
- 新的发生率为 \(\lambda_{new} = 12 \times 0.25 = 3\)。
- 15 分钟内的通话次数 \(Y\) 为 \(Y \sim \text{Po}(3)\)。
需要避免的常见错误: 始终确保你使用的 \(\lambda\) 与题目要求的时间或空间单位相匹配!
6. 泊松分布作为二项分布的近似
教学大纲要求你理解泊松分布如何作为二项分布的极限(或近似)形式。这对于在考试中选择正确的模型非常重要。
什么时候可以使用近似?
如果 \(X\) 服从二项分布 \(X \sim B(n, p)\),在满足以下条件时,泊松分布可以提供很好的近似:
- 试验次数 \(n\) 很大(\(n > 50\) 是一个很好的经验准则)。
- 成功概率 \(p\) 很小(\(p < 0.1\) 是一个很好的经验准则)。
参数之间的联系
当近似成立时,泊松参数 \(\lambda\) 可以直接通过二项分布参数计算得出:
$$\lambda = np$$
(记住 \(np\) 是二项分布的均值,由于 \(p\) 很小,方差 \(np(1-p)\) 非常接近 \(np\)。这证实了为什么“均值 \(\approx\) 方差”,从而允许泊松近似的使用。)
例子:一条生产线每天生产 2000 个零件。单个零件有缺陷的概率为 \(p=0.001\)。若 \(X\) 为缺陷零件数,则 \(X \sim B(2000, 0.001)\)。
- 由于 \(n=2000\)(很大)且 \(p=0.001\)(很小),我们使用泊松近似。
- 计算 \(\lambda = np = 2000 \times 0.001 = 2\)。
- 我们近似得到 \(X \sim \text{Po}(2)\)。
重点提示: 当处理大量试验中的稀有事件时,请使用泊松分布来近似二项分布。
7. 独立泊松随机变量之和
这一规则简化了当多个独立源的事件合并在一起时的问题。
如果你有两个服从泊松分布的独立随机变量 \(X\) 和 \(Y\),那么它们的和 \(X+Y\) 也服从泊松分布,且它们的参数可以直接相加。
- 如果 \(X \sim \text{Po}(\lambda_X)\)
- 且 \(Y \sim \text{Po}(\lambda_Y)\)
- 且 \(X\) 与 \(Y\) 相互独立
那么:
$$X + Y \sim \text{Po}(\lambda_X + \lambda_Y)$$
例子:在午餐时间,一家餐厅平均收到 5 份外卖订单 (\(D \sim \text{Po}(5)\)) 和平均 3 份到店订单 (\(W \sim \text{Po}(3)\))。如果这些是独立的,则总订单数 \(T = D + W\) 为:
$$T \sim \text{Po}(5 + 3)$$
$$T \sim \text{Po}(8)$$
此规则可以推广到任意多个独立泊松变量的和。
重点提示: 独立泊松过程的平均发生率可以直接相加。
8. 使用泊松累积分布表
虽然公式给出的是 \(P(X=x)\),但许多问题会询问累积概率(例如 \(P(X \le x)\) 或 \(P(X > x)\))。你通常需要为此查阅统计表,表内给出的通常是累积概率 \(P(X \le x)\)。
在处理不等式时,请始终记住概率定律:
-
“小于或等于”的概率(直接查表):
$$P(X \le 5) = \text{直接从表中读取 } x=5 \text{ 对应的值}$$
-
“小于”的概率(必须调整):
由于 \(X\) 是离散的(只能取整数),\(P(X < 5)\) 等同于 \(P(X \le 4)\)。
$$P(X < 5) = P(X \le 4)$$
-
“大于或等于”的概率(补集规则):
表格只显示“小于或等于”,所以你必须使用补集规则:\(P(A) = 1 - P(A')\)。
$$P(X \ge 3) = 1 - P(X < 3)$$
由于 \(X\) 是离散的,\(P(X < 3)\) 即为 \(P(X \le 2)\)。
$$P(X \ge 3) = 1 - P(X \le 2)$$
-
“大于”的概率(补集规则与调整):
$$P(X > 4) = 1 - P(X \le 4)$$
-
区间的概率:
$$P(2 \le X \le 5) = P(X \le 5) - P(X \le 1)$$ (此计算去除了 \(x=0\) 和 \(x=1\) 的概率,留下了 \(x=2, 3, 4, 5\) 的概率。)
给同学的小贴士
当不确定如何调整不等式时,画一个简单的数轴!如果你想要 \(X \ge 3\),你需要的是 3, 4, 5, ... 而其补集(你不需要的部分)是 0, 1, 2。所以,用 1 减去 \(P(X \le 2)\)。
重点提示: 处理不等号时要细心,并记住表格通常提供的是 \(P(X \le x)\) 的值。