欢迎来到离散分布的世界!
在本章中,我们将探讨统计学家工具箱中最核心的两个工具:二项分布 (Binomial Distribution) 与 泊松分布 (Poisson Distribution)。它们都属于“离散”分布,这意味着它们处理的是我们可以数得出来的数据(例如掷硬币出现正面的次数,或是一小时内你收到的邮件数量)。
如果这些名词听起来有点深奥,别担心!读完这份笔记后,你会发现它们其实只是描述现实生活中某事“发生概率”的数学工具而已。让我们开始吧!
1. 二项分布(快速重温)
你可能还记得在 S1 课程中学过的二项分布。当我们有固定次数的试验,并想找出“成功”次数时,就会使用它。
关键条件 (BINS 记忆法)
要使用二项分布模型 \(X \sim \text{B}(n, p)\),必须符合以下四个条件:
- B – Binary (二元): 结果只有两种(成功或失败)。
- I – Independent (独立): 每次试验互不影响。
- N – Number (数量): 试验次数是固定的 (\(n\))。
- S – Same probability (概率相同): 每次成功的概率 (\(p\)) 保持不变。
平均值与方差
对于二项分布,你需要记住这两个简单的公式(不需要推导!):
平均值 (期望值): \(E(X) = np\)
方差: \(\text{Var}(X) = np(1 - p)\)
快速回顾: 二项分布适用于固定次数的试验,且你需要计算成功次数的情况。
2. 泊松分布
二项分布关注的是固定次数的试验,而 泊松分布 (Poisson Distribution) 则关注事件在固定的时间或空间区间内发生的次数。
我们何时使用泊松分布?
想象一下,你站在街角计算 10 分钟内有多少辆车经过,或是计算一块饼干里有多少粒巧克力豆。这些都是典型的泊松分布情境!
我们将其表示为:\(X \sim \text{Po}(\lambda)\)
其中 \(\lambda\)(希腊字母 lambda)是事件发生的平均速率。
泊松模型的条件
要使用泊松分布来建模,事件必须符合以下条件:
- 独立地发生: 一辆车经过不会影响另一辆车经过的概率。
- 单一地发生: 两个事件不可能在同一瞬间发生。
- 以恒定的平均速率发生: 在整个区间内,每分钟发生的平均事件数保持不变。
- 随机地发生: 你无法预测下一个事件确切会在何时发生。
泊松分布公式
若要计算刚好发生 \(x\) 次事件的概率:
\(P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\)
注意:\(e\) 是一个常数,约等于 2.718,而 \(x!\) 是“x 阶乘”。
平均值与方差
这里有一个关于泊松分布的小撇步,非常容易记:
平均值: \(E(X) = \lambda\)
方差: \(\text{Var}(X) = \lambda\)
在泊松分布中,平均值与方差是相等的!如果题目给你的数据中平均值与方差相差很大,那么泊松模型可能就不适用了。
你知道吗?
泊松分布是以法国数学家 Siméon Denis Poisson 的名字命名的。有趣的是,“Poisson”在法文中刚好就是“鱼”的意思!
重点总结: 当事件以恒定速率在时间或空间中发生时,请使用泊松分布。其平均值与方差皆等于 \(\lambda\)。
3. 泊松分布的加法特性
泊松分布最实用的特性之一,就是 \(\lambda\) 可以根据区间的大小进行相应的缩放。
调整区间
如果你的邮件收件频率为 \(X \sim \text{Po}(2)\)(每小时),那么:
- 在 2 小时内,分布为 \(\text{Po}(2 \times 2) = \text{Po}(4)\)。
- 在 30 分钟(半小时)内,分布为 \(\text{Po}(2 \times 0.5) = \text{Po}(1)\)。
相加独立变量
如果你有两个独立的泊松变量 \(X \sim \text{Po}(\lambda)\) 与 \(Y \sim \text{Po}(\mu)\),它们的总和同样符合泊松分布:
\(X + Y \sim \text{Po}(\lambda + \mu)\)
小贴士: 一定要确保你的 \(\lambda\) 与题目问句中的时间范围一致!
4. 用泊松分布近似二项分布
有时候,计算二项分布概率非常困难,因为 \(n\) 很大(例如 1,000)而 \(p\) 极小(例如 0.001)。在这种情况下,我们可以使用泊松分布作为快捷方式。
何时可以使用近似?
当以下条件满足时,我们可以使用 \(X \sim \text{Po}(np)\) 来近似 \(X \sim \text{B}(n, p)\):
- \(n\) 够大(通常 \(n > 50\))
- \(p\) 够小(通常 \(p < 0.1\))
新的平均值 \(\lambda\) 就是 \(n \times p\)。
类比: 想象试着统计巨大体育场里有多少人和你同月同日生。人数 (\(n\)) 非常多,但每个人符合条件的概率 (\(p\)) 很小。泊松模型在这里就非常适用!常见错误: 同学们常忘记检查 \(p\) 是否够小。如果 \(p\) 接近 0.5,你应该使用正态分布(之后会学到),而不是泊松分布。
5. 处理累积概率
在考试中,你常会被问到“最多”或“多于”某个数值的概率。你可以利用考试提供的统计表格 (Statistical Tables) 来节省时间。
“至少”问题的步骤:
如果要在泊松分布中计算 \(P(X \geq 3)\):
- 记得总概率永远为 1。
- 找出“至少 3”的相反情况,即“2 或以下”。
- 使用公式:\(P(X \geq 3) = 1 - P(X \leq 2)\)。
- 在泊松分布表中查出对应你 \(\lambda\) 值的 \(P(X \leq 2)\)。
鼓励一下: 如果表中没有你所需的确切 \(\lambda\) 值,或者题目要求计算如 \(P(X = 4)\) 的特定数值,直接使用公式或计算器的分布函数通常会更安全、更简单!
总结:选择正确的模型
最后,当你遇到问题时,请尝试问自己这些问题:
- 试验次数是否固定? 是 \(\rightarrow\) 二项分布。
- 时间/空间中是否有恒定速率? 是 \(\rightarrow\) 泊松分布。
- \(n\) 巨大而 \(p\) 微小吗? 是 \(\rightarrow\) 泊松近似。
重点总结: 统计学的关键在于挑选正确的“模型形状”来描述数据。只要掌握了二项分布与泊松分布的条件,你就已经成功了一半!