The Binomial and Poisson distributions

欢迎来到S2单元：二项分布与泊松分布！

你好，未来的统计学家！这一章至关重要，因为它不仅能帮助我们描述数据，更能让我们通过建模与预测来洞察现实世界中事件发生的概率。如果之前觉得概率论比较抽象，也不必担心——我们将通过简单易懂的步骤，带你彻底拆解二项分布和泊松分布这两个核心概念。学完之后，你将能够准确判断该使用哪种模型，并掌握计算计数结果概率的方法！

让我们开始吧！

第1节：离散型随机变量快速回顾

在进入具体模型之前，请记住，二项分布和泊松分布处理的对象都是离散型随机变量 (Discrete Random Variables)，记作 \(X\)。

离散型随机变量是指其可能取值是可数的（通常为整数）的变量。
它代表的是“计数”，而不是“测量”（如身高或体重）。
例子：投掷10次硬币出现正面的次数、一小时内收到的电子邮件数量。

第2节：二项分布 \(B(n, p)\)

二项分布帮助我们在进行固定次数的独立试验时计算概率，且每项试验只有两种可能的结果。

4.1. 二项分布的条件 (BINS)

随机变量 \(X\) 若要使用二项分布建模，必须满足四个严苛条件。使用助记词 BINS 来记忆它们：

Binary outcomes (二元结果)：每次试验必须只能导致“成功”或“失败”。
Independent trials (独立试验)：一次试验的结果不影响任何其他试验的结果。
Number of trials is fixed (试验次数固定)：我们必须预先知道试验次数 \(n\)。
Same probability (相同概率)：成功的概率 \(p\) 在每次试验中必须保持不变。

类比：想象投篮练习。\(n\) 是你投球的总次数（固定的）。\(p\) 是你的进球率（恒定的）。每次投篮都是独立的，且结果非进即出。

4.2. 表示法与公式

如果 \(X\) 服从二项分布，我们记作：

\(X \sim B(n, p)\)

其中：

\(n\) 为试验次数。
\(p\) 为单次试验中成功的概率。

在 \(n\) 次试验中恰好获得 \(x\) 次成功的概率公式为：

\[ P(X=x) = \binom{n}{x} p^x (1-p)^{n-x} \]

其中：

\(\binom{n}{x}\)（读作“n选x”）是在 \(n\) 次试验中排列 \(x\) 次成功的组合数。
\(1-p\) 通常记作 \(q\)，即失败的概率。

分步计算概率

例子：一枚有偏硬币出现正面的概率为 0.6。若投掷 5 次，恰好出现 3 次正面的概率是多少？

此处 \(n=5\)，\(p=0.6\)，且我们要求 \(x=3\)。\((1-p) = 0.4\)。

找出排列组合数：\(\binom{5}{3} = 10\)。
求 3 次成功的概率：\((0.6)^3 = 0.216\)。
求 2 次失败的概率：\((0.4)^{5-3} = (0.4)^2 = 0.16\)。
相乘得到结果：\(P(X=3) = 10 \times 0.216 \times 0.16 = 0.3456\)。

4.3. 期望、方差与标准差

对于二项分布，计算期望次数 \(E(X)\) 和方差 \(Var(X)\) 非常简单，不需要使用处理离散变量的通用公式。

期望 (Mean)：

\[ E(X) = np \]

方差 (Variance)：

\[ Var(X) = np(1-p) \]

标准差 (Standard Deviation)：

\[ SD(X) = \sqrt{np(1-p)} \]

记忆小贴士：期望值正如你直觉所想的那样：试验总次数乘以成功率。而方差则是期望值再乘以失败率 (\(1-p\))。

二项分布快速回顾：

条件： BINS (二元、独立、固定 \(N\)、相同 \(P\))。
表示法： \(X \sim B(n, p)\)。
关键公式： \(E(X) = np\) 和 \(Var(X) = np(1-p)\)。

第3节：泊松分布 \(Po(\lambda)\)

泊松分布用于建模在固定的时间或空间间隔内，事件发生的次数。与二项分布不同，它的计数没有固定的上限 (\(n\))。

5.1. 泊松分布的条件

随机变量 \(X\) 必须满足以下条件：

事件单独发生（一次一个，不能同时发生）。
事件以恒定的平均速率发生。
事件之间彼此独立，且独立于上一次发生的时间。
事件在时间和空间上随机发生。

类比：试想统计上午 9 点到 10 点之间打入服务台的电话数量。你知道平均速率（\(\lambda\)，假设为每小时 5 通），但总数可能是 0、5、10 甚至 100！

5.2. 表示法与公式

如果 \(X\) 服从泊松分布，我们记作：

\(X \sim Po(\lambda)\)

其中 \(\lambda\) (lambda) 是平均发生速率（即在给定的间隔内事件的平均发生次数）。

恰好发生 \(x\) 次的概率公式为：

\[ P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

其中：

\(e\) 是自然对数的底数 (\(e \approx 2.71828\))。
\(x!\) 是 \(x\) 的阶乘 (\(x \times (x-1) \times \dots \times 1\))。

5.3. 缩放 \(\lambda\)（最常见的错误！）

注意！ \(\lambda\) 与题目中指定的间隔直接相关。如果时间或空间间隔发生变化，你必须同步调整 \(\lambda\)。

例子：如果每小时平均收到的短信数量为 \(\lambda = 6\)，那么：

对于 30 分钟（半小时）的间隔，新的速率 \(\lambda_{new} = 6 \times 0.5 = 3\)。
对于 2 小时的间隔，新的速率 \(\lambda_{new} = 6 \times 2 = 12\)。

一定要检查 \(\lambda\) 的时间间隔是否与计算概率所需的间隔相匹配。

5.4. 期望与方差

泊松分布的一个定义性特征就是其期望与方差之间的关系。

期望 (Expectation)：

\[ E(X) = \lambda \]

方差 (Variance)：

\[ Var(X) = \lambda \]

冷知识：因为 \(E(X) = Var(X) = \lambda\)，如果你在检验数据是否符合泊松模型，第一步通常就是看样本均值是否大致等于样本方差。

泊松分布快速回顾：

条件： 事件独立、随机、单独发生，且速率恒定。
表示法： \(X \sim Po(\lambda)\)。
关键公式： \(E(X) = \lambda\) 和 \(Var(X) = \lambda\)。
关键步骤： 如果时间/空间间隔改变，务必缩放 \(\lambda\)。

第4节：泊松分布对二项分布的近似

有时我们会遇到二项分布的情况，但数值非常巨大，以至于直接使用二项公式计算概率变得极其困难或耗时（特别是计算 \(\binom{n}{x}\) 时）。

幸运的是，在特定条件下，泊松分布为二项分布提供了一个极佳且简单的近似方法。

6.1. 何时使用近似

当满足以下两个条件时，我们可以用泊松分布 \(Po(\lambda)\) 近似二项分布 \(B(n, p)\)：

\(n\) 很大（试验次数很多，通常 \(n > 50\)）。
\(p\) 很小（成功概率很低，通常 \(p < 0.1\)）。

换个角度想：你有数百万张彩票（巨大的 \(n\)），但中奖概率极小（微小的 \(p\)）。这种情况非常符合泊松模型中稀有事件随机发生的模式。

6.2. 近似法则

如果满足条件，我们将二项分布的期望设为等于泊松分布的期望：

\[ 令 \lambda = np \]

因此，近似关系为：

\[ B(n, p) \approx Po(np) \]

然后，我们就可以利用 \(\lambda = np\) 代入泊松公式（或查表）来计算概率了。

近似例子

某工厂生产的产品缺陷率为 0.005。如果检查 1000 个产品，求恰好有 4 个残次品的概率。

检查条件： \(n=1000\)（大），\(p=0.005\)（小）。近似有效。
计算 \(\lambda\)： \(\lambda = np = 1000 \times 0.005 = 5\)。
确定分布： \(X \sim Po(5)\)。
计算 \(P(X=4)\)： 使用泊松公式，令 \(\lambda=5\)，\(x=4\)： \[ P(X=4) = \frac{e^{-5} 5^4}{4!} \]
这比计算 \(\binom{1000}{4} (0.005)^4 (0.995)^{996}\) 要容易得多。

6.3. 常见陷阱与技巧

使用累计概率表时要小心！

在两种分布中，表格通常给出的是累计概率 \(P(X \le x)\)。请记住以下规则：

\(P(X=x) = P(X \le x) - P(X \le x-1)\)
\(P(X > x) = 1 - P(X \le x)\)
\(P(X \ge x) = 1 - P(X \le x-1)\)

如果起初觉得这些规则容易搞混，不用担心——多练习识别 \(n\)、\(p\) 和 \(\lambda\) 即可。如果题目涉及在大规模群体或长时间内统计稀有事件，就考虑泊松分布！如果题目涉及固定次数的试验且只有成功/失败两种结果，就考虑二项分布！

章节总结：关键点

模型识别清单

| 特征 | 二项分布 \(B(n, p)\) | 泊松分布 \(Po(\lambda)\) | |---|---|---| | 目标 | 统计固定试验次数下的成功次数。 | 统计固定间隔（时间/空间）内的事件发生次数。 | | 试验次数 | 固定 (\(n\))。 | 无限（无固定上限）。 | | 关键参数 | \(n\) (试验次数) 和 \(p\) (成功概率)。 | \(\lambda\) (平均速率)。 | | 期望/方差 | \(E(X) = np\); \(Var(X) = np(1-p)\)。 | \(E(X) = \lambda\); \(Var(X) = \lambda\)。 | | 近似应用 | 若 \(n\) 大且 \(p\) 小，可用泊松近似，令 \(\lambda = np\)。 | 不适用 |

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。