M1 统计学:二项分布和泊松分布的应用

大家好!欢迎来到M1统计学中最实用的课题之一。在之前的章节中,你们学习了两个强大的概率工具:二项分布泊松分布。现在,是时候将它们应用出来了!

这一章的重点就是要你们成为一个概率侦探。你将会学会如何分析一个现实世界的问题,并弄清楚应该用哪个工具去解决问题。就好像你懂得何时用锤子,何时用螺丝刀一样。掌握了这一点,你就能够解决各式各样的问题,从工厂的质量管制到预测商店的顾客流量。我们开始吧!


1. 快速回顾:认识这些分布

在我们应用它们之前,不如先快速回顾一下我们的两个主角。就算你生疏了少许都不用担心,这个回顾会帮你追回进度!

二项分布:计算成功次数

当你遇到一个情况,当中包含固定次数的试验,而每次试验都只有两种可能的结果(例如成功/失败、是/否、有缺陷/无缺陷)时,就应该想起二项分布。

例子:想象你正在猜一份10题的多项选择题测验。每条问题都是一次“试验”。你答对(“成功”)或者答错(“失败”)。二项分布可以帮助我们找到恰好答对例如3条问题的概率。

二项分布的条件 (记住B.I.N.S.口诀!)

要一个情况可以用二项分布来建模,它必须符合以下四个条件:

Binary (二元):每次试验只有两种可能结果(成功或失败)。

Independent (独立):一次试验的结果不会影响另一次试验的结果。

Number of trials (固定次数):试验次数 n 是预先固定的。

Same probability (相同概率):每次试验成功的概率 p 都是一样的。

你需要用到的公式

如果随机变量 X 服从二项分布,我们写成 $$X \sim B(n, p)$$

概率公式:n 次试验中获得恰好 k 次成功的概率是:

$$ P(X=k) = C_k^n p^k (1-p)^{n-k} $$

平均值(期望值):平均成功次数。

$$ E(X) = np $$

方差:衡量结果分散程度的指标。

$$ Var(X) = np(1-p) $$
重点提示

当你在固定次数的尝试 (n) 中计算“成功”的次数时,就用二项分布


泊松分布:计算在某个区间内发生的事件次数

当你在计算一个事件在时间、面积或空间的固定区间内发生的次数时,就应该想起泊松分布。关键是这些事件是随机发生并以恒定的平均速率发生的。

例子:想象你在一家电话中心工作。你想知道在下一个小时内恰好接到5个电话的概率。你知平均每小时接到8个电话。泊松分布就是处理这种情况的最佳工具。

泊松分布的条件

• 事件以恒定平均速率(用 λ 表示)发生。

• 事件是随机互相独立的(一个电话的到来不会让另一个电话更可能或更不可能到来)。

你需要用到的公式

如果随机变量 X 服从泊松分布,我们写成 $$X \sim Po(\lambda)$$ 其中 λ (lambda) 是在指定区间内事件发生的平均次数。

概率公式:在该区间内恰好发生 k 次事件的概率是:

$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$

平均值(期望值):这个就是平均速率!

$$ E(X) = \lambda $$

方差:超容易记!

$$ Var(X) = \lambda $$
你知道吗?

对于泊松分布,平均值和方差永远都是一样的!这是一个独有的特性,有时会是考试题目一个小提示。

重点提示

当你在连续的区间(例如时间或空间)内发生的事件次数,以及给了一个平均速率 (λ) 时,就用泊松分布


2. 重头戏:如何选择合适的分布

这是这一章最重要的技巧。当你阅读一个问题时,你需要寻找线索来决定它是一个二项分布问题还是泊松分布问题。这里有一个方便的比较表来帮助你决定。

| 特征 | 二项分布 | 泊松分布 || ----------------------- | ----------------------------------------------------------- | --------------------------------------------------------- || 我们数的是什么? | 成功的次数 | 事件的次数 || 设定是怎样的? | 在固定次数的试验 (n) 中 | 在固定区间(时间、空间等)内 || 主要参数 | n(试验次数)和 p(成功概率) | λ(区间内事件发生的平均次数) || 线索词 | “20件物品中...”、“掷了15次硬币...”、“50个样本中...” | “每小时...”、“每平方米...”、“一分钟内...” || 例子 | 掷10次硬币有3次是正面的概率。 | 一页书上面有5个错字的概率。 |

简单决策指南

当你阅读一个问题时,问自己这些问题:

1. 我是不是给了一个固定次数的尝试(例如 n=20),以及每次尝试的成功概率(例如 p=0.1)?
如果是,那几乎肯定是二项分布

2. 我是不是给了一个在一段时间或空间内发生的某样东西的平均速率(例如每小时3个顾客)?
如果是,那几乎肯定是泊松分布

就算一开始觉得有些难都不用担心。多做一些练习,你就会越来越快地找到线索了!


3. 实例演练:将理论付诸实践

例子1:篮球运动员 (二项分布)

一位篮球运动员射入罚球的概率是70%。如果他在一场比赛中射8个罚球,他恰好射入其中6个的概率是多少?

逐步解答:

1. 判断分布:
• 有没有固定次数的试验?有,n = 8 个罚球。
• 有没有两种结果?有,射入(“成功”)或者射失(“失败”)。
• 成功概率是常数?有,每个罚球的 p = 0.7
• 试验是不是独立?有,一次射球不会影响下一次。
这完全符合 B.I.N.S. 的条件。所以,我们用二项分布!我们有 $$X \sim B(8, 0.7)$$。

2. 确定变量:
n = 8
p = 0.7
1-p = 0.3
k = 6(我们想得到恰好6次成功)

3. 套用公式:
$$ P(X=6) = C_6^8 (0.7)^6 (0.3)^{8-6} $$
$$ P(X=6) = 28 \times (0.7)^6 \times (0.3)^2 $$
$$ P(X=6) = 28 \times 0.117649 \times 0.09 $$
$$ P(X=6) \approx 0.2965 $$

4. 最终答案:
他恰好射入6个罚球的概率约为 0.2965 (或 29.65%)。


例子2:咖啡店 (泊松分布)

一家小型咖啡店平均每10分钟有4个顾客。在10分钟内恰好有3个顾客到达的概率是多少?那么在5分钟内呢?

甲部:10分钟内的概率

1. 判断分布:
我们计算着在固定区间(10分钟)内的事件(顾客到来)次数,以及给了平均速率。这是一个经典的泊松分布问题!

2. 确定变量:
• 区间是10分钟。
• 这个区间的平均速率是 λ = 4。
• 我们想找恰好 k = 3 个事件发生的概率。
所以,$$X \sim Po(4)$$。

3. 套用公式:
$$ P(X=3) = \frac{e^{-4} 4^3}{3!} $$
$$ P(X=3) = \frac{e^{-4} \times 64}{6} $$
$$ P(X=3) \approx 0.018315 \times \frac{64}{6} \approx 0.1954 $$

4. 最终答案:
在10分钟内恰好有3个顾客到达的概率约为 0.1954。

乙部:5分钟内的概率

1. 调整 λ! (这是一个常见小技巧!)
题目现在是关于一个5分钟的区间,而不是10分钟。我们必须调整我们的平均速率 λ 来配合新的区间。
• 原始速率:每10分钟有4个顾客。
• 新速率:区间是一半长,所以顾客的平均数量亦会减半。
• 新 λ = 4 × (5 / 10) = 每5分钟2个顾客。
所以,这一部分我们用 $$Y \sim Po(2)$$。

2. 用新的 λ 套用公式:
我们仍然想找恰好3个顾客的概率,所以 k = 3。
$$ P(Y=3) = \frac{e^{-2} 2^3}{3!} $$
$$ P(Y=3) = \frac{e^{-2} \times 8}{6} $$
$$ P(Y=3) \approx 0.1353 \times \frac{8}{6} \approx 0.1804 $$

常见错误要避免

忘记调整 λ!永远都要检查题目中的时间区间,以及给出平均速率的区间是不是一样。如果不是,你就必须按比例调整 λ。


4. 特别情况:泊松分布近似二项分布

有时,一个问题看起来是二项分布,但数值计算上会非常困难。想象一下 $$X \sim B(2000, 0.001)$$。计算 $$C_{2}^{2000}$$ 简直是噩梦!

好彩,有个捷径。当 n 非常大p 非常小的时候,二项分布就会好像泊松分布。我们可以用泊松分布来做一个简单的近似!

何时可以用这个近似法?

当一个二项分布符合以下条件时,就可以用:

n 是大数(一般经验法则是 n > 50)

p 是小数(一般经验法则是 p < 0.1)

如何做?

很简单的!只是将泊松分布的平均速率 λ 等于二项分布的平均值 (np)。

神奇一步:计算 $$ \lambda = np $$

例子3:有缺陷的芯片 (泊松近似)

一家工厂生产电脑芯片,其中有0.2%是有缺陷的。在一个1000块芯片的随机样本中,恰好有4块是有缺陷的概率是多少?

逐步解答:

1. 判断原始分布:
这是一个二项分布问题。我们有固定次数的试验 (n=1000),以及恒定的成功概率(芯片有缺陷,p=0.002)。所以,$$X \sim B(1000, 0.002)$$。

2. 检查近似法是否适用:
n = 1000(非常大! ✓)
p = 0.002(非常小! ✓)
条件完美。我们可以用泊松近似。这会比计算 $$C_4^{1000}$$ 容易得多!

3. 计算新的 λ:
$$ \lambda = np = 1000 \times 0.002 = 2 $$

4. 使用泊松公式:
我们现在当这是一个泊松分布问题,其中 λ=2,我们想找 k=4 的概率。
所以我们用 $$X' \sim Po(2)$$。
$$ P(X'=4) = \frac{e^{-2} 2^4}{4!} $$
$$ P(X'=4) = \frac{e^{-2} \times 16}{24} $$
$$ P(X'=4) \approx 0.1353 \times \frac{16}{24} \approx 0.0902 $$

5. 最终答案:
找到恰好4块有缺陷芯片的近似概率约为 0.0902。

重点提示

如果你看到一个二项分布问题,当中 n 非常大,而 p 非常小,你的脑袋应该尖叫:“泊松近似!”只需计算 λ=np,然后将它当成一个简单的泊松分布问题来解决就可以了。