M1 统计学:二项分布和泊松分布的应用
大家好!欢迎来到M1统计学中最实用的课题之一。在之前的章节中,你们学习了两个强大的概率工具:二项分布和泊松分布。现在,是时候将它们应用出来了!
这一章的重点就是要你们成为一个概率侦探。你将会学会如何分析一个现实世界的问题,并弄清楚应该用哪个工具去解决问题。就好像你懂得何时用锤子,何时用螺丝刀一样。掌握了这一点,你就能够解决各式各样的问题,从工厂的质量管制到预测商店的顾客流量。我们开始吧!
1. 快速回顾:认识这些分布
在我们应用它们之前,不如先快速回顾一下我们的两个主角。就算你生疏了少许都不用担心,这个回顾会帮你追回进度!
二项分布:计算成功次数
当你遇到一个情况,当中包含固定次数的试验,而每次试验都只有两种可能的结果(例如成功/失败、是/否、有缺陷/无缺陷)时,就应该想起二项分布。
例子:想象你正在猜一份10题的多项选择题测验。每条问题都是一次“试验”。你答对(“成功”)或者答错(“失败”)。二项分布可以帮助我们找到恰好答对例如3条问题的概率。
二项分布的条件 (记住B.I.N.S.口诀!)
要一个情况可以用二项分布来建模,它必须符合以下四个条件:
• Binary (二元):每次试验只有两种可能结果(成功或失败)。
• Independent (独立):一次试验的结果不会影响另一次试验的结果。
• Number of trials (固定次数):试验次数 n 是预先固定的。
• Same probability (相同概率):每次试验成功的概率 p 都是一样的。
你需要用到的公式
如果随机变量 X 服从二项分布,我们写成 $$X \sim B(n, p)$$
• 概率公式:在 n 次试验中获得恰好 k 次成功的概率是:
$$ P(X=k) = C_k^n p^k (1-p)^{n-k} $$• 平均值(期望值):平均成功次数。
$$ E(X) = np $$• 方差:衡量结果分散程度的指标。
$$ Var(X) = np(1-p) $$重点提示
当你在固定次数的尝试 (n) 中计算“成功”的次数时,就用二项分布。
泊松分布:计算在某个区间内发生的事件次数
当你在计算一个事件在时间、面积或空间的固定区间内发生的次数时,就应该想起泊松分布。关键是这些事件是随机发生并以恒定的平均速率发生的。
例子:想象你在一家电话中心工作。你想知道在下一个小时内恰好接到5个电话的概率。你知平均每小时接到8个电话。泊松分布就是处理这种情况的最佳工具。
泊松分布的条件
• 事件以恒定平均速率(用 λ 表示)发生。
• 事件是随机且互相独立的(一个电话的到来不会让另一个电话更可能或更不可能到来)。
你需要用到的公式
如果随机变量 X 服从泊松分布,我们写成 $$X \sim Po(\lambda)$$ 其中 λ (lambda) 是在指定区间内事件发生的平均次数。
• 概率公式:在该区间内恰好发生 k 次事件的概率是:
$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$• 平均值(期望值):这个就是平均速率!
$$ E(X) = \lambda $$• 方差:超容易记!
$$ Var(X) = \lambda $$你知道吗?
对于泊松分布,平均值和方差永远都是一样的!这是一个独有的特性,有时会是考试题目一个小提示。
重点提示
当你在连续的区间(例如时间或空间)内发生的事件次数,以及给了一个平均速率 (λ) 时,就用泊松分布。
2. 重头戏:如何选择合适的分布
这是这一章最重要的技巧。当你阅读一个问题时,你需要寻找线索来决定它是一个二项分布问题还是泊松分布问题。这里有一个方便的比较表来帮助你决定。
| 特征 | 二项分布 | 泊松分布 || ----------------------- | ----------------------------------------------------------- | --------------------------------------------------------- || 我们数的是什么? | 成功的次数 | 事件的次数 || 设定是怎样的? | 在固定次数的试验 (n) 中 | 在固定区间(时间、空间等)内 || 主要参数 | n(试验次数)和 p(成功概率) | λ(区间内事件发生的平均次数) || 线索词 | “20件物品中...”、“掷了15次硬币...”、“50个样本中...” | “每小时...”、“每平方米...”、“一分钟内...” || 例子 | 掷10次硬币有3次是正面的概率。 | 一页书上面有5个错字的概率。 |简单决策指南
当你阅读一个问题时,问自己这些问题:
1. 我是不是给了一个固定次数的尝试(例如 n=20),以及每次尝试的成功概率(例如 p=0.1)?
如果是,那几乎肯定是二项分布。
2. 我是不是给了一个在一段时间或空间内发生的某样东西的平均速率(例如每小时3个顾客)?
如果是,那几乎肯定是泊松分布。
就算一开始觉得有些难都不用担心。多做一些练习,你就会越来越快地找到线索了!
3. 实例演练:将理论付诸实践
例子1:篮球运动员 (二项分布)
一位篮球运动员射入罚球的概率是70%。如果他在一场比赛中射8个罚球,他恰好射入其中6个的概率是多少?
逐步解答:
1. 判断分布:
• 有没有固定次数的试验?有,n = 8 个罚球。
• 有没有两种结果?有,射入(“成功”)或者射失(“失败”)。
• 成功概率是常数?有,每个罚球的 p = 0.7。
• 试验是不是独立?有,一次射球不会影响下一次。
这完全符合 B.I.N.S. 的条件。所以,我们用二项分布!我们有 $$X \sim B(8, 0.7)$$。
2. 确定变量:
• n = 8
• p = 0.7
• 1-p = 0.3
• k = 6(我们想得到恰好6次成功)
3. 套用公式:
$$ P(X=6) = C_6^8 (0.7)^6 (0.3)^{8-6} $$
$$ P(X=6) = 28 \times (0.7)^6 \times (0.3)^2 $$
$$ P(X=6) = 28 \times 0.117649 \times 0.09 $$
$$ P(X=6) \approx 0.2965 $$
4. 最终答案:
他恰好射入6个罚球的概率约为 0.2965 (或 29.65%)。
例子2:咖啡店 (泊松分布)
一家小型咖啡店平均每10分钟有4个顾客。在10分钟内恰好有3个顾客到达的概率是多少?那么在5分钟内呢?
甲部:10分钟内的概率
1. 判断分布:
我们计算着在固定区间(10分钟)内的事件(顾客到来)次数,以及给了平均速率。这是一个经典的泊松分布问题!
2. 确定变量:
• 区间是10分钟。
• 这个区间的平均速率是 λ = 4。
• 我们想找恰好 k = 3 个事件发生的概率。
所以,$$X \sim Po(4)$$。
3. 套用公式:
$$ P(X=3) = \frac{e^{-4} 4^3}{3!} $$
$$ P(X=3) = \frac{e^{-4} \times 64}{6} $$
$$ P(X=3) \approx 0.018315 \times \frac{64}{6} \approx 0.1954 $$
4. 最终答案:
在10分钟内恰好有3个顾客到达的概率约为 0.1954。
乙部:5分钟内的概率
1. 调整 λ! (这是一个常见小技巧!)
题目现在是关于一个5分钟的区间,而不是10分钟。我们必须调整我们的平均速率 λ 来配合新的区间。
• 原始速率:每10分钟有4个顾客。
• 新速率:区间是一半长,所以顾客的平均数量亦会减半。
• 新 λ = 4 × (5 / 10) = 每5分钟2个顾客。
所以,这一部分我们用 $$Y \sim Po(2)$$。
2. 用新的 λ 套用公式:
我们仍然想找恰好3个顾客的概率,所以 k = 3。
$$ P(Y=3) = \frac{e^{-2} 2^3}{3!} $$
$$ P(Y=3) = \frac{e^{-2} \times 8}{6} $$
$$ P(Y=3) \approx 0.1353 \times \frac{8}{6} \approx 0.1804 $$
常见错误要避免
• 忘记调整 λ!永远都要检查题目中的时间区间,以及给出平均速率的区间是不是一样。如果不是,你就必须按比例调整 λ。
4. 特别情况:泊松分布近似二项分布
有时,一个问题看起来是二项分布,但数值计算上会非常困难。想象一下 $$X \sim B(2000, 0.001)$$。计算 $$C_{2}^{2000}$$ 简直是噩梦!
好彩,有个捷径。当 n 非常大而 p 非常小的时候,二项分布就会好像泊松分布。我们可以用泊松分布来做一个简单的近似!
何时可以用这个近似法?
当一个二项分布符合以下条件时,就可以用:
• n 是大数(一般经验法则是 n > 50)
• p 是小数(一般经验法则是 p < 0.1)
如何做?
很简单的!只是将泊松分布的平均速率 λ 等于二项分布的平均值 (np)。
神奇一步:计算 $$ \lambda = np $$
例子3:有缺陷的芯片 (泊松近似)
一家工厂生产电脑芯片,其中有0.2%是有缺陷的。在一个1000块芯片的随机样本中,恰好有4块是有缺陷的概率是多少?
逐步解答:
1. 判断原始分布:
这是一个二项分布问题。我们有固定次数的试验 (n=1000),以及恒定的成功概率(芯片有缺陷,p=0.002)。所以,$$X \sim B(1000, 0.002)$$。
2. 检查近似法是否适用:
• n = 1000(非常大! ✓)
• p = 0.002(非常小! ✓)
条件完美。我们可以用泊松近似。这会比计算 $$C_4^{1000}$$ 容易得多!
3. 计算新的 λ:
$$ \lambda = np = 1000 \times 0.002 = 2 $$
4. 使用泊松公式:
我们现在当这是一个泊松分布问题,其中 λ=2,我们想找 k=4 的概率。
所以我们用 $$X' \sim Po(2)$$。
$$ P(X'=4) = \frac{e^{-2} 2^4}{4!} $$
$$ P(X'=4) = \frac{e^{-2} \times 16}{24} $$
$$ P(X'=4) \approx 0.1353 \times \frac{16}{24} \approx 0.0902 $$
5. 最终答案:
找到恰好4块有缺陷芯片的近似概率约为 0.0902。
重点提示
如果你看到一个二项分布问题,当中 n 非常大,而 p 非常小,你的脑袋应该尖叫:“泊松近似!”只需计算 λ=np,然后将它当成一个简单的泊松分布问题来解决就可以了。