M1 复习笔记:泊松分布
大家好!欢迎大家来到M1统计学最有趣的课题之一:泊松分布的复习笔记!这个名称听起来可能有些陌生,但不用担心。它是一个超级有用的工具,帮助我们理解在时间或空间上随机发生的事件。
在这个章节,我们会学习如何预测以下这些事情的概率:
- 你一个小时内收到的邮件数量。
- 一本书里面,一页纸上的打字错误数量。
- 十分钟内到达收银处的顾客数量。
复习完这份笔记之后,你就会明白什么是泊松分布、何时使用它,以及如何使用它来计算概率。我们一起开始吧!
1. 泊松分布究竟是什么?
想象一下你试图计算某件事发生了多少次,但这些事件都是随机且独立的。二项分布适用于有固定次数试验的情况(例如掷硬币10次)。但如果没有固定的“试验次数”呢?如果只是在固定的时间区间内,等待事件发生呢?
这个时候,泊松分布就派上用场了!它是一种离散概率分布,帮助我们找出在固定的时间、面积、体积或距离区间内,特定数量事件发生的概率。
关键参数:Lambda (λ)
整个泊松分布都围绕着一个唯一而超级重要的参数:lambda,写作λ。
λ (Lambda) = 在一个特定区间内,事件的平均发生数量。
可以将它视为“平均发生率”。例如:
- 如果一个客户服务中心平均每个小时收到10个电话,那么λ就是10(对于一个小时的区间)。
- 如果一位生物学家在一片田野中,平均每平方米找到2朵稀有花朵,那么λ就是2(对于1平方米的区间)。
何时可以使用泊松分布?
泊松分布并非万能!一个情况要符合以下条件,才能使用泊松分布来建立模型:
- 事件以恒定的平均发生率发生(即是λ的数值不会改变)。
- 事件之间互相独立(即是一件事件的发生不会让另一件事件变得更可能或更不可能发生)。
- 事件随机发生。
- 两个事件不能在同一瞬间发生。
重点提示:第一部分
泊松分布用于计算在固定区间(例如时间或空间)内,随机、独立事件的数量。它唯一的参数是λ (lambda),即是该区间内事件的平均发生率。
2. 泊松概率公式
好的,接下来是重头戏了!如果随机变量`X`遵循泊松分布,平均发生率为λ,我们会这样写:
$$ X \nPo(\nlambda) $$在该区间内观察到刚好k个事件的概率,可以使用以下公式表示:
$$ P(X=k) = \frac{e^{-\nlambda} \nlambda^k}{k!} \ntext{for } k = 0, 1, 2, ... $$不用被这条公式吓到!我们来拆解一下:
- P(X=k) 是我们想找的:即是事件数量刚好是`k`的概率。
- k 是你感兴趣的特定事件数量(例如,刚好有3个电话的概率)。
- λ 是该区间内事件的平均数量。
- e 是欧拉数(你的计算器认识它,它大约是2.718)。
- k! 是“k阶乘”,即是 k × (k-1) × ... × 2 × 1(例如,3! = 3 × 2 × 1 = 6)。记住 0! = 1。
逐步示例
一个客户服务热线平均每个小时收到5个电话。在一个特定的小时内,他们刚好收到2个电话的概率是多少?
步骤1:确认分布和参数。
- 事件(电话)在固定的区间(一个小时)内随机发生。这听起来就像泊松分布!
- 平均发生率是每个小时5个电话,所以 λ = 5。
- 我们想找出刚好有2个电话的概率,所以 k = 2。
- 所以,我们有 $$X \nPo(5)$$ 并且需要找出 $$P(X=2)$$。
步骤2:将数值代入公式。
$$ P(X=2) = \frac{e^{-5} \ncdot 5^2}{2!} $$步骤3:计算结果。
$$ P(X=2) = \frac{e^{-5} \ncdot 25}{2 \ntimes 1} $$$$ P(X=2) \napprox 0.0842 $$所以,在那个小时内刚好收到2个电话的机会大约是8.42%。
常见错误要避开
- 混淆λ和k:记住,`λ`是该区间的平均数,`k`是你测试的特定数值。
- 忘记0! = 1:零事件的概率是 $$P(X=0) = \frac{e^{-\nlambda} \nlambda^0}{0!} = e^{-\nlambda}$$,因为 $$\nlambda^0=1$$ 和 $$0!=1$$。
- 计算器错误:输入阶乘以及`e`的次方时要小心。记得用你的计算器上面的`e^x`按钮。
3. 泊松分布的特性
这个部分简单又重要。课程要求你认识泊松分布的均值和方差。不需要证明!
均值和方差
对于一个随机变量 $$X \nPo(\nlambda)$$:
- 均值(或者期望值)是: $$ E(X) = \nlambda $$
- 方差是: $$ Var(X) = \nlambda $$
记忆技巧
这有一个简单的记忆方法:“泊松分布很简单,均值方差都一样!”
这是泊松分布一个独特的性质!如果题目告诉你一个离散分布的均值和它的方差相等,那么这就是一个很大的提示,表示你可能正在处理泊松分布的问题了。
你知道吗?
标准差是方差的平方根。所以对于泊松分布来说,标准差就是 $$\nsqrt{\nlambda}$$。
快速回顾区
如果 $$X \nPo(3)$$,那么:
- 事件的平均数量是3。
- 均值 `E(X)` 是3。
- 方差 `Var(X)` 是3。
看到了吗?是不是很简单呢!
4. 调整发生率 (λ)
这是考试问题中很常见的“考法”,所以要特别留意!λ的数值必须要与题目中的区间相符。
如果题目给你一个区间的平均发生率,但是问着另一个*不同*区间的概率,你必须要先调整λ。
逐步示例
一个网站平均每个小时收到180次点击。在1分钟的时间内,刚好收到4次点击的概率是多少?
步骤1:找出原始发生率。
- 发生率是每60分钟180次点击。
步骤2:将发生率 (λ) 调整到新的区间(1分钟)。
- 平均每分钟发生率 = $$\frac{180 \ntext{ 次点击}}{60 \ntext{ 分钟}} = 3$$ 次点击每分钟。
- 我们新的、已调整的 λ = 3。
步骤3:在泊松公式中使用新的λ。
- 我们想找出在这个1分钟区间内有4次点击(k=4)的概率。
- 所以,我们需要为 $$X \nPo(3)$$ 计算 $$P(X=4)$$。
在开始计算之前,调整λ是至关重要的!
5. 使用泊松分布近似二项分布
有时,使用二项分布 $$X \nB(n, p)$$ 计算概率会很困难,尤其当`n`很大的时候。想象一下人手计算 $$C(500, 2)$$ 有多麻烦!
值得庆幸的是,当符合特定条件时,我们可以用简单得多的泊松分布来做一个出色的近似。
近似的条件
如果你想使用泊松分布近似一个二项分布,需要满足以下条件:
- n 很大(通常 `n > 50` 是一个好的参考)。
- p 很小(通常 `p < 0.1` 是一个好的参考)。
简单来说,我们是在大量试验中,计算一个稀有事件“成功”的次数。
如何进行近似
如果 $$X \nB(n, p)$$ 并且符合上面的条件,你可以用以下方法来近似:
$$ Y \nPo(\nlambda) \ntext{where} \nquad \nlambda = np $$为什么是 `λ = np` 呢?因为二项分布的均值就是 `np`。我们将泊松分布的均值设为我们要近似的二项分布的均值。这样做完全合情合理!
逐步示例
一间工厂生产大量电脑芯片。芯片有缺陷的概率是0.005。芯片每400块装一盒。找出一个盒子里面刚好有3块有缺陷芯片的近似概率。
步骤1:确认原始分布。
- 这是一个二项分布的情况。我们有固定的试验次数(`n=400`),以及一个恒定的成功概率(芯片有缺陷,`p=0.005`)。
- 所以,$$X \nB(400, 0.005)$$。
步骤2:检查泊松近似的条件。
- `n = 400`(很大)。
- `p = 0.005`(很小)。
- 条件符合!使用二项公式计算会很麻烦。我们使用泊松分布吧。
步骤3:为泊松模型计算λ。
$$ \nlambda = np = 400 \ntimes 0.005 = 2 $$步骤4:在泊松公式中使用新的λ。
- 我们现在可以用 $$Y \nPo(2)$$ 来建立模型。
- 我们想找出刚好有3块有缺陷芯片的概率,所以k=3。
近似概率大约是18.0%。
重点提示:第五部分
当你看到一个二项分布问题,如果 `n` 很大而 `p` 很小,就立刻想起“泊松近似”!只要计算 λ = np 再使用泊松公式就可以了。这样简单得多!