欢迎来到几何分布与负二项分布的世界!

在之前的学习中,你可能已经接触过二项分布(Binomial Distribution),它用于计算固定次数试验中的成功次数。这一章我们要将逻辑翻转过来!我们不再固定试验次数,而是等待成功的出现。这就是为什么它们通常被称为“等待时间(waiting time)”分布。

如果刚开始觉得有点抽象,别担心。无论你是在等待掷出公正骰子的“6”,还是等待生产线上出现特定数量的次品,其背后的逻辑都是一样的。让我们马上开始吧!

1. 几何分布 (The Geometric Distribution)

当我们关注要进行多少次试验才能得到第一次成功时,就会使用几何分布

我们何时使用它?

当满足以下条件时,我们使用此模型:
• 每次试验只有两种结果:成功失败
• 试验是独立的(一个结果不会影响下一个)。
• 每次试验的成功概率 \( p \) 是恒定的。
• 我们一旦达到第一次成功就停止试验。

概率质量函数 (PMF)

若 \( X \) 为直至第一次成功所需的试验次数,我们记作 \( X \sim \text{Geo}(p) \)。成功发生在第 \( x \) 次试验的概率公式为:
\( P(X = x) = p(1 - p)^{x-1} \),其中 \( x = 1, 2, 3, ... \)

公式拆解:
想像你在第 5 次尝试时成功。这意味着你必须失败了 4 次,然后成功了 1 次
• \( (1-p)^{x-1} \) 代表了 \( x-1 \) 次失败。
• \( p \) 代表了最后那一次成功。

速查方块:
• \( p \):成功的概率。
• \( (1-p) \):失败的概率(通常写作 \( q \))。
• \( x \):获得第一次成功时的试验次数。

现实生活例子

例子:假设用弓箭射中目标的概率是 0.2。那么在第 3 次尝试才第一次射中目标的概率是多少?
这里 \( p = 0.2 \) 且 \( x = 3 \)。
使用公式:\( P(X = 3) = 0.2 \times (1 - 0.2)^{3-1} = 0.2 \times 0.8^2 = 0.128 \)。

一个非常有用的技巧:累积概率

有时你需要求成功所需次数大于 \( k \) 的概率。
\( P(X > k) = (1 - p)^k \)
类比:如果你在第 \( k \) 次试验时还没有成功,这意味着你已经连续失败了 \( k \) 次!这比将各个个别概率相加要快得多。

重点总结: 几何分布的核心就是“我要尝试多少次才能成功一次?”

2. 几何分布的平均值与方差

我们期望需要进行多少次试验?结果又会有多大的波动?

公式

对于 \( X \sim \text{Geo}(p) \):
平均值(期望值): \( E(X) = \mu = \frac{1}{p} \)
方差: \( \text{Var}(X) = \sigma^2 = \frac{1 - p}{p^2} \)

你知道吗?
如果你掷骰子得到“6”的概率是 1/6 (\( p = 1/6 \)),则平均值为 \( 1 \div (1/6) = 6 \)。这非常有道理——你预期要掷 6 次骰子才能看到一个“6”!

常见错误:
学生常会搞混分子和分母。只要记住:如果成功概率极小,那么期望的试验次数就应该极大!

3. 负二项分布 (The Negative Binomial Distribution)

负二项分布视为几何分布的“大哥哥”。我们不再只等待第一次成功,而是等待第 \( r \) 次成功

概率质量函数 (PMF)

若 \( X \) 为直至第 \( r \) 次成功所需的试验次数,我们记作 \( X \sim \text{NB}(r, p) \)。公式如下:
\( P(X = x) = \binom{x-1}{r-1} p^r (1 - p)^{x-r} \),其中 \( x = r, r+1, r+2, ... \)

逐步解释:
这个公式看起来很吓人,但让我们用一个例子拆解它:假设我们要在第 10 次试验 (\( x=10 \)) 时获得第 3 次成功 (\( r=3 \)):
1. 最后一步: 第 10 次试验必须是成功。这贡献了一个 \( p \)。
2. 之前的情况: 在前 9 次试验 (\( x-1 \)) 中,你必须恰好有 2 次成功 (\( r-1 \))。这就是为什么我们使用组合 \( \binom{9}{2} \)。
3. 其余部分: 你总共有 \( r \) 次成功 (即 \( p^r \)) 和 \( x-r \) 次失败 (即 \( (1-p)^{x-r} \))。

现实生活例子

例子:一名篮球运动员罚球命中的概率为 0.7。那么他在第 8 次尝试时才投进第 5 个球的概率是多少?
这里 \( p = 0.7 \),\( r = 5 \),且 \( x = 8 \)。
\( P(X = 8) = \binom{8-1}{5-1} (0.7)^5 (1 - 0.7)^{8-5} = \binom{7}{4} (0.7)^5 (0.3)^3 \)。

重点总结: 当你需要不止一次成功,且想知道需要多久才能达成时,就使用负二项分布。

4. 负二项分布的平均值与方差

由于负二项分布本质上就像进行了 \( r \) 次几何分布,其公式也非常相似!

公式

对于 \( X \sim \text{NB}(r, p) \):
平均值: \( E(X) = \mu = \frac{r}{p} \)
方差: \( \text{Var}(X) = \sigma^2 = \frac{r(1 - p)}{p^2} \)

记忆小撇步:
只要把几何分布的公式乘以 \( r \) 就行了!就是这么简单!

5. 几何分布的假设检验

在进阶统计 1 (Further Statistics 1) 中,你需要根据成功出现所需的时间,来检验一个声称的概率 \( p \) 是否准确。

检验流程

1. 设定假设:
• \( H_0: p = \text{声称的值} \)
• \( H_1: p < \text{值} \)、\( p > \text{值} \) 或 \( p \neq \text{值} \)。
2. 计算概率: 使用样本中的试验结果 \( x \)。
• 如果要检验 \( p \) 是否低于声称值,你是在寻找“异常漫长”的等待:计算 \( P(X \ge x) \)。
• 如果要检验 \( p \) 是否高于声称值,你是在寻找“异常短暂”的等待:计算 \( P(X \le x) \)。
3. 比较: 将你的 p-value 与显著性水平 \( \alpha \) 进行比较。
4. 结论: 如果 p-value \( < \alpha \),则拒绝 \( H_0 \)。

加油语: 这里的假设检验逻辑与你在 A-Level 数学中所做的二项分布检验完全相同——只是分布公式变了!

6. 选择正确的分布

如果你卡在不知道该用哪一个分布,问自己以下问题:

试验次数是固定的吗?

是: 使用二项分布。
否: (你在等待成功) 使用几何或负二项分布。

你在等待多少次成功?

恰好一次: 使用几何分布。
超过一次 (\( r \)): 使用负二项分布。

第 3 章总结:
几何分布: 等待第一次成功。 \( E(X) = 1/p \)。
负二项分布: 等待第 \( r \) 次成功。 \( E(X) = r/p \)。
独立性: 在使用这些模型之前,请务必确认各个试验之间互不影响!
假设检验: 务必根据参数 \( p \) 来陈述你的假设。