欢迎来到离散随机变量的精彩世界!在这一章中,我们将聚焦于一种特定的概率模型:几何分布 (Geometric Distribution)

如果概率模型让你觉得有些抽象,不用担心。几何分布非常直观,因为它模拟了我们每天都在经历的事情:等待第一次成功

你将学习使用该模型所需的特定条件,如何计算等待一定次数试验的概率,以及如何求平均等待时间(均值)。

1. 理解几何分布 \(X \sim \text{Geo}(p)\)

当我们进行一系列独立试验,并且关注达到第一次成功所需的试验次数时,就会用到几何分布。

随机变量 \(X\) 定义为:
\(X\) = 直到并包括第一次成功结果的试验总次数。

由于 \(X\) 计数的是试验次数,其可能取值为 \(x = 1, 2, 3, \dots\) 它是一个离散随机变量,因为你不可能进行 1.5 次试验!

类比:篮球罚球

想象一名篮球运动员,他的罚球命中率为 30% (\(p=0.3\))。我们观察他不断投篮,直到他投中为止。几何分布模拟了我们在投进第一个球之前总共需要等待的投篮次数。

  • 如果第一次就投中,\(X=1\)。
  • 如果没投中,第二次投中,\(X=2\)。
  • 如果没投中,没投中,第三次投中,\(X=3\),以此类推。

重点提示: 几何分布是一种“等待时间”分布。它计算的是直到第一次成功所需的试验次数。

2. 应用条件(何时使用几何分布)

几何分布是伯努利试验过程的一种特殊情况。它要求满足四个关键条件。你可以通过助记词 SIT 来记住这些条件:

  1. Success or Failure (成功或失败 / 伯努利试验):每次试验必须只有两种可能的结果,通常称为“成功”和“失败”。
  2. Independence (独立性):任何一次试验的结果不得影响后续任何试验的结果。
  3. Trials until First Success (直到第一次成功的试验):实验必须(理论上)无限期地持续进行,直到第一次成功出现。(注意:与二项分布不同,这里没有固定的试验次数 \(n\))。
  4. Same Probability (相同概率 \(p\)):每次试验成功的概率 \(p\) 必须保持不变。
快速核对:几何分布 vs. 二项分布

混淆几何分布和二项分布是一个常见的错误。记住停止规则:

  • 二项分布 (\(X \sim B(n, p)\)):在固定的试验次数 \(n\) 后停止。
  • 几何分布 (\(X \sim \text{Geo}(p)\)):在第一次成功后停止。

3. 计算概率 \(P(X=x)\)

设 \(p\) 为成功的概率,\(q = 1-p\) 为失败的概率。

如果我们希望在第 \(x\) 次试验时取得第一次成功,这意味着前 \(x-1\) 次试验必须全部失败,而第 \(x\) 次试验必须成功。

由于试验是独立的,我们将概率相乘:

第 1 次、第 2 次、...、第 (x-1) 次试验均失败,且第 x 次试验成功。

$$P(X=x) = \underbrace{q \times q \times \dots \times q}_{x-1 \text{ 次}} \times p$$

特定概率的公式

若 \(X \sim \text{Geo}(p)\),其概率函数为:

$$P(X=x) = (1-p)^{x-1} p \quad \text{对于 } x = 1, 2, 3, \dots$$

或者,使用 \(q\) 表示:

$$P(X=x) = q^{x-1} p$$

计算示例(逐步演示)

一枚有偏硬币,其 \(P(\text{正面}) = 0.4\)。设 \(X\) 为直到第一次出现正面所需的投掷次数。\(X \sim \text{Geo}(0.4)\)。求第一次正面出现在第 4 次投掷时的概率。

第 1 步:确定 \(p\) 和 \(q\)。
\(p = 0.4\)(成功:正面)。
\(q = 1 - 0.4 = 0.6\)(失败:反面)。

第 2 步:定义事件。
我们想要 \(X=4\)。这意味着序列必须是(失败,失败,失败,成功)。

第 3 步:应用公式。
$$P(X=4) = q^{4-1} p = q^3 p$$ $$P(X=4) = (0.6)^3 \times (0.4)$$ $$P(X=4) = 0.216 \times 0.4 = 0.0864$$

累积概率与尾部概率

有时你需要求等待时间超过一定次数的概率。这通常是几何分布中最简单的计算!

如果我们想求 \(P(X > k)\),这意味着前 \(k\) 次试验中没有出现过第一次成功。换句话说,前 \(k\) 次试验全部都是失败。

$$P(X > k) = P(\text{第1次失败} \cap \text{第2次失败} \cap \dots \cap \text{第k次失败})$$

$$P(X > k) = q \times q \times \dots \times q \quad (k \text{ 次})$$

尾部概率公式

$$P(X > k) = (1-p)^k = q^k$$

示例:使用上述硬币(\(p=0.4\),\(q=0.6\)),求第一次正面出现在 5 次投掷之后(即需要超过 5 次)的概率。
$$P(X > 5) = q^5 = (0.6)^5 = 0.07776$$

如果你需要 \(P(X \le k)\)(累积概率),可以使用对立事件法则:

$$P(X \le k) = 1 - P(X > k) = 1 - q^k$$

重点提示: 概率结构很简单:失败的次数乘以最后的成功概率。公式 \(P(X > k) = q^k\) 是一个非常高效的快捷方式。

4. \(X \sim \text{Geo}(p)\) 的均值与方差

在任何随机变量背景下,均值 (\(E(X)\) 或 \(\mu\)) 告诉我们预期的平均结果,而方差 (\(Var(X)\) 或 \(\sigma^2\)) 告诉我们结果的分散程度。

课程大纲要求掌握这些结论,并意识到可能需要进行推导(通常使用概率母函数,这在 FS1.4 中涉及)。

4.1 均值(预期等待时间)

直到第一次成功所需的预期试验次数仅仅是成功概率的倒数。

$$E(X) = \mu = \frac{1}{p}$$

概念检验: 这非常合乎逻辑!如果公共汽车平均每 10 分钟来一班 (\(p=0.1\)),你平均需要等待 10 分钟直到下一班车到达 (\(1/0.1 = 10\))。

示例:如果 \(p=0.25\),则预期试验次数为 \(E(X) = 1/0.25 = 4\)。你平均预期等待 4 次试验。

4.2 方差

方差衡量等待时间的分散度或变异性。如果 \(p\) 非常小(很难成功),方差会很高,这意味着等待时间非常不可预测。

$$Var(X) = \sigma^2 = \frac{1-p}{p^2} = \frac{q}{p^2}$$

你知道吗? 随着 \(p\) 的增加(成功变得更容易),均值 (\(1/p\)) 减小,方差 (\(q/p^2\)) 也随之减小,这意味着结果变得更稳定,且发生得更早。

Geo(\(p\)) 关键公式总结

概率: \(P(X=x) = q^{x-1} p\)

尾部概率: \(P(X > k) = q^k\)

均值: \(E(X) = \frac{1}{p}\)

方差: \(Var(X) = \frac{q}{p^2}\)

5. 常见陷阱与记忆辅助

错误 1:误算 \(x\)

学生有时会混淆 \(X\) 到底是第一次成功之前失败的次数,还是直到并包括第一次成功的试验次数。

请记住: 在 OxfordAQA Further Maths (9665) 中,\(X\) 被定义为试验总次数,因此 \(x \ge 1\)。如果题目对变量的定义不同(例如,成功前的失败次数),你必须相应地调整公式,但通常请坚持使用 \(x\) 从 1 开始的 \(X \sim \text{Geo}(p)\)。

错误 2:忘记独立性

如果成功概率会根据之前的结果发生变化(例如,不放回抽样),则不能使用几何模型,因为试验不再独立。

记忆辅助: 在应用公式之前,请务必彻底核对 SIT 条件。

示例:从均值求 \(p\)

如果你被告知通过某项考试所需的预期次数为 5,你可以立即求出 \(p\):

$$E(X) = 5$$ $$\frac{1}{p} = 5$$ $$p = \frac{1}{5} = 0.2$$

这是解决某些考试题目的一种快速方法!

祝贺你,现在你已经对几何分布有了扎实的理解。继续练习这些计算,你一定能掌握这一课题!