欢迎来到离散随机变量的精彩世界!在这一章中,我们将聚焦于一种特定的概率模型:几何分布 (Geometric Distribution)。
如果概率模型让你觉得有些抽象,不用担心。几何分布非常直观,因为它模拟了我们每天都在经历的事情:等待第一次成功。
你将学习使用该模型所需的特定条件,如何计算等待一定次数试验的概率,以及如何求平均等待时间(均值)。
1. 理解几何分布 \(X \sim \text{Geo}(p)\)
当我们进行一系列独立试验,并且关注达到第一次成功所需的试验次数时,就会用到几何分布。
随机变量 \(X\) 定义为:
\(X\) = 直到并包括第一次成功结果的试验总次数。
由于 \(X\) 计数的是试验次数,其可能取值为 \(x = 1, 2, 3, \dots\) 它是一个离散随机变量,因为你不可能进行 1.5 次试验!
类比:篮球罚球
想象一名篮球运动员,他的罚球命中率为 30% (\(p=0.3\))。我们观察他不断投篮,直到他投中为止。几何分布模拟了我们在投进第一个球之前总共需要等待的投篮次数。
- 如果第一次就投中,\(X=1\)。
- 如果没投中,第二次投中,\(X=2\)。
- 如果没投中,没投中,第三次投中,\(X=3\),以此类推。
重点提示: 几何分布是一种“等待时间”分布。它计算的是直到第一次成功所需的试验次数。
2. 应用条件(何时使用几何分布)
几何分布是伯努利试验过程的一种特殊情况。它要求满足四个关键条件。你可以通过助记词 SIT 来记住这些条件:
- Success or Failure (成功或失败 / 伯努利试验):每次试验必须只有两种可能的结果,通常称为“成功”和“失败”。
- Independence (独立性):任何一次试验的结果不得影响后续任何试验的结果。
- Trials until First Success (直到第一次成功的试验):实验必须(理论上)无限期地持续进行,直到第一次成功出现。(注意:与二项分布不同,这里没有固定的试验次数 \(n\))。
- Same Probability (相同概率 \(p\)):每次试验成功的概率 \(p\) 必须保持不变。
快速核对:几何分布 vs. 二项分布
混淆几何分布和二项分布是一个常见的错误。记住停止规则:
- 二项分布 (\(X \sim B(n, p)\)):在固定的试验次数 \(n\) 后停止。
- 几何分布 (\(X \sim \text{Geo}(p)\)):在第一次成功后停止。
3. 计算概率 \(P(X=x)\)
设 \(p\) 为成功的概率,\(q = 1-p\) 为失败的概率。
如果我们希望在第 \(x\) 次试验时取得第一次成功,这意味着前 \(x-1\) 次试验必须全部失败,而第 \(x\) 次试验必须成功。
由于试验是独立的,我们将概率相乘:
第 1 次、第 2 次、...、第 (x-1) 次试验均失败,且第 x 次试验成功。
$$P(X=x) = \underbrace{q \times q \times \dots \times q}_{x-1 \text{ 次}} \times p$$
特定概率的公式
若 \(X \sim \text{Geo}(p)\),其概率函数为:
$$P(X=x) = (1-p)^{x-1} p \quad \text{对于 } x = 1, 2, 3, \dots$$
或者,使用 \(q\) 表示:
$$P(X=x) = q^{x-1} p$$
计算示例(逐步演示)
一枚有偏硬币,其 \(P(\text{正面}) = 0.4\)。设 \(X\) 为直到第一次出现正面所需的投掷次数。\(X \sim \text{Geo}(0.4)\)。求第一次正面出现在第 4 次投掷时的概率。
第 1 步:确定 \(p\) 和 \(q\)。
\(p = 0.4\)(成功:正面)。
\(q = 1 - 0.4 = 0.6\)(失败:反面)。
第 2 步:定义事件。
我们想要 \(X=4\)。这意味着序列必须是(失败,失败,失败,成功)。
第 3 步:应用公式。
$$P(X=4) = q^{4-1} p = q^3 p$$
$$P(X=4) = (0.6)^3 \times (0.4)$$
$$P(X=4) = 0.216 \times 0.4 = 0.0864$$
累积概率与尾部概率
有时你需要求等待时间超过一定次数的概率。这通常是几何分布中最简单的计算!
如果我们想求 \(P(X > k)\),这意味着前 \(k\) 次试验中没有出现过第一次成功。换句话说,前 \(k\) 次试验全部都是失败。
$$P(X > k) = P(\text{第1次失败} \cap \text{第2次失败} \cap \dots \cap \text{第k次失败})$$
$$P(X > k) = q \times q \times \dots \times q \quad (k \text{ 次})$$
尾部概率公式
$$P(X > k) = (1-p)^k = q^k$$
示例:使用上述硬币(\(p=0.4\),\(q=0.6\)),求第一次正面出现在 5 次投掷之后(即需要超过 5 次)的概率。
$$P(X > 5) = q^5 = (0.6)^5 = 0.07776$$
如果你需要 \(P(X \le k)\)(累积概率),可以使用对立事件法则:
$$P(X \le k) = 1 - P(X > k) = 1 - q^k$$
重点提示: 概率结构很简单:失败的次数乘以最后的成功概率。公式 \(P(X > k) = q^k\) 是一个非常高效的快捷方式。
4. \(X \sim \text{Geo}(p)\) 的均值与方差
在任何随机变量背景下,均值 (\(E(X)\) 或 \(\mu\)) 告诉我们预期的平均结果,而方差 (\(Var(X)\) 或 \(\sigma^2\)) 告诉我们结果的分散程度。
课程大纲要求掌握这些结论,并意识到可能需要进行推导(通常使用概率母函数,这在 FS1.4 中涉及)。
4.1 均值(预期等待时间)
直到第一次成功所需的预期试验次数仅仅是成功概率的倒数。
$$E(X) = \mu = \frac{1}{p}$$
概念检验: 这非常合乎逻辑!如果公共汽车平均每 10 分钟来一班 (\(p=0.1\)),你平均需要等待 10 分钟直到下一班车到达 (\(1/0.1 = 10\))。
示例:如果 \(p=0.25\),则预期试验次数为 \(E(X) = 1/0.25 = 4\)。你平均预期等待 4 次试验。
4.2 方差
方差衡量等待时间的分散度或变异性。如果 \(p\) 非常小(很难成功),方差会很高,这意味着等待时间非常不可预测。
$$Var(X) = \sigma^2 = \frac{1-p}{p^2} = \frac{q}{p^2}$$
你知道吗? 随着 \(p\) 的增加(成功变得更容易),均值 (\(1/p\)) 减小,方差 (\(q/p^2\)) 也随之减小,这意味着结果变得更稳定,且发生得更早。
Geo(\(p\)) 关键公式总结
概率: \(P(X=x) = q^{x-1} p\)
尾部概率: \(P(X > k) = q^k\)
均值: \(E(X) = \frac{1}{p}\)
方差: \(Var(X) = \frac{q}{p^2}\)
5. 常见陷阱与记忆辅助
错误 1:误算 \(x\)
学生有时会混淆 \(X\) 到底是第一次成功之前失败的次数,还是直到并包括第一次成功的试验次数。
请记住: 在 OxfordAQA Further Maths (9665) 中,\(X\) 被定义为试验总次数,因此 \(x \ge 1\)。如果题目对变量的定义不同(例如,成功前的失败次数),你必须相应地调整公式,但通常请坚持使用 \(x\) 从 1 开始的 \(X \sim \text{Geo}(p)\)。
错误 2:忘记独立性
如果成功概率会根据之前的结果发生变化(例如,不放回抽样),则不能使用几何模型,因为试验不再独立。
记忆辅助: 在应用公式之前,请务必彻底核对 SIT 条件。
示例:从均值求 \(p\)
如果你被告知通过某项考试所需的预期次数为 5,你可以立即求出 \(p\):
$$E(X) = 5$$ $$\frac{1}{p} = 5$$ $$p = \frac{1}{5} = 0.2$$
这是解决某些考试题目的一种快速方法!
祝贺你,现在你已经对几何分布有了扎实的理解。继续练习这些计算,你一定能掌握这一课题!