M1 统计学:条件概率与贝叶斯定理

大家好!欢迎来到统计学中最有趣课题之一——条件概率与贝叶斯定理的学习笔记。这些名字听起来可能有点吓人,但请别担心!这些概念其实非常合乎逻辑,而且应用无处不在,从天气预报到医学诊断,甚至你在 Netflix 上的推荐内容都有它们的踪影!

在本章中,我们将学习如何回答类似“如果天空多云,今天下雨的概率是多少?”这类问题。我们会将所有内容拆解成简单易懂的步骤。准备好开始了吗?


1. 什么是条件概率?

条件概率的核心概念是:在另一个事件已经发生的前提下,某事件发生的概率。我们基本上是根据新资讯来更新概率。

快速回顾:基本概率

还记得事件 A 的基本概率是:

$$P(A) = \frac{\text{Number of favourable outcomes for A}}{\text{Total number of possible outcomes}}$$

例子:掷标准六面骰子掷出“4”的概率是 $$P(\text{rolling a 4}) = \frac{1}{6}$$,因为只有一个“4”,而总共有六个面。

核心思想:一个缩小的“宇宙”

条件概率只是缩小我们的“宇宙”(官方术语是样本空间)。当我们知道某个事件已经发生时,我们可以忽略所有不再可能发生的其他结果。

类比:在学校里寻找特定学生。
想象一下,你的学校有1000名学生。随机选出一名高中三年级女生的概率是 $$P(\text{Form 6 Girl})$$。
现在,如果我给你一些新资讯:“我已经选了一名高中三年级学生。”
突然间,你可以忽略所有初中一年级到高中二年级的学生了!你的样本空间从1000名学生缩小到只剩下高中三年级学生。在学生是高中三年级生的前提下,选到女生的概率将会不同,而且很可能会更高。

符号表示与公式

我们将“在事件B已发生的前提下事件A发生”的条件概率写作 P(A|B)

小小的垂直线“|”代表“在...前提下”或“给定”。所以,你将 P(A|B) 读作“在B的前提下A的概率”。

连接所有概念的公式是:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

让我们分解一下:

  • P(A|B):这是我们想找的——在B的前提下A的概率。

  • $$P(A \cap B)$$:这是A和B同时发生的概率(A和B的交集)。

  • P(B):这是“给定”事件B的概率。这就是我们新的、缩小的样本空间!

记忆小贴士:

公式可以这样记:“你想要的事件(A)在给定条件(B)下的概率,就是两件事同时发生的概率,除以给定条件的概率。”

利用表格的逐步例子

一组100名学生被问及他们是否打篮球或足球。结果如下表所示。

打足球不打足球总计
打篮球202545
不打篮球302555
总计5050100

问题:在学生打足球的前提下,他/她打篮球的概率是多少?

步骤1:定义事件。

设 B = 学生打篮球。
设 F = 学生打足球。

我们想找出 P(B|F)。

步骤2:从表格找出概率。

首先,找出交集的概率 $$P(B \cap F)$$。这是学生同时打篮球和足球的概率。
从表格可见,有20名学生两者都打。所以,$$P(B \cap F) = \frac{20}{100} = 0.2$$

接下来,找出“给定”事件的概率 P(F)。这是学生打足球的概率。
从表格可见,有50名学生打足球。所以,$$P(F) = \frac{50}{100} = 0.5$$

步骤3:应用公式。

$$P(B|F) = \frac{P(B \cap F)}{P(F)} = \frac{0.2}{0.5} = 0.4$$

因此,在学生打足球的前提下,他/她打篮球的概率是0.4。

另一种更简单的思考方式(利用缩小后的样本空间):

问题告诉我们学生“打足球”。所以我们可以完全忽略那50名不打足球的学生。我们新的“总数”就只剩下那50名足球运动员。
在这50名足球运动员中,有多少人同时打篮球呢?表格显示有20人。
所以,概率就是简单的 $$\frac{20}{50} = 0.4$$。答案一样!

常见错误:

• 不要混淆 P(A|B) 和 P(B|A)。它们通常是不同的!(例如,在你是女生的前提下,你是高中三年级学生的概率,与在你作为高中三年级学生的前提下,你是女生的概率,两者是不同的。)
• 分母永远是“给定”事件的概率。对于 P(A|B),分母是 P(B)。

重点:

条件概率就是在一个小世界里的概率。公式 $$P(A|B) = \frac{P(A \cap B)}{P(B)}$$ 是你的主要工具,但请务必尝试思考缩小后的样本空间,以建立你的直觉。


2. 乘法法则与树状图

有时我们需要找出两个事件按顺序发生的概率。我们可以重新整理条件概率公式来帮助我们。

一般乘法法则

从 $$P(A|B) = \frac{P(A \cap B)}{P(B)}$$ 出发,如果我们将两边乘以 P(B),我们会得到:

$$P(A \cap B) = P(B) \times P(A|B)$$

这告诉我们A和B同时发生的概率是B发生的概率,乘以在B已经发生后A发生的概率。这对于涉及“不放回”的题目非常有用。

用树状图可视化

树状图是解决条件概率问题的最佳拍档。它们帮助你清晰地组织所有资讯。

例子:一个袋子里有5个红球和3个蓝球。你从袋中连续抽取两个球,不放回。两个球都是红色的概率是多少?

步骤1:画出第一次抽取的树状分支。

球的总数 = 8。
第一次抽出红球的概率,$$P(R_1) = \frac{5}{8}$$
第一次抽出蓝球的概率,$$P(B_1) = \frac{3}{8}$$

步骤2:画出第二组分支,并使它们具备条件性。

如果第一个球是红色:现在只剩下7个球(4红,3蓝)。
• 在第一个球是红色的前提下,第二个球是红色的概率是 $$P(R_2 | R_1) = \frac{4}{7}$$
• 在第一个球是红色的前提下,第二个球是蓝色的概率是 $$P(B_2 | R_1) = \frac{3}{7}$$

如果第一个球是蓝色:现在只剩下7个球(5红,2蓝)。
• 在第一个球是蓝色的前提下,第二个球是红色的概率是 $$P(R_2 | B_1) = \frac{5}{7}$$
• 在第一个球是蓝色的前提下,第二个球是蓝色的概率是 $$P(B_2 | B_1) = \frac{2}{7}$$

步骤3:沿着分支相乘,找出路径的概率。

我们想找出“第一个是红色 AND 第二个是红色”的概率,即 $$P(R_1 \cap R_2)$$。
使用乘法法则:

$$P(R_1 \cap R_2) = P(R_1) \times P(R_2|R_1) = \frac{5}{8} \times \frac{4}{7} = \frac{20}{56} = \frac{5}{14}$$

(树状图会直观地显示这条路径!)

重点:

对于顺序发生的事件,使用乘法法则 $$P(A \cap B) = P(A) \times P(B|A)$$。有疑问时,就画树状图!它能让复杂的问题变得清晰得多。


3. 贝叶斯定理:反转条件

这是重头戏!它看起来很复杂,但其理念很简单。贝叶斯定理帮助我们“反转”条件概率。通常,我们知道 P(B|A),但我们真正想找出的是 P(A|B)。

“为何如此”:医疗检测的类比

想象一下,有一个罕见疾病的医疗检测。

  • 我们可能知道检测的准确性:在患有疾病的前提下,检测结果呈阳性的概率。我们将其称为 P(阳性 | 疾病)。
  • 但患者在得到阳性结果后真正想知道的是什么?他们想知道在检测结果呈阳性的前提下,他们患有疾病的概率。这就是 P(疾病 | 阳性)。

注意条件是如何反转的!贝叶斯定理就是让我们计算这个的工具。

公式

贝叶斯定理的简单版本直接源自乘法法则:

$$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$$

棘手的部分是我们通常不知道 P(B) 的直接数值。我们必须使用全概率公式来计算它。如果事件 A 可以发生或不发生(A'),那么 B 的概率是:

$$P(B) = P(B|A)P(A) + P(B|A')P(A')$$

将所有部分组合起来,我们得到了你在问题中将使用的完整版本:

$$P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A')P(A')}$$

不要慌张!这个公式只是“你想要的路径”除以“所有可能通向该结果的路径之和”。树状图让这一切变得超级容易理解。

贝叶斯定理的逐步解题方法

两家工厂 A 和 B 生产灯泡。工厂 A 生产 60% 的灯泡,工厂 B 生产 40%。已知工厂 A 生产的灯泡有 2% 是有缺陷的,工厂 B 生产的灯泡有 5% 是有缺陷的。

问题:如果你随机选择一个灯泡,发现它有缺陷,那么这个灯泡来自工厂 A 的概率是多少?

步骤1:定义事件。

A = 灯泡来自工厂 A。
B = 灯泡来自工厂 B。
D = 灯泡有缺陷。

我们想找出 P(A|D) ——在灯泡有缺陷的前提下,它来自工厂 A 的概率。

步骤2:列出已知概率(树状图在这里非常适用!)。

• P(A) = 0.60 (工厂 A 生产 60%)
• P(B) = 0.40 (工厂 B 生产 40%)

现在是条件概率:

• P(D|A) = 0.02 (在来自 A 的前提下,有缺陷的概率)
• P(D'|A) = 0.98 (在来自 A 的前提下,没有缺陷的概率)
• P(D|B) = 0.05 (在来自 B 的前提下,有缺陷的概率)
• P(D'|B) = 0.95 (在来自 B 的前提下,没有缺陷的概率)

步骤3:找出分子中“你想要的路径”。

我们想找出 P(A|D)。代表“来自 A AND 有缺陷”的路径是 $$P(D|A)P(A)$$。
$$P(D|A)P(A) = (0.02) \times (0.60) = 0.012$$

步骤4:找出分母中结果的总概率。

结果是“有缺陷”(D)。灯泡有缺陷有两种情况:
1. 来自工厂 A 且有缺陷:$$P(D|A)P(A) = 0.012$$
2. 来自工厂 B 且有缺陷:$$P(D|B)P(B) = (0.05) \times (0.40) = 0.020$$

有缺陷的总概率 P(D),是这些路径的总和:
$$P(D) = 0.012 + 0.020 = 0.032$$

步骤5:计算最终答案。

$$P(A|D) = \frac{\text{Path you want}}{\text{Sum of all paths to outcome}} = \frac{P(D|A)P(A)}{P(D)}$$ $$P(A|D) = \frac{0.012}{0.032} = 0.375$$

所以,即使工厂 A 生产了更多的灯泡,如果你发现一个有缺陷的灯泡,它来自工厂 A 的机会只有 37.5%。这是因为工厂 B 的缺陷率更高。

重点:

贝叶斯定理帮助我们根据新证据更新我们的信念。它反转了条件。公式可能看起来很吓人,但有了树状图,它就只是:
(导致你得到该结果的特定路径的概率) / (所有可能导致你得到该结果的路径的概率总和)。


章节总结:快速回顾

条件概率
  • 是什么:在B已经发生的前提下,A发生的概率。
  • 符号:P(A|B)
  • 公式:$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$
乘法法则
  • 是什么:帮助找出连续事件发生的概率。
  • 公式:$$P(A \cap B) = P(A) \times P(B|A)$$
  • 最佳工具:树状图!
贝叶斯定理
  • 作用:“反转”条件(当你已知 P(B|A) 时,找出 P(A|B))。
  • 公式:$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
  • 解题小贴士:永远定义你的事件,列出已知量,并使用树状图。答案永远是“(你所要的路径) / (所有可能路径的总和)”。

你一定做得到!练习是关键,所以多做一些题目,并尽可能画树状图。祝你好运!