欢迎来到错误的世界(这是好事!)

在之前的统计学课程中,你已经学过如何进行假设检验(hypothesis tests)。你设定了一个零假设(Null Hypothesis,\(H_0\))和一个对立假设(Alternative Hypothesis,\(H_1\)),透过观察数据来决定是否拒绝 \(H_0\)。

但关键在于:统计学是基于概率,而非绝对的确定性。即便你做得尽善尽美,总还是有一小部分机会会做出错误的判断。在本章中,我们将学习如何命名、计算并管理这些错误。这些被称为第一类错误(Type I error)第二类错误(Type II error)。如果一开始觉得有点抽象,别担心——我们会用简单的类比来为你拆解!

1. 什么是第一类错误和第二类错误?

试想一个法庭上的陪审团审判。「零假设」(\(H_0\)) 是被告无罪。「对立假设」(\(H_1\)) 是被告有罪。陪审团有两种犯错的可能:

第一类错误:被告实际上是无罪的(\(H_0\) 为真),但陪审团判定其有罪(拒绝 \(H_0\))。这是一个伪阳性(false positive)
第二类错误:被告实际上是有罪的(\(H_1\) 为真),但陪审团让其无罪释放(未能拒绝 \(H_0\))。这是一个伪阴性(false negative)

必须记住的定义:

第一类错误:当 \(H_0\) 为真时,拒绝了 \(H_0\)。
第二类错误:当 \(H_1\) 为真时,未能拒绝 \(H_0\)。

记忆小撇步:「False」口诀
把它想像成医疗检测某种「疾病」:
• 第一类(Type I)是伪阳性(告诉某人患病,但其实他没病)。
• 第二类(Type II)是伪阴性(告诉某人没事,但其实他患有该病)。

你知道吗?
在现实生活中,「错误代价」各有不同。在审判中,第一类错误(无辜者入狱)通常被认为比第二类错误更严重。但在烟雾感应器中,第一类错误(没火却警报)顶多让人心烦,但第二类错误(火灾时却不响)则是致命的!

关键摘要:第一类错误是「错判无辜」,而第二类错误是「错失真相」。

2. 计算第一类错误的概率

我们犯下第一类错误的可能性有多大?答案其实你已经知道了!犯下第一类错误的概率直接与检验的显著性水平(significance level,\(\alpha\))挂钩。

对于连续分布(正态分布)

在正态分布检验中,第一类错误的概率正好等于显著性水平。如果你在 5% 的水平下进行检验,那么 \(P(\text{Type I Error}) = 0.05\)。

\(P(\text{Type I error}) = P(\text{Rejecting } H_0 | H_0 \text{ is true})\)

对于离散分布(二项分布和泊松分布)

由于二项分布和泊松分布是跳跃性的(你不可能有 2.5 次成功),实际的显著性水平可能会与预期的 5% 或 10% 略有不同。

离散型第一类错误的步骤:
1. 找出临界区域(critical region)(即导致你拒绝 \(H_0\) 的 \(X\) 值)。
2. 在假设 \(H_0\) 为真的前提下,计算检验统计量落在该临界区域的概率。
3. 这个概率就是你的第一类错误概率。

例子:针对一个泊松分布进行 \(H_0: \lambda = 5\) 对 \(H_1: \lambda > 5\) 的检验。如果你的临界区域是 \(X \ge 10\),那么你的第一类错误概率就是 \(P(X \ge 10 | \lambda = 5)\)。

重点复习:
第一类错误概率 = 检验的实际显著性水平。

3. 第二类错误与检验效能

当我们「错失」了 \(H_1\) 为真这一事实时,就会发生第二类错误。我们将第二类错误的概率标记为 \(\beta\)。

要计算 \(\beta\),我们必须得到对立假设下参数的一个特定值。例如:「如果真实平均值实际上是 12.5,求发生第二类错误的概率。」

计算第二类错误 (\(\beta\))

步骤:
1. 找出接受区域(Acceptance Region)(即不在临界区域内的所有值)。
2. 计算检验统计量落在该接受区域的概率,但这次要使用来自 \(H_1\) 的新参数

\(P(\text{Type II error}) = P(\text{Accepting } H_0 | H_1 \text{ is true})\)

什么是「检验效能」(Power)?

检验效能(Power of a Test)是指检验正确地拒绝了一个错误零假设的概率。它是你检验「侦测出变化」的能力。

检验效能 = \(1 - P(\text{Type II error})\)检验效能 = \(1 - \beta\)

类比:望远镜
把「检验效能」想像成望远镜的放大倍率。高倍率的望远镜(高检验效能检验)非常有机会观测到远方的行星(真相);低倍率的望远镜则可能会错过它(第二类错误)。

常见错误:
学生在计算第二类错误时,常会弄错平均值(\(\mu\))或率(\(\lambda\))。务必使用 \(H_0\) 的值来寻找临界区域边界,但一定要使用 \(H_1\) 的「真实值」来计算错误的概率。

关键摘要:检验效能是指当 \(H_0\) 是错的时候,你能正确判断出来的概率。高检验效能是好事!

4. 权衡与取舍

第一类与第二类错误之间存在着自然的「拉锯战」。

• 如果你把显著性水平设得更小(例如从 5% 降至 1%),你会让拒绝 \(H_0\) 变得更困难。这会降低发生第一类错误的概率,但同时会增加发生第二类错误的概率(你更容易错过真实的效果)。
• 如果你把显著性水平设得更大(例如 10%),你就会增加发生第一类错误的概率,但降低了第二类错误的概率。

我们该如何同时降低两者?

要同时降低这两类错误,只有一种方法:增加样本量 (\(n\))。更大的样本能提供更多「信息」,使检验更可靠,并提升其检验效能。

重点总结表:
动作:降低显著性水平 (\(\alpha\))
第一类错误:降低
第二类错误:增加
检验效能:降低

动作:增加样本量 (\(n\))
第一类错误:保持不变(若调整 \(\alpha\) 则可能会降低)
第二类错误:降低
检验效能:增加

最后检查清单

• 我知道第一类错误 = 拒绝了正确的 \(H_0\) 吗?
• 我知道第二类错误 = 接受了错误的 \(H_0\) 吗?
• 我会找出二项分布、泊松分布和正态分布检验的临界区域吗?
• 我记得检验效能 = \(1 - \beta\) 吗?
• 我是否只有在计算第二类错误/检验效能时才使用 \(H_1\) 的值?

你一定没问题的!只要记住:第一类错误是太敏感(把不存在的东西找出来),而第二类错误是太谨慎(错过了实际存在的东西)。