Type I and Type II errors

欢迎来到错误的世界（这是好事！）

在之前的统计学课程中，你已经学过如何进行假设检验（hypothesis tests）。你设定了一个零假设（Null Hypothesis，\(H_0\)）和一个对立假设（Alternative Hypothesis，\(H_1\)），透过观察数据来决定是否拒绝 \(H_0\)。

但关键在于：统计学是基于概率，而非绝对的确定性。即便你做得尽善尽美，总还是有一小部分机会会做出错误的判断。在本章中，我们将学习如何命名、计算并管理这些错误。这些被称为第一类错误（Type I error）和第二类错误（Type II error）。如果一开始觉得有点抽象，别担心——我们会用简单的类比来为你拆解！

1. 什么是第一类错误和第二类错误？

试想一个法庭上的陪审团审判。「零假设」(\(H_0\)) 是被告无罪。「对立假设」(\(H_1\)) 是被告有罪。陪审团有两种犯错的可能：

第一类错误：被告实际上是无罪的（\(H_0\) 为真），但陪审团判定其有罪（拒绝 \(H_0\)）。这是一个伪阳性（false positive）。
第二类错误：被告实际上是有罪的（\(H_1\) 为真），但陪审团让其无罪释放（未能拒绝 \(H_0\)）。这是一个伪阴性（false negative）。

必须记住的定义：

• 第一类错误：当 \(H_0\) 为真时，拒绝了 \(H_0\)。
• 第二类错误：当 \(H_1\) 为真时，未能拒绝 \(H_0\)。

记忆小撇步：「False」口诀
把它想像成医疗检测某种「疾病」：
• 第一类（Type I）是伪阳性（告诉某人患病，但其实他没病）。
• 第二类（Type II）是伪阴性（告诉某人没事，但其实他患有该病）。

你知道吗？
在现实生活中，「错误代价」各有不同。在审判中，第一类错误（无辜者入狱）通常被认为比第二类错误更严重。但在烟雾感应器中，第一类错误（没火却警报）顶多让人心烦，但第二类错误（火灾时却不响）则是致命的！

关键摘要：第一类错误是「错判无辜」，而第二类错误是「错失真相」。

2. 计算第一类错误的概率

我们犯下第一类错误的可能性有多大？答案其实你已经知道了！犯下第一类错误的概率直接与检验的显著性水平（significance level，\(\alpha\)）挂钩。

对于连续分布（正态分布）

在正态分布检验中，第一类错误的概率正好等于显著性水平。如果你在 5% 的水平下进行检验，那么 \(P(\text{Type I Error}) = 0.05\)。

\(P(\text{Type I error}) = P(\text{Rejecting } H_0 | H_0 \text{ is true})\)

对于离散分布（二项分布和泊松分布）

由于二项分布和泊松分布是跳跃性的（你不可能有 2.5 次成功），实际的显著性水平可能会与预期的 5% 或 10% 略有不同。

离散型第一类错误的步骤：
1. 找出临界区域（critical region）（即导致你拒绝 \(H_0\) 的 \(X\) 值）。
2. 在假设 \(H_0\) 为真的前提下，计算检验统计量落在该临界区域的概率。
3. 这个概率就是你的第一类错误概率。

例子：针对一个泊松分布进行 \(H_0: \lambda = 5\) 对 \(H_1: \lambda > 5\) 的检验。如果你的临界区域是 \(X \ge 10\)，那么你的第一类错误概率就是 \(P(X \ge 10 | \lambda = 5)\)。

重点复习：
第一类错误概率 = 检验的实际显著性水平。

3. 第二类错误与检验效能

当我们「错失」了 \(H_1\) 为真这一事实时，就会发生第二类错误。我们将第二类错误的概率标记为 \(\beta\)。

要计算 \(\beta\)，我们必须得到对立假设下参数的一个特定值。例如：「如果真实平均值实际上是 12.5，求发生第二类错误的概率。」

计算第二类错误 (\(\beta\))

步骤：
1. 找出接受区域（Acceptance Region）（即不在临界区域内的所有值）。
2. 计算检验统计量落在该接受区域的概率，但这次要使用来自 \(H_1\) 的新参数。

\(P(\text{Type II error}) = P(\text{Accepting } H_0 | H_1 \text{ is true})\)

什么是「检验效能」（Power）？

检验效能（Power of a Test）是指检验正确地拒绝了一个错误零假设的概率。它是你检验「侦测出变化」的能力。

检验效能 = \(1 - P(\text{Type II error})\) 或 检验效能 = \(1 - \beta\)

类比：望远镜
把「检验效能」想像成望远镜的放大倍率。高倍率的望远镜（高检验效能检验）非常有机会观测到远方的行星（真相）；低倍率的望远镜则可能会错过它（第二类错误）。

常见错误：
学生在计算第二类错误时，常会弄错平均值（\(\mu\)）或率（\(\lambda\)）。务必使用 \(H_0\) 的值来寻找临界区域边界，但一定要使用 \(H_1\) 的「真实值」来计算错误的概率。

关键摘要：检验效能是指当 \(H_0\) 是错的时候，你能正确判断出来的概率。高检验效能是好事！

4. 权衡与取舍

第一类与第二类错误之间存在着自然的「拉锯战」。

• 如果你把显著性水平设得更小（例如从 5% 降至 1%），你会让拒绝 \(H_0\) 变得更困难。这会降低发生第一类错误的概率，但同时会增加发生第二类错误的概率（你更容易错过真实的效果）。
• 如果你把显著性水平设得更大（例如 10%），你就会增加发生第一类错误的概率，但降低了第二类错误的概率。

我们该如何同时降低两者？

要同时降低这两类错误，只有一种方法：增加样本量 (\(n\))。更大的样本能提供更多「信息」，使检验更可靠，并提升其检验效能。

重点总结表：
动作：降低显著性水平 (\(\alpha\))
第一类错误：降低
第二类错误：增加
检验效能：降低

动作：增加样本量 (\(n\))
第一类错误：保持不变（若调整 \(\alpha\) 则可能会降低）
第二类错误：降低
检验效能：增加

最后检查清单

• 我知道第一类错误 = 拒绝了正确的 \(H_0\) 吗？
• 我知道第二类错误 = 接受了错误的 \(H_0\) 吗？
• 我会找出二项分布、泊松分布和正态分布检验的临界区域吗？
• 我记得检验效能 = \(1 - \beta\) 吗？
• 我是否只有在计算第二类错误/检验效能时才使用 \(H_1\) 的值？

你一定没问题的！只要记住：第一类错误是太敏感（把不存在的东西找出来），而第二类错误是太谨慎（错过了实际存在的东西）。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。