单元 S2:统计学 2 - 假设检验

你好,未来的统计学家!本章将把你所学过的概率分布知识融会贯通。假设检验或许是统计学中最实用、最令人兴奋的部分,因为它让我们能够正式地利用数据来证实或证伪关于现实世界的各种断言。
别担心,起初看起来可能有些棘手;我们将一步步拆解这个过程。学完之后,你将能够自信地检验科学家、政治家甚至你当地店主所提出的观点!

1. 核心概念:什么是假设检验?

假设检验 (Hypothesis test) 是一种正式的程序,用于根据从样本中收集到的证据,来决定是否拒绝一项统计学上的主张(原假设)。

类比:法庭审判

把假设检验想象成一场刑事审判:

  • 默认立场是被告无罪(这是现状)。
  • 控方(提出主张的一方)需要证据来证明有罪。
  • 如果证据足够充分(排除合理怀疑,即在统计学上是显著的),我们就拒绝默认立场。

必须掌握的关键术语

如果不精通这些词汇,你就无法进行假设检验:

  • 原假设 (Null Hypothesis, \(H_0\)): 这是现状,是当前被广泛接受的观点,或者我们开始时的假设。它总是包含等号 (\(p = 0.5\),\(\lambda = 10\))。
  • 备择假设 (Alternative Hypothesis, \(H_1\)): 这是被检验的主张,暗示参数已经发生了变化。它从不包含等号 (\(p < 0.5\),\(\lambda > 10\),或 \(p \ne 0.5\))。
  • 总体参数 (Population Parameter): 被检验的真实数值(例如,真实的概率 \(p\) 或真实的平均发生率 \(\lambda\))。
  • 检验统计量 (Test Statistic): 你从样本中实际测量出的数据(例如,成功次数 \(X\))。
  • 显著性水平 (\(\alpha\)): 在 \(H_0\) 实际上正确时拒绝 \(H_0\) 的概率阈值。常见的水平有 5% (0.05) 或 1% (0.01)。
  • 拒绝域 (Critical Region/Rejection Region): 会导致我们拒绝 \(H_0\) 的检验统计量取值范围。如果观测到的检验统计量落入此区域,则说明结果“太反常”,无法支持 \(H_0\)。
  • 接受域 (Acceptance Region): 我们不拒绝 \(H_0\) 的取值范围。

快速回顾: \(H_0\) 是无聊的(等于);\(H_1\) 是令人兴奋的(小于、大于或不等于)。

2. 单侧检验与双侧检验

执行哪种检验完全取决于所提出的问题以及你如何书写 \(H_1\)。

单侧检验 (One-Tailed Test, 定向的)

当备择假设仅指定一个方向的变化(例如,增加或减少)时使用。

示例:一家工厂声称次品率为 \(p = 0.1\)。一位经理怀疑次品率增加了
$$H_0: p = 0.1$$ $$H_1: p > 0.1$$

双侧检验 (Two-Tailed Test, 非定向的)

当备择假设指明参数只是发生了变化(即可能变高也可能变低)时使用。

示例:一家公司声称 50% 的人偏好他们的产品 (\(p = 0.5\))。一位研究人员怀疑这个比例不再是 50%
$$H_0: p = 0.5$$ $$H_1: p \ne 0.5$$

双侧检验的关键步骤:平分显著性水平

如果你在显著性水平 \(\alpha\) 下进行双侧检验,必须将这种风险在两个尾部平分。

如果 \(\alpha = 5\%\),则 2.5% 分配到下拒绝域,2.5% 分配到上拒绝域。

记忆助手:

你在 \(H_1\) 的符号里看到了几个“尾巴”?

  • \(>\) 或 \(<\) 看起来像一个尾巴。 \(\rightarrow\) 单侧检验。
  • \(\ne\) 有两个背向的端点。 \(\rightarrow\) 双侧检验(平分 \(\alpha\))。

3. 标准的 5 步假设检验程序(使用拒绝域)

无论你使用哪种分布,请完美遵循以下步骤。结构正确往往能拿到方法分!

  1. 定义假设和模型:

    用总体参数(如 \(p\) 或 \(\lambda\))清晰地陈述 \(H_0\) 和 \(H_1\)。
    同时,定义分布模型及其参数(例如 \(X \sim B(n, p)\) 或 \(X \sim Po(\lambda)\))。

  2. 确定拒绝域 (CR):

    利用显著性水平 (\(\alpha\)),找出检验统计量 \(X\) 的边界值。
    这涉及使用统计表(二项分布或泊松分布)来找到概率截止点。

  3. 陈述检验统计量:

    陈述从样本数据中实际观测到的值。记为 \(x\)。

  4. 比较并做出决策:

    检查检验统计量 \(x\) 是否落入拒绝域。

    • 如果 \(x \in CR\),则结果显著。拒绝 \(H_0\)
    • 如果 \(x \notin CR\),则结果不显著。不拒绝 \(H_0\)

  5. 结合背景写出结论:

    将你的统计决策转换回简单的语言,联系原始问题。(例如:“有足够的证据表明次品率已经增加了。”)

4. 使用二项分布的假设检验

这是 S2 中最常见的假设检验形式,用于检验比例或概率 \(p\),且试验次数 \(n\) 是固定的。

示例演练:故障灯泡

一家公司声称其 20% 的灯泡有故障 (\(p = 0.2\))。检查员随机抽取了 \(n=15\) 个灯泡进行测试,发现有 6 个是坏的。怀疑坏品率更高,请在 5% 显著性水平下检验此观点。

第 1 步:假设和模型

我们假设故障灯泡的数量 \(X\) 服从二项分布。
$$X \sim B(15, 0.2)$$ $$H_0: p = 0.2$$ $$H_1: p > 0.2 \quad \text{(单侧检验)}$$

第 2 步:确定拒绝域

我们要寻找上尾,使得 \(P(X \ge x) \leq 0.05\)。由于表格只提供 \(P(X \le x)\),我们使用补集规则:\(P(X \ge x) = 1 - P(X \le x-1)\)。

  • 尝试 \(x=5\): \(P(X \ge 5) = 1 - P(X \le 4) = 1 - 0.8358 = 0.1642\) (太高,不在拒绝域内)
  • 尝试 \(x=6\): \(P(X \ge 6) = 1 - P(X \le 5) = 1 - 0.9389 = 0.0611\) (太高,不在拒绝域内)
  • 尝试 \(x=7\): \(P(X \ge 7) = 1 - P(X \le 6) = 1 - 0.9819 = 0.0181\) (\(\leq 0.05\)!这在拒绝域内)

拒绝域为 \(X \ge 7\)。

第 3 步:检验统计量

观测到的故障灯泡数为 \(x = 6\)。

第 4 步:比较和决策

6 在拒绝域 (\(X \ge 7\)) 内吗?不在。
决策:不拒绝 \(H_0\)

第 5 步:背景结论

在 5% 的显著性水平下,没有足够的证据支持故障灯泡比例高于 20% 的结论。

替代方法:使用 P 值 (P-Value)

无需先确定拒绝域边界,你可以计算假设 \(H_0\) 为真时,获得观测结果(或更极端结果)的概率(P值)。

对于上述示例,P值为 \(P(X \ge 6) = 0.0611\)。
由于 P值 (0.0611) \(> \alpha\) (0.05),我们不拒绝 \(H_0\)。(结果相同,只是方法不同)。

5. 使用泊松分布的假设检验

当你在固定的时间或空间间隔内检验发生率 (\(\lambda\)) 时,使用泊松分布。步骤与二项分布检验完全相同。

关键考量:发生率 \(\lambda\)

如果样本周期/区域与陈述的发生率不同,你必须调整模型中的 \(\lambda\)。

示例:呼叫中心声称每小时接到 8 次呼叫 (\(\lambda=8\))。他们监测了半小时,接到了 7 次呼叫。

模型必须针对半小时进行调整:
$$X \sim Po(4) \quad \text{(因为 } 8 \times 0.5 = 4)$$

S2 核心要点: 无论使用二项分布还是泊松分布,整体检验结构保持不变。唯一改变的是概率的计算(使用查表或公式)。

6. 使用正态近似的假设检验

当 \(n\) 很大(二项分布)或 \(\lambda\) 很大(泊松分布)时,使用表格进行精确概率计算变得不可能或过于复杂。这时我们必须使用正态近似。

S2 中何时使用正态近似:

  1. 二项分布的正态近似: 如果满足以下条件,\(X \sim B(n, p)\) 可近似为 \(Y \sim N(\mu, \sigma^2)\):
    • \(n\) 很大(通常 \(n > 50\))。
    • \(np > 5\) 且 \(n(1-p) > 5\)。

    参数:\(\mu = np\) 且 \(\sigma^2 = np(1-p)\)。

  2. 泊松分布的正态近似: 如果满足以下条件,\(X \sim Po(\lambda)\) 可近似为 \(Y \sim N(\mu, \sigma^2)\):
    • \(\lambda\) 很大(通常 \(\lambda > 10\) 或 \(\lambda > 15\))。

    参数:\(\mu = \lambda\) 且 \(\sigma^2 = \lambda\)。

关键步骤:连续性修正 (Continuity Correction, CC)

因为我们从离散分布 (\(X\)) 切换到连续分布 (\(Y\)),必须使用连续性修正。这是这些检验中出错率最高的地方!

离散概率 (X) 连续近似 (Y)
\(P(X \le 10)\) \(P(Y < 10.5)\)
\(P(X < 10)\) 或 \(P(X \le 9)\) \(P(Y < 9.5)\)
\(P(X \ge 10)\) \(P(Y > 9.5)\)
\(P(X = 10)\) \(P(9.5 < Y < 10.5)\)

经验法则: 包含一半的间隙以确保覆盖原有的整数。如果你要包含 10,修正范围就在 10.5;如果你要停在 10 之前,就停在 9.5。

使用正态近似 (Z-test) 的程序

遵循 5 步计划,但第 4 步有变动:

  1. 定义 \(H_0, H_1\) 和正态模型 \(Y \sim N(np, np(1-p))\) (或 \(N(\lambda, \lambda)\))。
  2. 对观测到的检验统计量 \(X\) 应用连续性修正
  3. 使用公式将修正后的值 \(Y\) 标准化: $$Z = \frac{Y - \mu}{\sigma}$$
  4. 比较 Z:

    将你计算出的 Z 值与显著性水平 \(\alpha\) 对应的标准正态表中的临界 Z 值进行比较。

    • 如果 \(|Z_{calculated}| > Z_{critical}\),拒绝 \(H_0\)

  5. 结合背景写出结论。

你知道吗?“P值”一词来源于“概率值 (probability value)”,其使用是由统计学家罗纳德·费希尔在 20 世纪 20 年代推广的!

7. 理解错误(Alpha 和 Beta)

在任何假设检验中,总存在做出错误决策的风险。

第一类错误 (\(\alpha\))

当你拒绝 \(H_0\),但 \(H_0\) 实际上是真时,发生第一类错误

法庭类比:判无罪者有罪。
第一类错误的概率恰好等于显著性水平 \(\alpha\)。如果 \(\alpha=5\%\),则有 5% 的机会犯此错误。

第二类错误 (\(\beta\))

当你不拒绝 \(H_0\),但 \(H_0\) 实际上是假(而 \(H_1\) 为真)时,发生第二类错误

法庭类比:放走有罪者。
计算 \(\beta\)(第二类错误的概率)比较复杂,因为它取决于总体参数的实际(未知)值,但你必须理解这个概念。

常见陷阱

如果你试图降低犯第一类错误的风险(通过降低 \(\alpha\),比如从 5% 降到 1%),你会使拒绝域变小,从而更难拒绝 \(H_0\)。这会自动增加犯第二类错误 (\(\beta\)) 的概率。你必须平衡这些风险!

本章关键要点总结
  • 始终陈述 \(H_0\)(等号)和 \(H_1\)(不等号)。
  • 小心处理单侧检验与双侧检验;记得双侧检验需平分 \(\alpha\)。
  • 拒绝域定义了拒绝边界;P值直接将观测概率与 \(\alpha\) 进行比较。
  • 使用正态近似时,连续性修正是强制性的。
  • 第一类错误的概率等于显著性水平 \(\alpha\)。