Hypothesis tests

欢迎来到假设检验：成为统计侦探！

各位未来的统计学家，大家好！假设检验听起来可能有点吓人，但它是统计学中最实用、最令人兴奋的主题之一。本质上，你正在学习如何利用数学来验证关于世界的推断。

本章是 Unit S2: Statistics 2 的基石。我们将专门探讨如何对参数进行检验，特别是与 二项分布 (Binomial Distribution) 相关的概率 \(p\)，这是你在本单元中最常遇到的假设检验类型。

让我们深入学习，看看如何用严谨的统计证据来证明（或反驳！）一项主张！

引言重点回顾

假设检验允许我们利用样本数据，对整个总体的参数（如均值或概率）做出决策。

1. 基础：什么是假设检验？

想象有人声称一枚硬币是公平的，意味着出现正面的概率 \(p = 0.5\)。你怀疑他在撒谎，认为这枚硬币被动过手脚。假设检验 (Hypothesis Test) 就是一种检查是否有足够证据来拒绝原始主张的正式程序。

任何检验都包含两个主要的陈述：

零假设 (\(H_0\))： 这是现状或已有的信念。它总是陈述参数（例如概率 \(p\)）具有某个特定值。
备择假设 (\(H_1\))： 这是你试图寻找证据来支持的主张。它挑战零假设，暗示参数小于、大于或仅仅是不同于 \(H_0\) 中的值。

设定 \(H_0\) 的规则

零假设 (\(H_0\)) 必须始终包含等号 (\(= \))。

例如： 如果我们要检验“骑自行车上学的学生比例为 20%”这一主张，那么：

\(H_0: p = 0.2\)

如果我们怀疑比例更高：

\(H_1: p > 0.2\)

快速回顾：两个假设

\(H_0\)（现状）： 总是使用 \(= \)。这是在你证明它错误之前，默认其为真的内容。
\(H_1\)（挑战者）： 使用 \(< \)、\(> \) 或 \(\ne \)。这是你正在进行检验的内容。

2. 显著性水平 (\(\alpha\)：我们要达到多大的把握？

我们需要一个标准，来衡量在拒绝 \(H_0\) 之前证据必须有多强。这个标准称为 显著性水平 (Significance Level)，用希腊字母 \(\alpha\) (alpha) 表示。

显著性水平是一种风险衡量指标。它定义了错误地拒绝一个正确 \(H_0\) 的最大概率。

常见的显著性水平为 10% (0.1)、5% (0.05) 或 1% (0.01)。

类比： 将显著性水平想象成法庭上“排除合理怀疑”的标准。如果 \(\alpha = 0.05\)，我们要求针对 \(H_0\) 的证据必须足够极端，以至于如果 \(H_0\) 实际上是真的，这种结果发生的概率只有 5%（或更低！）。

3. 单侧检验与双侧检验

备择假设 (\(H_1\)) 的类型决定了你的检验是单侧还是双侧。这对稍后设定临界区域至关重要。

3.1 单侧检验 (One-Tailed Tests)

这些检验只寻找 一个方向 上的变化。

如果 \(H_1\) 使用 \(> \)：我们在检验增加（上侧检验）。
如果 \(H_1\) 使用 \(< \)：我们在检验减少（下侧检验）。

例如： 一家制造商声称其组件寿命为 1000 小时。一个消费者组织怀疑其寿命少于 1000 小时。
\(H_0: \mu = 1000\)
\(H_1: \mu < 1000\) （单侧，下侧检验）

3.2 双侧检验 (Two-Tailed Tests)

这些检验寻找 任意方向（增加或减少）上的变化。

如果 \(H_1\) 使用 \(\ne \)：参数仅仅是与陈述的值不同。

例如： 声称一枚硬币是公平的 (\(p = 0.5\))。你只是想检验它是否 不公平（以任何方式被动过手脚）。
\(H_0: p = 0.5\)
\(H_1: p \ne 0.5\) （双侧检验）

双侧检验的重要注意事项

如果显著性水平为 \(\alpha\)，你必须将此风险平均分配到两侧。

如果 \(\alpha = 5\%\) (0.05) 且检验为双侧：
应用于上侧的显著性水平为 \(0.05 / 2 = 0.025\) (2.5%)。
应用于下侧的显著性水平为 \(0.05 / 2 = 0.025\) (2.5%)。

4. 使用二项分布进行假设检验（S2 核心）

在 Unit S2 中，你经常会遇到结果是固定试验次数中“成功”次数的情况，这遵循二项分布。

我们假设成功次数 \(X\) 服从分布 \(X \sim B(n, p)\)。

\(n\) 是固定的样本量（试验次数）。
\(p\) 是在 \(H_0\) 下假设的成功概率。

5 步假设检验流程

每次进行检验时，请遵循以下步骤：

第 1 步：定义假设和显著性水平

陈述 \(H_0\)、\(H_1\) 和显著性水平 \(\alpha\)。定义你的检验统计量 \(X\) 的分布。
例如： 检验 \(p\) 是否从 0.4 增加，样本量为 20，\(\alpha = 5\%\)。
\(H_0: p = 0.4\)
\(H_1: p > 0.4\)
\(X \sim B(20, 0.4)\)

第 2 步：确定检验统计量

这是你在样本中实际观察到的值。
例如： 如果观察到 13 次成功，检验统计量为 \(x = 13\)。

第 3 步：寻找临界区域 (CR) 或计算 P 值

这一步确定你的观察结果是否“足够极端”以拒绝 \(H_0\)。你必须使用概率表中的累积概率或计算器。

第 4 步：比较并做出决策

你的观察值在临界区域内吗？或者 P 值是否小于 \(\alpha\)？

第 5 步：在背景下陈述结论

将你的统计决策与原始的现实问题联系起来。

5. 临界区域和 P 值（决策工具）

临界区域 (Critical Region, CR) 是导致拒绝 \(H_0\) 的检验统计量取值范围。

5.1 方法 1：寻找临界区域

由于 \(X\) 是离散的（你只能得到整数次的成功），我们寻找尽可能接近显著性水平 \(\alpha\) 且不超过它的区域。

示例演练（单侧检验）

假设 \(X \sim B(10, 0.8)\) 且 \(H_1: p < 0.8\)。我们使用 \(\alpha = 5\%\) (0.05)。

1. 我们在寻找 \(X\) 的小值。临界区域 \(C\) 从 \(X=0\) 开始，向上直到某个值 \(c\)。我们要找到 \(c\)，使得：
\(P(X \le c) \le 0.05\)

2. 使用 \(n=10, p=0.8\) 的二项分布表：

\(P(X \le 5) = 0.0328\) (小于 0.05 - 合格！)
\(P(X \le 6) = 0.1209\) (大于 0.05 - 太大了！)

3. 因此，临界区域为 \(X \le 5\)。

如果你的观察结果 \(x\) 为 5 或更小，则拒绝 \(H_0\)。如果 \(x\) 为 6 或更大，则不拒绝 \(H_0\)。

5.2 实际显著性水平

因为 \(X\) 是离散的，我们往往无法精确达到 \(\alpha\)。实际显著性水平 (Actual Significance Level) 是你实际找到的临界区域所对应的概率。
在上面的例子中，实际显著性水平为 \(P(X \le 5) = 0.0328\) 或 3.28%。

5.3 方法 2：计算 P 值

P 值 (P-value) 是在假设 \(H_0\) 为真的前提下，观察到与你的统计量一样极端（或比它更极端）的结果的概率。

P 值经验法则：

如果 P 值 \(\le \alpha\)：拒绝 \(H_0\)（结果在 \(H_0\) 下非常不可能发生）。
如果 P 值 \(> \alpha\)：不拒绝 \(H_0\)。

示例：

使用之前的例子：\(X \sim B(10, 0.8)\)，\(H_1: p < 0.8\)，\(\alpha = 0.05\)。假设我们观察到 \(x = 6\)。

1. 由于 \(H_1\) 是 \(p < 0.8\)，极端区域在下侧。
2. 计算观察到 6 或更极端（更小）结果的概率：
P 值 \( = P(X \le 6)\)
P 值 \( = 0.1209\)（查表所得）

3. 比较：\(0.1209 > 0.05\)。
4. 结论：由于 P 值大于 \(\alpha\)，我们 不拒绝 \(H_0\)。

重点回顾（决策规则）

无论你使用临界区域法还是 P 值法，结果必须相同！选择你觉得最简单的方法，但要确保两种方法都能熟练运用。

6. 做出结论（第 5 步）

这一步需要使用清晰的、非数学化的语言。

如果你拒绝 \(H_0\)：

在 \(\alpha\) 显著性水平下，有足够的证据表明 [在背景中陈述 \(H_1\) 的主张]。

如果你不拒绝 \(H_0\)：

在 \(\alpha\) 显著性水平下，没有足够的证据来拒绝零假设。我们结论是，没有显著证据表明 [在背景中陈述 \(H_1\) 的主张]。

一个要避免的常见错误！

永远不要说“接受 \(H_0\)”。当我们未能拒绝 \(H_0\) 时，这仅仅意味着我们没有*足够*的证据来证明 \(H_1\)。我们并没有证明 \(H_0\) 是真的；我们只是没能证明它是错的！

想想法庭的类比： 陪审团可以裁定某人“无罪”（不拒绝 \(H_0\)），但这并不一定证明该人是“清白的”（接受 \(H_0\)）。

7. 假设检验中的误差

由于我们使用的是概率和样本，总会有做出错误决策的风险。有两种类型的错误：

7.1 第一类错误 (Type I Error)

当你 拒绝 \(H_0\)，但 \(H_0\) 实际上是真的 时，就会发生这种情况。
（你发现硬币有偏向，但它实际上是公平的。）

第一类错误的概率恰好等于 显著性水平 (\(\alpha\))。
\(P(\text{第一类错误}) = P(\text{拒绝 } H_0 \mid H_0 \text{ 为真}) = \alpha\)

7.2 第二类错误 (Type II Error)

当你 不拒绝 \(H_0\)，但 \(H_0\) 实际上是假的（即 \(H_1\) 是真的）时，就会发生这种情况。
（你发现硬币是公平的，但它实际上是被动过手脚的。）

第二类错误的概率用 \(\beta\) (beta) 表示。
寻找 \(\beta\) 比较复杂，因为 \(H_1\) 是一个数值范围（例如 \(p > 0.5\)）。要计算 \(\beta\)，你必须获得 \(H_1\) 下的一个 特定值 来进行检验。

计算第二类错误的概率 (\(\beta\))

\(\beta = P(\text{不拒绝 } H_0 \mid H_1 \text{ 在特定值 } p_1 \text{ 下为真})\)

流程：

首先，确定原始检验的 接受区域 (Acceptance Region, AR)（即你 *不拒绝* \(H_0\) 的区域）。
使用 \(H_1\) 下给定的特定值 \(p_1\) 来建立一个新分布：\(X \sim B(n, p_1)\)。
使用这个新分布计算落入接受区域的概率。该概率就是 \(\beta\)。

你知道吗？

这两种错误之间存在反向关系。如果你降低第一类错误的风险 (\(\alpha\))，就会自动增加第二类错误的风险 (\(\beta\))，反之亦然！将你的检验标准设定得非常严格（例如 \(\alpha = 1\%\)）会使得拒绝 \(H_0\) 变得更难，这意味着你更有可能错过真实存在的效果。

重点回顾（误差）

第一类错误： 在 \(H_0\) 为真时拒绝它。概率为 \(\alpha\)。（假阳性）
第二类错误： 在 \(H_0\) 为假时不拒绝它。概率为 \(\beta\)。（假阴性）

本章总结清单

如果你能自信地做到以下几点，你就可以准备迎接考试了：

正确陈述零假设 (\(H_0\)) 和备择假设 (\(H_1\))。
识别检验是单侧还是双侧。
为双侧检验正确分配显著性水平 (\(\alpha\))。
使用累积概率为二项检验寻找 临界区域。
计算 P 值 并用其做出决策。
定义并计算 第一类错误 (\(\alpha\)) 的概率。
在给定特定备择参数值的情况下，计算 第二类错误 (\(\beta\)) 的概率。

干得好！假设检验通常被认为很有挑战性，但通过系统地遵循这些步骤，你可以掌握它！继续练习那些临界区域的边界吧！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。