Statistical Hypothesis Testing - Mathematics A - H230 - Cambridge OCR AS Level

欢迎来到统计侦探的世界！

你有没有想过，科学家是如何判断一种新药是否真的有效？或者制造商如何证明他们的“长效”电池不仅仅是营销噱头？答案就是运用统计假设检验 (Statistical Hypothesis Testing)。

你可以把这一章想象成训练你成为一名“数学侦探”。你不只是在看数字，而是在寻找证据。你从一个主张（现状）出发，然后透过观察数据，看看是否有足够的证据来“推翻”该主张，并提出可能有新情况发生。

如果起初觉得这些概念有点抽象，别担心——我们会运用简单的逻辑和生活化的例子，一步步为你拆解！

1. 前置准备：快速温习二项分布

在深入研究之前，请记住 AS Level 的重点在于二项分布 (Binomial Distribution)。当我们有固定次数的试验 (\(n\)) 且每次试验成功的概率 (\(p\)) 为定值时，就会用到它。

快速回顾：我们将其记作 \(X \sim B(n, p)\)。假设检验其实就是根据样本观察到的结果，来检验我们假设的 \(p\) 值是否正确的过程。

2. 假设检验的语言

要成为一名数学侦探，你需要掌握专业术语。让我们拆解课程大纲 2.05a 中的关键术语。

两个对立的主张

每一个检验都始于两个相对的观点：
1. 零假设 (Null Hypothesis, \(H_0\))： 这是“无聊”的版本。它假设什么都没有改变。在被证明错误之前，我们总是假设 \(H_0\) 为真。就像法律原则“无罪推定”一样。
2. 备择假设 (Alternative Hypothesis, \(H_1\))： 这是“有趣”的版本。它是你怀疑可能正在发生的情况（例如：成功率上升了，或者硬币有偏差）。

关键参数

假设必须使用总体参数 \(p\)（成功概率）来表示。
例如：如果我们要检验硬币是否公平，我们会说：
\(H_0: p = 0.5\)（硬币是公平的）
\(H_1: p \neq 0.5\)（硬币是不公平的）
重要提示：在答案中一定要定义 \(p\) 代表什么！(例如：“其中 \(p\) 为硬币掷出正面的概率”)。

显著性水平 (Significance Level, \(\alpha\))

这是你的证据“门槛”。通常为 5% (0.05) 或 1% (0.01)。
类比：想象你是一位法官，显著性水平就是你愿意容忍多少疑虑。5% 的显著性水平意味着，只有当你观察到的结果非常罕见（纯粹运气好发生的概率不到 5%）时，你才会拒绝 \(H_0\)。

关键总结：

假设检验是根据检验统计量 (test statistic)（即你在样本中观察到的实际结果），对 \(H_0\) 和 \(H_1\) 做出决定的正式程序。

3. 单尾检验 vs. 双尾检验

你怎么知道要往哪个方向看？这取决于你正在调查什么。

单尾检验 (1-Tail Test，寻求特定方向)

当你怀疑某个数值明确地增加或减少时使用。
例如：“我认为这项手术的成功率提高了。”
\(H_1: p > \text{旧值}\)（右尾）
\(H_1: p < \text{旧值}\)（左尾）

双尾检验 (2-Tail Test，寻求任何变化)

当你只认为数值改变了，但不知道（或不在意）改变的方向时使用。
例如：“制造商调整了机器设置，我认为不良率现在不同了。”
\(H_1: p \neq \text{旧值}\)

小撇步：在 5% 显著性水平的双尾检验中，你需要将“风险”平分：上方 2.5% 和下方 2.5%。

4. “危险地带”：临界区域与临界值

我们如何决定“拒绝”零假设？我们需要寻找临界区域 (Critical Region)。

1. 临界值 (Critical Value)： 落入“危险地带”的第一个数值。
2. 临界区域 (或拒绝区域, Rejection Region)： 纯粹靠运气极难发生的数值范围，一旦落入此范围，我们就决定拒绝 \(H_0\)。
3. 接受区域 (Acceptance Region)： 不够“奇怪”的数值。如果我们的结果落在此处，我们就保留 \(H_0\)。

你知道吗？ 计算器是你最好的帮手！你会用到二项累积分布函数 (Binomial Cumulative Distribution) 来求出这些数值。课程备注：落入临界区域的实际概率必须小于或等于显著性水平。

5. 步骤教学：如何进行检验

如果你遵循这些步骤，绝对不会出错：

步骤 1：定义 \(p\)。 写下该概率所代表的含义。
步骤 2：陈述假设。 写出 \(H_0\) 和 \(H_1\)。
步骤 3：确认分布。 使用 \(H_0\) 中的数值写出 \(X \sim B(n, p)\)。
步骤 4：设定显著性水平。 (例如：5%)。
步骤 5：计算概率。 求出得到观察结果或更极端结果的概率。这称为 p值 (p-value)。
步骤 6：进行比较。 你的 p值是否小于显著性水平？
步骤 7：结论。 将结果分为两部分撰写：数学结论与情境结论。

常见错误！

永远不要说“我接受 \(H_0\)”或“这证明了 \(H_0\) 是正确的”。
我们只有两个选择：
1. 拒绝 \(H_0\)（有足够的证据显示 \(H_1\) 成立）。
2. 无法拒绝 \(H_0\)（没有足够的证据显示 \(H_1\) 成立）。

类比：法庭上判决“证据不足”并不代表被告绝对无罪，只是代表没有足够的证据来证明他们有罪。

6. 解读结果 (课程大纲 2.05c)

显著性水平其实就是错误地拒绝零假设的概率。

想象一个公平的硬币 (\(p=0.5\))，如果你抛 10 次且 10 次都是正面，你会在 5% 的水平下拒绝 \(H_0\)，因为得到 10 个正面非常罕见 (\(p \approx 0.001\))。但这仍然可能纯属运气！如果那真的只是运气，那你拒绝 \(H_0\) 就犯了错误。这就是我们在统计学中必须承担的风险。

快速回顾表：

若 p值 \(\le\) 显著性水平： 结果具有显著性 (significant)。拒绝 \(H_0\)，有证据显示 \(H_1\) 成立。
若 p值 > 显著性水平： 结果不具显著性 (not significant)。不要拒绝 \(H_0\)，没有足够的证据显示 \(H_1\) 成立。

7. 结语：最后的示例

一位园丁声称他的种子发芽率为 70% (\(p=0.7\))。一名怀疑的学生种了 20 颗种子，结果只有 10 颗发芽。请在 5% 的水平下检验园丁的说法。

1. 定义 \(p\)： 令 \(p\) 为种子发芽的概率。
2. 假设： \(H_0: p = 0.7\)，\(H_1: p < 0.7\) (单尾检验)。
3. 分布： 在 \(H_0\) 假设下，\(X \sim B(20, 0.7)\)。
4. 观察结果： 学生观察到 \(X = 10\)。
5. 计算： 使用计算器，\(P(X \le 10) = 0.0480\) (或 4.8%)。
6. 比较： \(0.0480 < 0.05\)。结果具有显著性！
7. 结论： 拒绝 \(H_0\)。在 5% 的显著性水平下，有显著证据表明发芽率小于 0.7。

鼓励一下： 假设检验确实需要写很多步骤，但逻辑始终如一。掌握好步骤，你就掌握了这一章！你一定做得到的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。