Hypothesis testing for a binomial probability p - Mathematics B (MEI) - H630 - Cambridge OCR AS Level

介绍：成为统计侦探

欢迎来到统计学的世界！今天，我们将深入探讨假设检验 (Hypothesis Testing)。如果你曾经好奇过一枚硬币是否不公平，或者一个新的“幸运”骰子是否真的比较常掷出六点，其实你已经具备了统计学家的思维模式。
假设检验基本上就是“统计侦探工作”。我们从一个假设开始，观察证据（数据），然后决定这些证据是否足够强大，以至于让我们改变原有的看法。如果一开始觉得有很多新名词感到困惑，请别担心，我们会一步步为你拆解！

1. 假设检验的术语

要成为一名出色的侦探，你需要熟悉相关术语。以下是 OCR MEI 课程大纲中必须掌握的关键词：

零假设 (Null Hypothesis, \(H_0\))： 这是“现状”或“无变化”的宣称。它假设一切如常，没有发生任何改变。对于二项分布概率，我们通常这样写：
\(H_0: p = \text{某数值}\)

备择假设 (Alternative Hypothesis, \(H_1\))： 这是“令人兴奋”的宣称。这是你试图寻找证据支持的观点。它通常是以下其中一种形式：
\(H_1: p < \text{某数值}\)（你认为概率降低了）
\(H_1: p > \text{某数值}\)（你认为概率增加了）
\(H_1: p \neq \text{某数值}\)（你只是认为概率有所改变）

检验统计量 (Test Statistic)： 这是你在实验中观察到的数值。例如，如果你掷硬币 20 次，出现正面的次数就是你的检验统计量。

显著性水平 (Significance Level, \(\alpha\))： 这是我们判断证据的“门槛”。通常设为 5% (\(0.05\)) 或 10% (\(0.1\))。它代表当我们拒绝 \(H_0\) 时，我们愿意承担犯错的概率。

快速复习小盒子：
- \(H_0\) 永远使用 "="
- \(H_1\) 永远使用 "<", ">" 或 "\(\neq\)"
- 假设永远是关于总体概率 \(p\)，绝不是关于样本结果！

2. 单尾与双尾检验

我们如何知道该往哪个方向寻找证据？这取决于我们怀疑发生了什么事。

单尾检验 (One-Tail Tests)

如果题目明确指定方向，请使用 1 尾检验。
例子： “园丁怀疑种子的发芽率增加了。”
这里，\(H_1: p > \text{旧数值}\)。我们只关心结果分布中的“高位”端。

双尾检验 (Two-Tail Tests)

如果题目说“概率改变了”或“有所不同”，请使用 2 尾检验。
例子： “科学家想检查机器是否仍然校准正确。”
这里，\(H_1: p \neq \text{旧数值}\)。我们关心结果是否太高 OR 太低。
重要技巧： 在 2 尾检验中，我们将显著性水平平分。如果总水平是 5%，我们会在底部寻找 2.5%，在顶部寻找 2.5%。

重点总结： 仔细读题！像“增加”、“减少”、“更好”或“更差”等词意味着 1 尾检验。像“改变”、“不同”或“受影响”等词则意味着 2 尾检验。

3. 临界区域与 \(p\)-值

得到数据后，我们如何决定 \(H_0\) 是“有罪”（拒绝）还是“无罪”（接受）？主要有两种方法。

临界区域法 (The Critical Region Method)

临界区域 (Critical Region)（或拒绝域）是指一系列极不可能纯属偶然发生的数值，如果我们的检验统计量落在此区域内，我们就拒绝 \(H_0\)。
临界值 (Critical Value) 是划分此区域的“界线”数字。

\(p\)-值法 (The \(p\)-value Method)

\(p\)-值 (\(p\)-value) 是在假设 \(H_0\) 为真的前提下，观察到结果至少与实际观测值一样极端的概率。
- 如果 \(p\)-值 \(\leq\) 显著性水平 \(\rightarrow\) 拒绝 \(H_0\)（这结果非常罕见！）
- 如果 \(p\)-值 \( > \) 显著性水平 \(\rightarrow\) 不拒绝 \(H_0\)（这结果可能只是运气好。）

你知道吗？ 显著性水平实际上是犯下“第一类错误 (Type I error)”的概率，意即当零假设实际上为真时，你却拒绝了它！我们将这个水平保持在较低数值，以避免犯错。

4. 进行检验的步骤指南

如果一开始觉得很难，别担心；每次都遵循这五个步骤即可：

第 1 步：列出你的假设。 先定义 \(p\)（例如：“令 \(p\) 为种子发芽的概率”），然后写出 \(H_0\) 和 \(H_1\)。

第 2 步：列出分布。 在零假设下，变量 \(X\) 服从二项分布：\(X \sim B(n, p)\)。

第 3 步：计算概率。 使用计算器的二项累积分布函数 (BCD) 来找出结果“至少与此一样极端”的概率。
- 对于“大于”检验，找出 \(P(X \geq x) = 1 - P(X \leq x-1)\)。
- 对于“小于”检验，找出 \(P(X \leq x)\)。

第 4 步：比较。 将你的 \(p\)-值与显著性水平进行比较。

第 5 步：在语境中得出结论。 这是学生最容易丢分的地方！你必须提到具体的情境。

常见错误： 永远不要说“H0 绝对是真的”或“H1 绝对是假的”。统计学是关于证据，而不是绝对确定。请使用非肯定语气，例如“没有足够证据显示……”。

5. 真实世界案例

情境： 一枚硬币掷了 20 次，其中 15 次为正面。在 5% 的显著性水平下，这枚硬币是否偏向正面？

1. 假设： \(p\) 为正面概率。\(H_0: p = 0.5\)；\(H_1: p > 0.5\)（1 尾检验）。

2. 分布： 在 \(H_0\) 下，\(X \sim B(20, 0.5)\)。

3. 计算： 我们观察到 15 次正面。我们需要得到 15 或更多次的概率。
\(P(X \geq 15) = 1 - P(X \leq 14) \approx 0.0207\)。

4. 比较： \(0.0207\) (2.07%) 小于 \(0.05\) (5%)。

5. 结论： 0.0207 小于 0.05，因此我们拒绝 \(H_0\)。在 5% 的水平下，有足够证据显示这枚硬币偏向正面。

重点总结： 如果你结果的发生概率小于显著性水平，代表它太奇怪了，不可能是巧合。拒绝那个“平庸”的 \(H_0\) 吧！

常见错误总结

- 使用样本比例： 不要写 \(H_0: p = 15/20\)。假设永远是关于理论概率（如 \(0.5\)）。
- 方向错误： 在“大于”检验中，确保你计算的是上尾 (\(P(X \geq x)\))。
- 遗忘情境： 在最后的句子中，务必提到硬币、种子或题目涉及的具体事物。
- 双尾混淆： 记得在 2 尾检验中，将你的 \(p\)-值与显著性水平的一半比较（或将你的 \(p\)-值乘以 2）。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。