Hypothesis Testing

欢迎来到假设检验 (Hypothesis Testing)！

你好！欢迎来到 Further Statistics 1 中最实用且强大的章节之一。你有没有想过科学家是如何判断新药是否真的有效，或者工厂是如何确认机器运作正常的？他们用的就是假设检验。

在普通 A Level 数学中，你已经学过如何对二项分布 (Binomial distribution) 进行检验。在 Further Mathematics (9FM0) 中，我们将这些概念应用到两个新的“角色”上：泊松分布 (Poisson Distribution) 和 几何分布 (Geometric Distribution)。别担心，这听起来或许有些深奥，但它的核心其实只是一个正式的方法，用来问：“这个结果纯属巧合，还是真的有什么发生了变化？”

1. 检验泊松分布的平均值

在泊松分布中，我们通常关注事件在固定区间（如时间或空间）内发生的速率。我们将此速率称为 \(\lambda\) (lambda)，有时也称为 \(\mu\)。

设定情境：假设

每个检验都始于两个相对立的陈述：

1. 零假设 (Null Hypothesis, \(H_0\))：这是“现状”。我们假设速率 \(\lambda\) 没有改变。我们总是将其写为 \(H_0: \lambda = \text{number}\)。
2. 备择假设 (Alternative Hypothesis, \(H_1\))：这是我们怀疑实际发生的情况。速率可能增加 (\(>\))、减少 (\(<\))，或者只是发生了改变 (\(\neq\))。

现实类比：流星

想象一下，你通常平均每小时看到 3 颗流星 (\(\lambda = 3\))。某天晚上，你看到了 8 颗。你可能会想：“哇，流星出现的速率增加了！”假设检验能帮你判断看到 8 颗纯粹是因为那个晚上运气好（零假设），还是真的发生了流星雨（备择假设）。

逐步操作：如何进行检验

1. 清楚写出假设，并使用参数 \(\lambda\)。
2. 确认分布：在零假设下，\(X \sim Po(\lambda)\)。
3. 计算概率：计算得到观测值或更极端数值的概率。请使用计算器的泊松分布累积概率函数 (Poisson CD)。
4. 与显著性水平 (\(\alpha\)) 比较。如果你的概率小于 \(\alpha\)，代表结果“太奇怪了，不可能是巧合”，我们会拒绝 \(H_0\)。
5. 写出结论：用简单的语言写出结论，并结合题目背景（例如：“有足够的证据显示流星出现的速率已经增加。”）

快速复习：记得如果你改变了区间的大小（例如从 1 小时变为 2 小时），在开始检验前，你必须相应地调整你的 \(\lambda\)！

关键点：对于泊松检验，我们是在检查观测到的事件发生次数与预期的平均速率相比，是否“太高”或“太低”。

2. 检验几何分布的参数 \(p\)

几何分布关注的是“等待时间”——需要多少次试验才会出现第一次成功？在这里，我们要检验的是成功概率 \(p\)。

理解逻辑

如果成功概率 \(p\) 非常高，你会预期第一次成功很快就会出现。如果 \(p\) 非常低，你则会预期要等很久。如果你等待的时间比预期长得多，或许真实的 \(p\) 比你想象中要小！

设定假设

对于几何分布检验，你的假设必须以 \(p\) 来表示：
\(H_0: p = \text{value}\)
\(H_1: p < \text{value}\) (或 \(>\) 或 \(\neq\))

公式小技巧

虽然你可以使用计算器，但几何分布在处理“等待超过 \(k\) 次试验”时有一个非常简单的公式：
\(P(X > k) = (1 - p)^k\)
这是因为若要在第 \(k\) 次试验之后才出现第一次成功，代表前 \(k\) 次试验都必须是失败的。这通常是在这些检验中计算概率最简单的方法！

常见错误：在几何分布检验中，“更极端”的方向可能会让人感到反直觉。如果你在检验 \(p\) 是否减少 (\(H_1: p < 0.2\))，那么“极端”的结果其实是 \(X\) 的较大值（即花了很长时间才获得成功）。

关键点：对于几何分布检验，我们利用直到第一次成功所需的试验次数，来判定成功概率 \(p\) 是否与声称的一致。

3. 显著性水平与拒绝域

显著性水平 (\(\alpha\))：这是“奇怪程度的门槛”。常见的水平有 5% (0.05) 或 1% (0.01)。如果我们结果的概率（p-value）小于这个水平，我们就会拒绝零假设。

单尾与双尾检验

1. 单尾检验 (One-Tailed)：你只在乎参数是否往某个特定方向移动（例如：“速率是否增加了？”）。你直接将整个 5% 与你的结果进行比较。
2. 双尾检验 (Two-Tailed)：你是在乎参数是否产生了任何变化（例如：“速率是否与之前不同？”）。你必须将显著性水平平分（例如：高标一端 2.5%，低标一端 2.5%）。

记忆小帮手：将双尾检验想象成双刃剑。你必须同时留意两边的情况，所以你要把你的“危险区”（显著性水平）一分为二！

你知道吗？当你拒绝了事实上正确的零假设时，就会发生第一类错误 (Type I error)。事实上，显著性水平正是犯下这种错误的概率！

4. 成功检查清单

别担心，如果一开始觉得棘手很正常！只要在回答每个问题时遵循以下清单：

1. 定义参数：清楚说明 \(\lambda\) 或 \(p\) 在题目背景中代表什么。
2. 写出 \(H_0\) 和 \(H_1\)：使用正确的符号 (\(\lambda, \mu,\) 或 \(p\))。
3. 确认分布：写出 \(X \sim Po(\dots)\) 或 \(X \sim Geo(\dots)\)。
4. 寻找 p-value：计算观测值或更极端数值的概率。
5. 比较并决策：是否 \(p \text{-value} < \alpha\)？如果是，则拒绝 \(H_0\)。
6. 结合背景下结论：结尾务必写上：“在 [x]% 的显著性水平下，有 [足够/不足够] 的证据显示 [背景内容]...”

最后小提示：在进行泊松检验时，如果题目给出的是多个区间内的总事件数，你可以选择调整 \(\lambda\) 以匹配新的时间段，或者保持 \(\lambda\) 不变并使用泊松分布的“可加性”来建立一个新的分布。两者皆可，但调整 \(\lambda\) 通常会更简单！

关键点：假设检验是一个逻辑过程。只要你遵循步骤并保持标记整洁，你会发现这将是 Further Statistics 试卷中最稳拿的分数来源之一。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。