Statistical hypothesis testing

欢迎来到统计侦探的世界！

你有没有好奇过，一枚「幸运」硬币是否真的有偏向，或者一种新药是否真的比旧药有效？在统计假设检验（Statistical Hypothesis Testing）中，我们利用数学来判断一个结果是真正的发现，还是纯属巧合。如果初看这些概念觉得有点抽象，别担心——我们其实就是在学习如何成为「数学侦探」！

1. 假设检验的语言

在开始计算之前，我们需要先了解统计学的「法律制度」。你可以把假设检验想像成法庭审判。

两大对立假设

每一个检验都涉及两个关于总体参数（Population Parameter）（通常是二项分布中的概率 \( p \)）的对立陈述：

1. 零假设（Null Hypothesis, \( H_0 \)）： 这是「现状」。它假设没有任何事情改变，或者硬币是公平的。在法庭的比喻中，被告在被证明有罪前是无罪的。我们总是写成 \( H_0: p = \text{something} \)。

2. 对立假设（Alternative Hypothesis, \( H_1 \)）： 这是我们正在调查的说法。这相当于「有罪」的判决。我们将其写作 \( H_1: p < \dots \)、\( H_1: p > \dots \) 或 \( H_1: p \neq \dots \)。

必须掌握的关键术语

检验统计量（Test Statistic）： 我们在样本中观察到的实际结果（例如：抛掷硬币时得到的正面次数）。
显著性水平（Significance Level, \( \alpha \)）： 这是证明的「门槛」。常见水平为 5% (\( 0.05 \)) 或 1% (\( 0.01 \))。如果我们的结果纯属偶然发生的概率低于这个水平，我们就会「拒绝」零假设。
拒绝域（Critical Region）： 导致我们拒绝 \( H_0 \) 的检验统计量取值范围。如果我们的结果落入这个「拒绝区域」，就代表我们已找到足够证据证明发生了变化。
临界值（Critical Value）： 拒绝域中的第一个数值。它是我们侦探工作的「界线」。

记忆小撇步： 把 \( H_0 \) 想成 "Ho-hum"（平淡无奇）——没什么有趣的事发生！把 \( H_1 \) 想成 "Hypothesis of Hope"（希望的假设）——这正是你希望能证明的东西。

核心观念： 我们总是先假设 \( H_0 \) 为真，只有在证据非常确凿时才会改变想法。

2. 单尾检验 vs. 双尾检验

根据我们想要寻找的目标，我们会选择特定方向的检验。

单尾检验（One-Tail Test）

当我们要关注特定方向的变化时使用。例如：「新种子的发芽率较高」(\( p > \dots \)) 或「该药物缩短了恢复时间」(\( p < \dots \))。

双尾检验（Two-Tail Test）

当我们要知道数值是否发生了任何变化，但不在乎（或不确定）它是上升还是下降时使用。例如：「机器错误的概率发生了改变」(\( p \neq \dots \))。

重要提示： 在双尾检验中，你必须将显著性水平一分为二。如果你的总显著性水平是 5%，你需要寻找底部 2.5% 的尾部和顶部 2.5% 的尾部！

你知道吗？ 大多数科学论文使用 5% 的显著性水平。这意味着他们接受有 1/20 的概率，他们的「发现」其实只是随机巧合！

3. 使用二项分布进行检验

在 AS Level 中，你的假设检验将基于二项分布模型（Binomial Model） \( X \sim B(n, p) \)。

执行检验的步骤指南：

第 1 步：写出假设。 使用参数 \( p \) 清晰地列出 \( H_0 \) 和 \( H_1 \)。

第 2 步：定义分布。 陈述如果 \( H_0 \) 为真时的分布情况（例如：\( X \sim B(10, 0.5) \)）。

第 3 步：求出观察结果的概率。 使用计算器找出获得「与观察结果相同或更极端」结果的概率。

若检验 \( p > \dots \)，计算 \( P(X \geq \text{observed value}) \)。
若检验 \( p < \dots \)，计算 \( P(X \leq \text{observed value}) \)。

第 4 步：与显著性水平比较。

如果概率小于显著性水平，拒绝 \( H_0 \)。
如果概率大于显著性水平，不拒绝 \( H_0 \)。

第 5 步：在语境中写下结论。 永远要联系题目背景（例如：「有足够的证据显示该硬币存在偏向」）。

4. 理解「P值」（P-value）

P值就是如果零假设为真，获得观察结果（或更极端结果）的概率。

类比： 想像你抛 10 次硬币，结果 10 次都是正面。P值就是公平硬币出现这种情况的概率（\( 0.5^{10} \approx 0.0009 \)）。因为 0.0009 远小于 0.05（5%），你就会判定这枚硬币绝对不公平！

快速复习盒：
- P值小 (\( < \alpha \)) = 证据充分 = 拒绝 \( H_0 \)。
- P值大 (\( > \alpha \)) = 证据不足 = 无法拒绝 \( H_0 \)。

5. 避免常见错误

符号错误： 永远不要用 \( \bar{x} \) 或 \( X \) 来写假设。一定要用总体参数 \( \mathbf{p} \)。
遗漏语境： 不要只停留在「拒绝 \( H_0 \)」。你必须说明这对题目中的园丁、医生或赌徒意味着什么。
双尾混淆： 当题目说「改变」或「不同」时，忘记将显著性水平减半。
尾部计算错误： 如果观察值高于预期，计算 \( P(X \geq x) \)。如果低于预期，计算 \( P(X \leq x) \)。

总结：宏观视野

假设检验不是为了达到 100% 的确定性，而是为了判断一个结果是否具有统计显著性（Statistically Significant）——即该结果极不可能仅由巧合造成。

核心观念： 显著性水平是错误拒绝零假设的概率。它代表了我们在宣称有发现时，愿意承担「判断错误」的风险。

如果刚开始觉得很难，别担心！练习越多题目，你对逻辑的掌握就会越纯熟。你一定没问题的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。