Statistical hypothesis testing

欢迎来到统计假设检验！

你有没有试过说：“我敢赌我抛这枚硬币，出现正面的次数会超过一半”，或者“我觉得这种新药比旧药更有效”？在统计学中，我们不只是随便猜测；我们使用假设检验 (Hypothesis Testing) 来看看数据是否真的支持我们的说法。如果刚开始觉得这有点抽象，别担心——把它想象成你是位数学侦探。你正在检视证据（数据），看看是否真的发生了“犯罪”（某种改变）！

1. 假设检验的术语

在开始计算之前，我们需要学习一下“行话”。统计检验有一套专门的术语，你必须正确使用它们才能拿到满分。

两个假设

每个检验都始于两个相对的陈述：

1. 零假设 (Null Hypothesis, \(H_0\))： 这是“现状”。它假设没有任何事情改变，一切都很正常。对于二项分布，我们将其写为 \(H_0: p = \text{某个数值}\)。
2. 对立假设 (Alternative Hypothesis, \(H_1\))： 这是我们正在调查的主张。它是“等等，我觉得有东西真的不一样了！”的陈述。我们将其写为 \(H_1: p < \dots\)、\(H_1: p > \dots\) 或 \(H_1: p \neq \dots\)。

比喻：法庭
想象一场审判。零假设是被告“无罪”。我们假设他们是无罪的，除非我们找到了“排除合理怀疑”的证据来证明对立假设（他们是“有罪”的）。

必须知道的重要术语

检验统计量 (Test Statistic)： 这是你从实验中得到的实际结果（例如：“我抛了 10 次硬币，出现了 8 次正面”）。
显著性水平 (Significance Level, \(\alpha\))： 这是证据必须跨越的“门槛”。常见的水平是 5% (0.05) 或 1% (0.01)。如果我们的结果发生概率小于这个门槛，我们就拒绝 \(H_0\)。
p值 (p-value)： 在零假设为真的情况下，获得该结果（或比该结果更极端的情况）的实际概率。
临界值 (Critical Value)： 落在拒绝域 (Critical Region) 内的第一个数值。
拒绝域 (Critical Region)： 一组数值范围，如果结果落入其中，代表证据强烈到足以让我们决定拒绝零假设。

快速回顾：
- \(H_0\) 永远是 "="。
- \(H_1\) 是 "<"、">" 或 "\(\neq\)"。
- 检验统计量只是你观察到的成功次数。

2. 单尾检验 vs. 双尾检验

我们怎么知道要往哪个方向看？这取决于题目的措辞！

单尾检验 (1-Tail Test)

当我们寻找单一特定方向的变化时，使用单尾检验。
例子：“检验破损鸡蛋的比例是否减少了。”
\(H_1: p < 0.05\)

双尾检验 (2-Tail Test)

当我们寻找任何变化（不论方向）时，使用双尾检验。
例子：“检验投选 A 党的人数比例是否改变了。”
\(H_1: p \neq 0.4\)

记忆小撇步：
如果题目说“增加”或“减少”，用单尾；如果题目说“改变”或“不同”，用双尾！

3. 进行检验：分步指南

让我们来看看如何使用二项分布 (Binomial Distribution) \(X \sim B(n, p)\) 实际进行检验。

第 1 步：列出假设
务必先定义 \(p\)（例如：“设 \(p\) 为种子发芽的概率”）。然后写出 \(H_0\) 和 \(H_1\)。

第 2 步：列出显著性水平
通常题目会给出（例如：5%）。

第 3 步：列出分布
在零假设下，分布是什么？例如：\(X \sim B(20, 0.4)\)。

第 4 步：计算 p 值
使用你的计算器找出获得该结果或更极端结果的概率。
- 若 \(H_1: p > \dots\)，计算 \(P(X \geq \text{观察值})\)。
- 若 \(H_1: p < \dots\)，计算 \(P(X \leq \text{观察值})\)。

第 5 步：比较并得出结论
如果你的 p 值小于显著性水平，你便拒绝 \(H_0\)。表示有“足够证据”。
如果你的 p 值大于显著性水平，你便不拒绝 \(H_0\)。表示“证据不足”。

重要提示： 在双尾检验中，你必须将你的 p 值与显著性水平的一半进行比较（例如：若水平为 5%，则将 p 值与两端的 2.5% 进行比较）。

核心重点：
“若 p 值低，零假设必走！”（如果 p 值 < 显著性水平，拒绝 \(H_0\)）。

4. 拒绝域 (Critical Regions)

有时，考官可能不会要求 p 值，而是要求拒绝域。这是一组所有会导致你拒绝零假设的可能结果。

例子： 如果你抛 10 次硬币，拒绝域可能是 \(X=0, 1\) 或 \(X=9, 10\)。如果你的实际结果落在这些“区域”内，你就要拒绝 \(H_0\)。

你知道吗？
实际显著性水平是落入拒绝域的真实概率。因为二项分布是离散的（你不可能有 4.5 次成功），所以实际显著性水平通常会略低于要求的水平（例如：4.2% 而不是 5%）。

5. 避免常见错误

不要掉进这些陷阱！
1. 混淆 \(H_0\) 和 \(H_1\)： 记住，\(H_0\) 永远是那个包含“等于”的。
2. 忘记背景： 在检验结束时，你必须写一句话回归题目背景。不要只说“拒绝 \(H_0\)”，要说“有足够证据显示破损鸡蛋的比例已经减少”。
3. 使用错误的不等式： 如果你是在检验“增加”，你需要计算 \(P(X \geq x)\)。学生经常不小心计算成 \(P(X \leq x)\)。
4. 误解显著性水平： 要明白显著性水平是错误拒绝零假设的概率。换句话说，这是当一切其实只是运气好时，我们说“情况改变了！”的概率。

总结检查清单

- 用文字定义参数 \(p\)。
- 写出 \(H_0\) 和 \(H_1\)。
- 从数据中识别检验统计量。
- 使用计算器找到 p 值或拒绝域。
- 与显著性水平进行比较。
- 在题目背景下写出最终结论。

继续练习！假设检验是一个逻辑过程。一旦掌握了这些步骤，你会发现它是 Paper 2 中最容易预测的部分之一！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。