Introduction to hypothesis testing

欢迎来到统计推论（Statistical Inference）的世界！

你有没有想过，科学家是如何“证明”一种新药有效，或者工厂如何知道机器是否校准正确？他们不是靠猜的，而是使用假设检验（Hypothesis Testing）。你可以把假设检验想象成一场法庭审判：在我们找到足够证据证明某人有罪之前，我们预设他是清白的。在统计学中，我们也预设“现状”是正确的，直到数据证明事实并非如此。
如果这听起来有点抽象，不用担心——我们会把它拆解成简单又合乎逻辑的步骤！

1. 基础概念：参数 vs. 统计量

在开始检验之前，我们需要弄清楚讨论的对象。在统计学中，我们区分“总体”与我们实际测量的“小组”。

参数（Parameter）：描述总体（Population）的数值属性。它通常是我们不知道的“真实”数值。
例子：英国所有成年人的平均身高（\(\mu\)）。

统计量（Statistic）：描述样本（Sample）的数值属性。这是我们从收集到的数据中计算出来的数值。
例子：你所测量的 100 个人的平均身高（\(\bar{x}\)）。

记忆小撇步：
Parameter（参数）= Population（总体）
Statistic（统计量）= Sample（样本）

标准误（Standard Error）：这只是一个花哨的名字，其实就是统计量的标准差。它告诉我们样本结果与真实总体数值之间预期的变异程度。

重点总结：我们使用统计量（来自样本）来对参数（总体）进行“推论”（一种经过计算的猜测）。

2. 假设检验的语言

为了通过考试，你必须学会这些术语！以下是你在每道题目中都会用到的核心词汇：

假设（Hypotheses）

零假设（Null Hypothesis，\(H_0\)）：这是“无聊”的版本，假设没有发生任何改变或没有任何效果。我们总是使用等号来书写（例如：\(H_0: p = 0.5\)）。

备择假设（Alternative Hypothesis，\(H_1\)）：这正是你试图寻找证据支持的部分。这是“令人兴奋”的版本（例如：\(H_1: p > 0.5\)）。

决策关键

显著性水平（Significance Level，\(\alpha\)）：这是证据的“门槛”，通常设定为 5%（\(0.05\)）。如果我们的结果是由纯粹概率产生的可能性低于这个水平，我们就拒绝 \(H_0\)。

检验统计量（Test Statistic）：从样本数据计算出的数值（如 Z 分数或二项分布中的成功次数），用于做决定。

p-值（p-value）：假设 \(H_0\) 为真，得到极端结果的概率。
口诀：如果 p 值够低，零假设就要离去！（若 p < 显著性水平，则拒绝 \(H_0\)）。

“区域”划分

拒绝域（Critical Region）：“拒绝区”。如果你的检验统计量落在这里，就要拒绝 \(H_0\)。
临界值（Critical Value）：划分拒绝域的“边界”数字。
接受域（Acceptance Region）：“安全区”。如果你的统计量落在这里，代表没有足够证据改变立场，因此保留 \(H_0\)。

快速回顾：
1. 写出 \(H_0\) 和 \(H_1\)。
2. 选择显著性水平（通常为 5%）。
3. 计算检验统计量。
4. 检查它是否落在拒绝域中。

3. 单侧检验 vs. 双侧检验

如何判断要用哪种检验？这取决于题目的提问方式。

单侧检验（1-Tail Test）：你正在寻找特定方向上的改变。
关键词：“增加”、“减少”、“更好”、“更慢”。
例子：\(H_1: \mu > 100\)

双侧检验（2-Tail Test）：你正在寻找任何方向上的改变。
关键词：“有改变”、“不同”、“不等于”。
例子：\(H_1: \mu \neq 100\)

常见错误：在双侧检验中，你必须将显著性水平平分！对于 5% 的检验，你在高端寻找 2.5%，在低端寻找 2.5%。

4. 比例检验（二项分布）

当我们计算“成功”与“失败”时会用到。
\(X \sim B(n, p)\)

步骤：
1. 定义参数：设 \(p\) 为……的概率。
2. 写出 \(H_0: p = \text{旧值}\) 及 \(H_1: p <, > \text{或} \neq \text{旧值}\)。
3. 假设 \(H_0\) 为真，找出得到像观察值那样极端的概率。
4. 将此概率与显著性水平进行比较。

小知识：如果样本数 (\(n\)) 非常大，你可以使用正态近似（Normal Approximation）来解决二项分布问题。这能让大数据的计算速度快得多！

5. 平均数检验（正态分布）

当我们观察样本的平均值时会用到。
如果总体 \(X \sim N(\mu, \sigma^2)\)，那么样本平均数 \(\bar{X}\) 遵循：
\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

重点：随着样本数 (\(n\)) 增加，样本平均数的“离散程度”（\(\frac{\sigma^2}{n}\)）会变小。这就是为什么较大的样本能提供更可靠的结果！

“大样本”法则：如果你的样本够大（通常 \(n \geq 30\)），根据中心极限定理（Central Limit Theorem），即使原始总体不是正态分布，我们也能假设样本平均数遵循正态分布。

6. 解读结果

完成检验后，你的结论必须谨慎且结合题目背景。

好的写法：“在 5% 的显著性水平下，有足够证据显示平均身高有所增加。”
坏的写法：“这证明了平均身高绝对是 180 公分。”

为什么？因为我们只用了样本。永远存在一种微小的概率，是因为运气好才抽到这种样本！这就是为什么我们从不说“证明”了，我们只有“证据”。

7. 成功清单

- 随机抽样：确保样本是随机的，否则检验会有偏差。
- 陈述假设：提到你是否假设正态分布或使用中心极限定理。
- 检查尾数：是 \(>\) 还是 \(\neq\)？
- 情境最重要：最后一句一定要写出题目中的具体事物（例如：种子、灯泡、考试分数），而不只是关于“p-值”。

如果一开始觉得很棘手，别担心！假设检验是一个过程。一旦你针对几种不同的情境练习过这些步骤，你就会发现其中的“逻辑”每一次都是一样的。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。