Statistical hypothesis testing

欢迎来到统计假设检验！

你有没有想过科学家是如何“证明”一种新药有效，或者工厂如何知道机器是否在麦片盒里装得太少？他们使用的就是统计假设检验 (statistical hypothesis testing)。你可以把它想象成一种正式的数学侦探工作。我们从一个“平淡无奇”的假设（现状）开始，看看我们的数据是否“古怪”到足以暗示某些事情已经发生了改变。

别担心，如果起初觉得这些很复杂！我们将把这些“统计术语”拆解成简单易懂的内容，并向你展示在 Paper 3 中应对这些问题的步骤清单。

1. “法庭”语言

在英国的法律体系中，一个人是“未经证明有罪前，均视为无罪”。假设检验也完全一样。我们有两个对立的观点：

虚无假设 (Null Hypothesis, \(H_0\))： 这是“无罪”或“什么都没有改变”的立场。除非我们有非常强而有力的证据反对，否则我们都假设它是正确的。它总是包含“等号”（例如 \(p = 0.5\) 或 \(\mu = 10\)）。

对立假设 (Alternative Hypothesis, \(H_1\))： 这是“有罪”或“发生了某些事”的立场。这是身为研究者的你怀疑可能正在发生的情况。它使用诸如 \(<\)、\(>\) 或 \(\neq\) 的符号。

你需要知道的关键术语：

检验统计量 (Test Statistic)： 这是你从样本中得到的实际值（例如喜欢某产品的人数）。
显著性水平 (Significance Level, \(\alpha\))： 证据的“门槛”。通常为 5% (0.05)。如果我们决定拒绝 \(H_0\)，这就是出错的概率。
拒绝域 (Critical Region)： “拒绝区”。如果你的检验统计量落在这里，代表该结果发生在偶然下的概率极低，因此我们拒绝虚无假设。
临界值 (Critical Value)： “接受域”与“拒绝域”之间的界线。
p值 (p-value)： 如果 \(H_0\) 是真的，得到你目前结果（或更极端结果）的概率。

记忆口诀：“p值规则”
如果 p 值很低（小于显著性水平），那么 \(H_0\) 就必须走！

总结：

假设检验就是基于我们的数据在 \(H_0\) 的假设下有多不可能发生，来决定该支持 \(H_0\)（没改变）还是 \(H_1\)（有改变）。

2. 比例检验（二项分布）

当我们处理“成功或失败”的场景时，就会用到这个——例如硬币出现正面的概率，或是支持某候选人的选民百分比。

步骤流程：

1. 陈述假设： \(H_0: p = \dots\) 以及 \(H_1: p <, >, \text{ 或 } \neq \dots\)

2. 定义分布： 使用 \(H_0\) 中的数值，假设 \(X \sim B(n, p)\)。

3. 求出 p 值： 计算得到你的结果或更极端结果的概率。
例子：如果你怀疑硬币倾向正面，而你在 10 次投掷中得到 8 次正面，求 \(P(X \geq 8)\)。

4. 比较： 如果 p 值 \( < \) 显著性水平，则拒绝 \(H_0\)。

5. 在语境中下结论： 务必写出完整的句子，例如：“在 5% 的显著性水平下，有充分证据表明……的比例已经增加。”

单尾检验 vs 双尾检验：

单尾检验 (1-tail)： 你怀疑在某一个特定的方向上有变化（例如：“该药物比旧药物更好”）。
双尾检验 (2-tail)： 你只是认为它不同了（例如：“机器不再准确了”）。关键提示： 在双尾检验中，你必须将显著性水平一分为二（例如：上端 2.5% 和下端 2.5%）。

你知道吗？ 显著性水平其实就是犯下“第一类错误 (Type I error)”的概率——这意味着在虚无假设实际上为真时拒绝了它。这是我们承担“虚惊一场”的风险。

快速复习：

对于二项分布检验，请使用计算器的二项累积分布 (BCD) 功能。永远要检查题目问的是“至少 (at least)”还是“多于 (more than)”，以确保你的不等式正确！

3. 平均值检验（正态分布）

当我们测量连续数值（如体重、身高或时间）时，会使用此方法。对于 Paper 3 的这部分，我们假设已知总体方差 (\(\sigma^2\))。

“重大改变”：样本平均值

当我们取一个大小为 \(n\) 的样本时，样本平均值 (\(\bar{X}\)) 会遵循一个特定的分布：
\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

别忘了： 你必须将方差除以样本大小 \(n\)。这很好理解——样本越大，平均值就越稳定，离散程度越小！

要避免的常见错误：

学生经常忘记在计算器上使用“标准误 (Standard Error)”\(\frac{\sigma}{\sqrt{n}}\)，而错误地使用了 \(\sigma\)。如果你忘记了 \(\sqrt{n}\)，整个检验就会出错！

总结：

平均值检验与二项分布检验的过程几乎相同，但你使用的是正态分布，且你的检验统计量是你样本的平均值 (\(\bar{x}\))。

4. 相关性假设检验

有时我们想知道两件事是否相关（例如学习时间与考试分数）。我们使用积差相关系数 (Product Moment Correlation Coefficient, PMCC)，记作 \(r\)。

总体相关系数以希腊字母 rho (\(\rho\)) 表示。

\(H_0: \rho = 0\)（没有相关性）。
\(H_1: \rho > 0, \rho < 0, \text{ 或 } \rho \neq 0\)。

你不需要手动计算 \(r\)（计算器可以做到！），但你必须将计算出的 \(r\) 值与考试提供的表格中的临界值 (Critical Value) 进行比较，或是使用 p 值。如果你的 \(r\) 值比临界值更偏离零，那就代表你发现了真正的相关性！

类比： 想象在嘈杂的房间里试图听清一个耳语。相关性就是“耳语”（讯号），而随机变异就是“杂讯”。假设检验能帮助我们判断耳语是真实存在的，还是我们在杂讯中幻听了。

快速复习：

相关性不代表因果关系。即使你拒绝了 \(H_0\) 并发现强相关性，也不代表其中一件事情导致了另一件——它们可能只是被其他因素连接在一起而已！

5. 考试成功的最后小贴士

要在 Paper 3 获得满分，请遵循以下“黄金法则”：

永远定义你的参数。不要只写 \(p\)；要写“\(p\) 是种子发芽的概率”。
不要过于武断： 永远不要说“这证明了虚无假设是正确的”。相反，应该说“没有足够的证据来拒绝虚无假设”。
语境为王： 你的结论句必须提及实际情况（种子、硬币、重量等）。很多分数是因为最后结论写得太“数学化”而丢失的。

如果觉得这些内容很多，别担心。多练习几次，这些步骤就会变成本能。你其实只需要检查数据是否“怪到”值得探讨的地步！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

欢迎来到统计假设检验！

1. “法庭”语言

你需要知道的关键术语：

总结：

2. 比例检验（二项分布）

步骤流程：

单尾检验 vs 双尾检验：

快速复习：

3. 平均值检验（正态分布）

“重大改变”：样本平均值

要避免的常见错误：

总结：

4. 相关性假设检验

快速复习：

5. 考试成功的最后小贴士

准备好测试自己了吗？

更多Mathematics 7357章节

立即实践所学