欢迎来到统计假设检验!

你有没有想过科学家是如何“证明”一种新药有效,或者工厂如何知道机器是否在麦片盒里装得太少?他们使用的就是统计假设检验 (statistical hypothesis testing)。你可以把它想象成一种正式的数学侦探工作。我们从一个“平淡无奇”的假设(现状)开始,看看我们的数据是否“古怪”到足以暗示某些事情已经发生了改变。

别担心,如果起初觉得这些很复杂!我们将把这些“统计术语”拆解成简单易懂的内容,并向你展示在 Paper 3 中应对这些问题的步骤清单。


1. “法庭”语言

在英国的法律体系中,一个人是“未经证明有罪前,均视为无罪”。假设检验也完全一样。我们有两个对立的观点:

虚无假设 (Null Hypothesis, \(H_0\)): 这是“无罪”或“什么都没有改变”的立场。除非我们有非常强而有力的证据反对,否则我们都假设它是正确的。它总是包含“等号”(例如 \(p = 0.5\) 或 \(\mu = 10\))。

对立假设 (Alternative Hypothesis, \(H_1\)): 这是“有罪”或“发生了某些事”的立场。这是身为研究者的你怀疑可能正在发生的情况。它使用诸如 \(<\)、\(>\) 或 \(\neq\) 的符号。

你需要知道的关键术语:

  • 检验统计量 (Test Statistic): 这是你从样本中得到的实际值(例如喜欢某产品的人数)。
  • 显著性水平 (Significance Level, \(\alpha\)): 证据的“门槛”。通常为 5% (0.05)。如果我们决定拒绝 \(H_0\),这就是出错的概率。
  • 拒绝域 (Critical Region): “拒绝区”。如果你的检验统计量落在这里,代表该结果发生在偶然下的概率极低,因此我们拒绝虚无假设。
  • 临界值 (Critical Value): “接受域”与“拒绝域”之间的界线。
  • p值 (p-value): 如果 \(H_0\) 是真的,得到你目前结果(或更极端结果)的概率。

记忆口诀:“p值规则”
如果 p 值很低(小于显著性水平),那么 \(H_0\) 就必须走!

总结:

假设检验就是基于我们的数据在 \(H_0\) 的假设下有多不可能发生,来决定该支持 \(H_0\)(没改变)还是 \(H_1\)(有改变)。


2. 比例检验(二项分布)

当我们处理“成功或失败”的场景时,就会用到这个——例如硬币出现正面的概率,或是支持某候选人的选民百分比。

步骤流程:

1. 陈述假设: \(H_0: p = \dots\) 以及 \(H_1: p <, >, \text{ 或 } \neq \dots\)

2. 定义分布: 使用 \(H_0\) 中的数值,假设 \(X \sim B(n, p)\)。

3. 求出 p 值: 计算得到你的结果或更极端结果的概率。
例子:如果你怀疑硬币倾向正面,而你在 10 次投掷中得到 8 次正面,求 \(P(X \geq 8)\)。

4. 比较: 如果 p 值 \( < \) 显著性水平,则拒绝 \(H_0\)。

5. 在语境中下结论: 务必写出完整的句子,例如:“在 5% 的显著性水平下,有充分证据表明……的比例已经增加。”

单尾检验 vs 双尾检验:

  • 单尾检验 (1-tail): 你怀疑在某一个特定的方向上有变化(例如:“该药物比旧药物更好”)。
  • 双尾检验 (2-tail): 你只是认为它不同了(例如:“机器不再准确了”)。关键提示: 在双尾检验中,你必须将显著性水平一分为二(例如:上端 2.5% 和下端 2.5%)。

你知道吗? 显著性水平其实就是犯下“第一类错误 (Type I error)”的概率——这意味着在虚无假设实际上为真时拒绝了它。这是我们承担“虚惊一场”的风险。

快速复习:

对于二项分布检验,请使用计算器的二项累积分布 (BCD) 功能。永远要检查题目问的是“至少 (at least)”还是“多于 (more than)”,以确保你的不等式正确!


3. 平均值检验(正态分布)

当我们测量连续数值(如体重、身高或时间)时,会使用此方法。对于 Paper 3 的这部分,我们假设已知总体方差 (\(\sigma^2\))。

“重大改变”:样本平均值

当我们取一个大小为 \(n\) 的样本时,样本平均值 (\(\bar{X}\)) 会遵循一个特定的分布:
\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

别忘了: 你必须将方差除以样本大小 \(n\)。这很好理解——样本越大,平均值就越稳定,离散程度越小!

要避免的常见错误:

学生经常忘记在计算器上使用“标准误 (Standard Error)”\(\frac{\sigma}{\sqrt{n}}\),而错误地使用了 \(\sigma\)。如果你忘记了 \(\sqrt{n}\),整个检验就会出错!

总结:

平均值检验与二项分布检验的过程几乎相同,但你使用的是正态分布,且你的检验统计量是你样本的平均值 (\(\bar{x}\))。


4. 相关性假设检验

有时我们想知道两件事是否相关(例如学习时间与考试分数)。我们使用积差相关系数 (Product Moment Correlation Coefficient, PMCC),记作 \(r\)。

总体相关系数以希腊字母 rho (\(\rho\)) 表示。

  • \(H_0: \rho = 0\)(没有相关性)。
  • \(H_1: \rho > 0, \rho < 0, \text{ 或 } \rho \neq 0\)。

你不需要手动计算 \(r\)(计算器可以做到!),但你必须将计算出的 \(r\) 值与考试提供的表格中的临界值 (Critical Value) 进行比较,或是使用 p 值。如果你的 \(r\) 值比临界值更偏离零,那就代表你发现了真正的相关性!

类比: 想象在嘈杂的房间里试图听清一个耳语。相关性就是“耳语”(讯号),而随机变异就是“杂讯”。假设检验能帮助我们判断耳语是真实存在的,还是我们在杂讯中幻听了。

快速复习:

相关性不代表因果关系。即使你拒绝了 \(H_0\) 并发现强相关性,也不代表其中一件事情导致了另一件——它们可能只是被其他因素连接在一起而已!


5. 考试成功的最后小贴士

要在 Paper 3 获得满分,请遵循以下“黄金法则”:

  • 永远定义你的参数。不要只写 \(p\);要写“\(p\) 是种子发芽的概率”。
  • 不要过于武断: 永远不要说“这证明了虚无假设是正确的”。相反,应该说“没有足够的证据来拒绝虚无假设”。
  • 语境为王: 你的结论句必须提及实际情况(种子、硬币、重量等)。很多分数是因为最后结论写得太“数学化”而丢失的。

如果觉得这些内容很多,别担心。多练习几次,这些步骤就会变成本能。你其实只需要检查数据是否“怪到”值得探讨的地步!