欢迎来到统计假设检验!
你有没有想过科学家是如何“证明”一种新药有效,或者工厂如何知道机器是否在麦片盒里装得太少?他们使用的就是统计假设检验 (statistical hypothesis testing)。你可以把它想象成一种正式的数学侦探工作。我们从一个“平淡无奇”的假设(现状)开始,看看我们的数据是否“古怪”到足以暗示某些事情已经发生了改变。
别担心,如果起初觉得这些很复杂!我们将把这些“统计术语”拆解成简单易懂的内容,并向你展示在 Paper 3 中应对这些问题的步骤清单。
1. “法庭”语言
在英国的法律体系中,一个人是“未经证明有罪前,均视为无罪”。假设检验也完全一样。我们有两个对立的观点:
虚无假设 (Null Hypothesis, \(H_0\)): 这是“无罪”或“什么都没有改变”的立场。除非我们有非常强而有力的证据反对,否则我们都假设它是正确的。它总是包含“等号”(例如 \(p = 0.5\) 或 \(\mu = 10\))。
对立假设 (Alternative Hypothesis, \(H_1\)): 这是“有罪”或“发生了某些事”的立场。这是身为研究者的你怀疑可能正在发生的情况。它使用诸如 \(<\)、\(>\) 或 \(\neq\) 的符号。
你需要知道的关键术语:
- 检验统计量 (Test Statistic): 这是你从样本中得到的实际值(例如喜欢某产品的人数)。
- 显著性水平 (Significance Level, \(\alpha\)): 证据的“门槛”。通常为 5% (0.05)。如果我们决定拒绝 \(H_0\),这就是出错的概率。
- 拒绝域 (Critical Region): “拒绝区”。如果你的检验统计量落在这里,代表该结果发生在偶然下的概率极低,因此我们拒绝虚无假设。
- 临界值 (Critical Value): “接受域”与“拒绝域”之间的界线。
- p值 (p-value): 如果 \(H_0\) 是真的,得到你目前结果(或更极端结果)的概率。
记忆口诀:“p值规则”
如果 p 值很低(小于显著性水平),那么 \(H_0\) 就必须走!
总结:
假设检验就是基于我们的数据在 \(H_0\) 的假设下有多不可能发生,来决定该支持 \(H_0\)(没改变)还是 \(H_1\)(有改变)。
2. 比例检验(二项分布)
当我们处理“成功或失败”的场景时,就会用到这个——例如硬币出现正面的概率,或是支持某候选人的选民百分比。
步骤流程:
1. 陈述假设: \(H_0: p = \dots\) 以及 \(H_1: p <, >, \text{ 或 } \neq \dots\)
2. 定义分布: 使用 \(H_0\) 中的数值,假设 \(X \sim B(n, p)\)。
3. 求出 p 值: 计算得到你的结果或更极端结果的概率。
例子:如果你怀疑硬币倾向正面,而你在 10 次投掷中得到 8 次正面,求 \(P(X \geq 8)\)。
4. 比较: 如果 p 值 \( < \) 显著性水平,则拒绝 \(H_0\)。
5. 在语境中下结论: 务必写出完整的句子,例如:“在 5% 的显著性水平下,有充分证据表明……的比例已经增加。”
单尾检验 vs 双尾检验:
- 单尾检验 (1-tail): 你怀疑在某一个特定的方向上有变化(例如:“该药物比旧药物更好”)。
- 双尾检验 (2-tail): 你只是认为它不同了(例如:“机器不再准确了”)。关键提示: 在双尾检验中,你必须将显著性水平一分为二(例如:上端 2.5% 和下端 2.5%)。
你知道吗? 显著性水平其实就是犯下“第一类错误 (Type I error)”的概率——这意味着在虚无假设实际上为真时拒绝了它。这是我们承担“虚惊一场”的风险。
快速复习:
对于二项分布检验,请使用计算器的二项累积分布 (BCD) 功能。永远要检查题目问的是“至少 (at least)”还是“多于 (more than)”,以确保你的不等式正确!
3. 平均值检验(正态分布)
当我们测量连续数值(如体重、身高或时间)时,会使用此方法。对于 Paper 3 的这部分,我们假设已知总体方差 (\(\sigma^2\))。
“重大改变”:样本平均值
当我们取一个大小为 \(n\) 的样本时,样本平均值 (\(\bar{X}\)) 会遵循一个特定的分布:
\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
别忘了: 你必须将方差除以样本大小 \(n\)。这很好理解——样本越大,平均值就越稳定,离散程度越小!
要避免的常见错误:
学生经常忘记在计算器上使用“标准误 (Standard Error)”\(\frac{\sigma}{\sqrt{n}}\),而错误地使用了 \(\sigma\)。如果你忘记了 \(\sqrt{n}\),整个检验就会出错!
总结:
平均值检验与二项分布检验的过程几乎相同,但你使用的是正态分布,且你的检验统计量是你样本的平均值 (\(\bar{x}\))。
4. 相关性假设检验
有时我们想知道两件事是否相关(例如学习时间与考试分数)。我们使用积差相关系数 (Product Moment Correlation Coefficient, PMCC),记作 \(r\)。
总体相关系数以希腊字母 rho (\(\rho\)) 表示。
- \(H_0: \rho = 0\)(没有相关性)。
- \(H_1: \rho > 0, \rho < 0, \text{ 或 } \rho \neq 0\)。
你不需要手动计算 \(r\)(计算器可以做到!),但你必须将计算出的 \(r\) 值与考试提供的表格中的临界值 (Critical Value) 进行比较,或是使用 p 值。如果你的 \(r\) 值比临界值更偏离零,那就代表你发现了真正的相关性!
类比: 想象在嘈杂的房间里试图听清一个耳语。相关性就是“耳语”(讯号),而随机变异就是“杂讯”。假设检验能帮助我们判断耳语是真实存在的,还是我们在杂讯中幻听了。
快速复习:
相关性不代表因果关系。即使你拒绝了 \(H_0\) 并发现强相关性,也不代表其中一件事情导致了另一件——它们可能只是被其他因素连接在一起而已!
5. 考试成功的最后小贴士
要在 Paper 3 获得满分,请遵循以下“黄金法则”:
- 永远定义你的参数。不要只写 \(p\);要写“\(p\) 是种子发芽的概率”。
- 不要过于武断: 永远不要说“这证明了虚无假设是正确的”。相反,应该说“没有足够的证据来拒绝虚无假设”。
- 语境为王: 你的结论句必须提及实际情况(种子、硬币、重量等)。很多分数是因为最后结论写得太“数学化”而丢失的。
如果觉得这些内容很多,别担心。多练习几次,这些步骤就会变成本能。你其实只需要检查数据是否“怪到”值得探讨的地步!