👋 欢迎来到高等假设检验(Further Hypothesis Testing)!

你好,未来的统计学家!在 AS 数学课程中,你已经掌握了假设检验的基础知识:即检验单个总体的均值或比例是否与某个主张存在差异。而这一章,我们将进行“进阶升级”!

在高等数学(Further Mathematics)中,我们将深入研究更复杂、更贴近现实的场景。我们将学习如何比较两个总体(A 国的工资水平真的比 B 国高吗?),以及如何检验数据是否符合特定的分布(这颗骰子真的是均匀的吗?)。

本专题要求你为不同的任务选择最合适的统计工具——无论是 Z 检验、t 检验、\(\chi^2\) 检验还是 F 检验。别担心,我们将带你梳理清楚何时使用哪种检验方法!


1. 评估检验:检验的功效(Power of a Test)

当我们进行假设检验时,总会有犯错的风险。你已经了解了两种类型的错误,但让我们快速回顾一下,因为这对理解“功效”至关重要。

1.1 回顾错误(法庭类比)

  • 第一类错误(Type I Error,\(\alpha\)):当零假设(\(H_0\))实际上正确时,却拒绝了它。
    类比:陪审团误判了一个无辜的人有罪。
  • 第二类错误(Type II Error,\(\beta\)):当备择假设(\(H_1\))实际上正确时,却没能拒绝 \(H_0\)。
    类比:陪审团无意中放走了一个有罪的人。

显著性水平(Significance Level,\(\alpha\))是犯第一类错误的最大概率。

1.2 功效的定义

检验的功效(Power)是指正确地拒绝一个错误零假设的概率。

$$ \text{Power} = 1 - P(\text{Type II Error}) = 1 - \beta $$

解读:一个高功效的检验,非常擅长在确实存在差异时敏锐地捕捉到差异。我们当然希望检验的功效越高越好!

1.3 计算 \(P(\text{Type II Error})\) 和功效

计算 \(\beta\)(进而计算功效)的前提是备择假设(\(H_1\))必须是一个简单备择假设(Simple Alternative)。这意味着 \(H_1\) 为总体参数指定了一个确切的值,例如 \(H_1: \mu = 105\)(而不是 \(H_1: \mu > 100\))。

逐步计算 \(\beta\):
  1. 第一步:设定拒绝域(基于 \(H_0\)):根据零假设(\(H_0\))和显著性水平(\(\alpha\))找到临界值(\(C\))。这个临界值通常是针对样本均值(\(\bar{X}\))而言的。
  2. 第二步:计算 \(\beta\):假设备择假设(\(H_1\))成立。使用第一步中找到的临界值(\(C\)),但在 \(H_1\) 所定义的分布下,计算检验统计量落在拒绝域之外的概率。
  3. 第三步:计算功效:\(1 - \beta\)。

快速回顾:功效告诉你这个检验有多可靠。如果真实的均值离零假设的均值很远,功效就会很高(容易检测出来);如果真实的均值非常接近零假设,功效就会很低(难以检测出来)。


2. 比较两个总体均值的检验(\(\mu_1\) vs \(\mu_2\))

在高等数学中,我们经常比较两个不同总体的均值 \(\mu_1\) 和 \(\mu_2\)。零假设通常为 \(H_0: \mu_1 = \mu_2\),即 \(H_0: \mu_1 - \mu_2 = 0\)。

2.1 方差已知的独立样本(Z 检验)

如果两个总体的方差(\(\sigma_1^2\) 和 \(\sigma_2^2\))已知,或者两个样本都足够大(\(n_1 > 30\) 且 \(n_2 > 30\)),我们使用基于正态分布的 Z 检验。

检验统计量为: $$ Z = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$

注意:如果样本量大但方差未知,我们使用样本方差(\(S_1^2, S_2^2\))来代替总体方差(\(\sigma_1^2, \sigma_2^2\))。

2.2 方差未知但相等的小独立样本(合并 t 检验)

这是最棘手的情况。如果样本量较小(\(n < 30\)),总体方差未知,且我们假设两个总体具有相同的方差(\(\sigma_1^2 = \sigma_2^2\)),则必须使用合并 t 检验(Pooled t-test)

为什么要“合并”?

既然我们假设 \(\sigma_1^2 = \sigma_2^2\),那么整合来自两个样本的信息来获得对这个共同方差更好的估计就是合理的。这个组合估计量被称为方差的合并估计量(Pooled estimate of variance),记作 \(S_p^2\)。

合并方差的公式为: $$ S_p^2 = \frac{(n_1 - 1) S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2} $$

由此得到的 t 检验统计量为: $$ T = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}} $$

该检验的自由度(Degrees of Freedom, \(v\))为 \(n_1 + n_2 - 2\)。

常见错误:当样本较小且假设方差相等时,学生常忘记使用合并方差。请留意题目中的关键词,如“assume population variances are the same”(假设总体方差相等)。

2.3 配对样本(非独立数据)

如果数据点是配对的(即它们是相关的,例如“节食前的体重”和“节食后的体重”),那么这两个样本就不是独立的

在这种情况下,我们不直接比较均值。相反,我们计算每对数据之间的差值(D),并检验差值的均值(\(\mu_D\))是否为零。

  • \(H_0: \mu_D = 0\)
  • 我们对差值数据 \(D\) 使用标准的单样本 t 检验公式。
  • \(T = \frac{\bar{D} - \mu_D}{S_D / \sqrt{n}}\)
  • 自由度:\(n - 1\)(其中 \(n\) 是配对的数量)。

类比:想象测试两种轮胎。如果你把 A 型胎装在一辆车上,把 B 型胎装在另一辆不同的车上,它们是独立的。如果你把 A 型胎装在 10 辆车的左侧,B 型胎装在同样的 10 辆车的右侧,它们就是配对的——因为车辆本身的差异被抵消了。


3. 方差检验:\(\chi^2\) 和 F 分布

有时,总体内部的变异性(方差)与均值一样重要。例如,质量控制团队需要确保制造零件的尺寸波动不会太大。

3.1 单个方差(\(\sigma^2\))的检验

要检验单个总体方差(\(\sigma^2\))是否等于某个特定值(\(\sigma_0^2\)),我们使用卡方分布(Chi-Squared distribution, \(\chi^2\))

你知道吗?

使用 \(\chi^2\) 分布是因为方差(标准差的平方)不可能是负数。与正态分布不同,由此产生的分布是偏态的。

检验统计量为: $$ \chi^2 = \frac{(n-1) S^2}{\sigma^2} $$

  • \(S^2\) 是样本方差。
  • \(\sigma^2\) 是假设的总体方差(在 \(H_0\) 下)。
  • 自由度(\(v\))为 \(n-1\)。

我们将计算出的 \(\chi^2\) 值与 \(\chi^2\) 表中的临界值进行比较。由于该分布是非对称的,对于双尾检验,你必须检查两侧的尾部。

3.2 两个方差比的检验(F 检验)

如果你需要比较两个独立正态总体的方差(\(\sigma_1^2\) 与 \(\sigma_2^2\)),请使用 F 分布

此检验通常作为进行合并 t 检验(第 2.2 节)之前的初步检查。

\(H_0: \sigma_1^2 = \sigma_2^2\)(比值为 1)

检验统计量为: $$ F = \frac{S_1^2}{S_2^2} $$

  • 惯例:进行 F 检验时,通常的做法是将较大的样本方差(\(S^2\))置于分子位置。这保证了 \(F \ge 1\)。
  • 这将检验转化为单尾检验(因为我们只检查 F 分布的右尾)。
  • F 分布有两组自由度:\(v_1\)(分子)和 \(v_2\)(分母)。如果 \(S_1^2\) 在上方,则 \(v_1 = n_1 - 1\),\(v_2 = n_2 - 1\)。

快速回顾:

  • 检验“单个”方差:使用 \(\chi^2\)(自由度 \(df = n-1\))。
  • 检验“两个”方差的比值:使用 F(自由度 \(df = n_1-1, n_2-1\))。


4. 用于分类数据和拟合优度的 \(\chi^2\) 检验

\(\chi^2\) 统计量也广泛应用于非数值型的分类数据,或者当我们想查看观测数据是否符合某种已知的概率分布时。

4.1 拟合优度检验(Goodness of Fit, GoF)

拟合优度检验用于检查样本的观测频数(\(O_i\))是否与源自特定理论分布(如均匀分布、泊松分布、正态分布)的期望频数(\(E_i\))相吻合。

检验统计量衡量的是差异程度: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

拟合优度检验的关键准则:
  1. 期望频数(\(E_i\)):标准做法是所有期望频数 \(E_i\) 必须大于 5
  2. 合并(Pooling):如果某个 \(E_i\) 的值小于或等于 5,你必须将该类别与相邻类别进行合并,直到合并后的期望频数大于 5。
  3. 自由度(\(v\)):\(v = (\text{合并后的类别数}) - 1 - (\text{待估计的参数个数})\)。
    示例:如果检验泊松分布,你需要从数据中估计均值(\(\lambda\)),所以 \(p=1\)。如果检验正态分布,你需要估计均值(\(\mu\))和标准差(\(\sigma\)),所以 \(p=2\)。如果没有参数需要估计(例如均匀分布),则 \(p=0\)。

类比:你正在将你亲手烤的蛋糕(观测值)与食谱上的图片(期望值)进行对比。\(\chi^2\) 值告诉你你的蛋糕与理想状态偏差有多大。

4.2 列联表(独立性检验)

此检验用于判断从同一总体中收集的两种不同分类(变量)之间是否存在关联。

  • \(H_0\):两个分类是独立的。
  • \(H_1\):两个分类是相关的(非独立)。

\(\chi^2\) 检验统计量公式保持不变: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

如何计算 \(E_i\): $$ E_{i} = \frac{(\text{行总计}) \times (\text{列总计})}{\text{总合计}} $$

对于 \(R\) 行 \(C\) 列的列联表,自由度(\(v\))为: $$ v = (R - 1)(C - 1) $$

4.3 \(2 \times 2\) 表的耶茨修正(Yates' Correction)

处理小型列联表(\(2 \times 2\) 表,1 个自由度)时,连续的 \(\chi^2\) 分布只是离散数据的一个非常粗糙的近似。为了提高近似的准确性,我们使用耶茨连续性修正(Yates' correction for continuity)

该修正方法在平方之前,将观测频数与期望频数之间的差值减小了 0.5: $$ \chi_{\text{corrected}}^2 = \sum \frac{(|O_i - E_i| - 0.5)^2}{E_i} $$

记住:仅在处理 \(2 \times 2\) 表时使用耶茨修正,并且要牢记 \(E_i > 5\) 的准则依然适用。


🧠 高等假设检验的核心要点总结

  • 功效(1 - \(\beta\)):检测到真实效应的概率。计算方法是先在 \(H_0\) 下找到非拒绝域,然后检查在 \(H_1\) 下落在该区域内的概率。
  • 比较均值:使用 Z(大样本/方差已知)、使用合并(pooling)的 t 检验(小样本,方差未知但假设相等),或对差值进行 t 检验(配对样本)。
  • 检验方差 \(\sigma^2\):单个方差使用 \(\chi^2\),两个方差的比值使用 F。对于 F 检验,务必将较大的 \(S^2\) 置于分子位置。
  • 分类数据的 \(\chi^2\) 检验:用于拟合优度(GoF)或独立性检验(列联表)。
    • 确保所有期望频数 \(E_i > 5\)(必要时合并类别)。
    • 在 GoF 检验中,记得根据估计的参数调整自由度。
    • 对 \(2 \times 2\) 列联表使用耶茨修正