欢迎来到 $\chi^2$ 检验:成为一名数据侦探!

欢迎来到“进阶统计学”中最实用且最迷人的章节之一!卡方检验($\chi^2$-test)是你的得力工具,它可以帮助你判断现实中观察到的数据是否符合理论预期,或者两个特征(例如性别与喜欢的运动)之间是否有关联。
如果刚开始觉得有点棘手,别担心。只要将其拆解成清晰的逻辑步骤,就会变得简单易懂。学完这一章,你将能够通过统计检验来判定你对数据的假设是否合理!

在本考纲中,$\chi^2$ 检验主要分为两大类:
1. 拟合优度检验 (Goodness of Fit, GOF):一个理论分布(如泊松分布或二项分布)是否准确地描述了观察到的数据?
2. 独立性检验 (Test for Independence):两个分类变量之间是否相关,还是彼此独立?(这通常需要使用列联表/联立表)。

1. 基础知识:$\chi^2$ 检验统计量

1.1 什么是 $\chi^2$ 统计量?

$\chi^2$ 检验统计量是一个单一数值,用来衡量你的观察频数(\(O\))与期望频数(\(E\))之间的差异程度。

类比: 假设你预期有 50 人穿红色,50 人穿蓝色。如果你实际观察到 60 人穿红色,40 人穿蓝色,$\chi^2$ 统计量就能量化这种“10/10 的偏差”到底有多严重。

1.2 计算公式

计算方法是对每一个类别或单元格,求观察频数与期望频数之差的平方,再除以期望频数,最后将这些结果求和:

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

  • \(\chi^2\):计算出的卡方统计量。
  • \(O_i\):类别 $i$ 的观察频数(实验中的实际计数)。
  • \(E_i\):类别 $i$ 的期望频数(基于零假设 \(H_0\) 的理论预测值)。

核心要点:
$\chi^2$ 的值越大,说明观察值与期望值之间的差异就越大。这意味着推翻零假设(\(H_0\))的证据越充分。

2. 拟合优度检验 (GOF)

拟合优度检验用于检查一组观察数据是否服从某种假设的理论分布(如均匀分布、二项分布或泊松分布)。

2.1 GOF 检验的步骤

第一步:提出假设

$\chi^2$ 检验始终是单侧检验(因为较大的数值代表差异越大)。

  • 零假设 (\(H_0\)):数据符合指定的分布。(例如:\(H_0\):数据服从泊松分布。
  • 备择假设 (\(H_1\)):数据不符合指定的分布。(例如:\(H_1\):数据不服从泊松分布。
第二步:计算期望频数 (\(E_i\))

完全基于 \(H_0\),你需要计算出每个类别的期望计数。

示例: 如果 \(H_0\) 指出数据在 5 个类别中呈均匀分布,且总观测值为 100,那么每个类别的 \(E_i = 100 / 5 = 20\)。

如果是拟合泊松/二项分布: 你需要利用 \(H_0\) 中指定分布的理论概率 \(P(X=x)\),然后 \(E_i = N \times P(X=x)\),其中 \(N\) 是总观测数。

第三步:检查期望频数规则(黄金准则)

重要要求: 为了确保 $\chi^2$ 检验有效,每个期望频数 \((E_i)\) 都必须至少为 5

如果你发现某个期望频数小于 5,必须将该组(及其对应的观察频数)与相邻的组合并。这通常在分布的两端(数值极小或极大的类别)进行。

你知道吗?这条规则的存在是因为 $\chi^2$ 检验背后的数学原理依赖于一种近似法,如果期望计数过低,这种近似就会失效。
第四步:计算检验统计量 \(\chi^2\)

如有必要,使用合并后的新类别数据代入公式计算。

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

第五步:确定自由度 (\(\nu\))

这是 GOF 检验中最容易出错的部分。自由度 \(\nu\) 表示在满足约束条件后,有多少个类别可以“自由变动”。

$$ \nu = (\text{最终类别数}) - 1 - (\text{估计的参数个数}) $$

  • 减 1 是因为总频数 (\(N\)) 是固定的,这限制了最后一个类别的取值。
  • 如果你必须从数据本身估计某个参数(例如泊松分布的 \(\lambda\) 或二项分布的 \(p\))来计算 \(E_i\),则每估计一个参数就要多减 1。

示例:

  • 如果检验均匀分布(无参数估计):\(\nu = (\text{类别数}) - 1\)。
  • 如果检验泊松分布,且从数据中估计了均值 \(\lambda\):\(\nu = (\text{类别数}) - 1 - 1\)。
  • 如果检验正态分布,且从数据中估计了均值 \(\mu\) 和方差 \(\sigma^2\):\(\nu = (\text{类别数}) - 1 - 2\)。

快速回顾:GOF 中的自由度

助记口诀: 记作 C 减 C 减 P。
\(\nu = \mathbf{C}\)ategories(最终类别数) - \(\mathbf{C}\)onstraint(约束,总是 1) - \(\mathbf{P}\)arameters estimated(估计的参数个数)。

3. 独立性检验(列联表)

当你有两个分类变量,并想知道了解其中一个变量是否有助于预测另一个变量时,就会用到独立性检验。数据通常呈现在一个矩形表格中,称为列联表

3.1 独立性检验的步骤

第一步:提出假设

该检验用于考查变量 A 和 B 之间的关系。

  • 零假设 (\(H_0\)):两个变量独立(没有关联)。
  • 备择假设 (\(H_1\)):两个变量不独立(有关联/存在关系)。

示例:\(H_0\):性别与偏好的交通工具类型相互独立。

第二步:计算每个单元格的期望频数

如果事件 A 和 B 独立,则 \(P(A \cap B) = P(A) \times P(B)\)。我们在计算频数时也使用这一逻辑。

表格中任意单元格的期望频数 (\(E\)) 计算公式为:

$$ E = \frac{(\text{行总计}) \times (\text{列总计})}{\text{总合计}} $$

再次检查期望频数规则: 与 GOF 一样,每个单元格的期望频数 (\(E_i\)) 必须至少为 5。如果有任何单元格的 \(E_i < 5\),则必须合并相应的行或列,直到满足约束条件。

第三步:计算检验统计量 \(\chi^2\)

计算方法与之前完全相同,对列联表中的所有最终单元格进行求和。

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

第四步:确定自由度 (\(\nu\))

对于 \(r\) 行 \(c\) 列的列联表,自由度的计算非常简单:

$$ \nu = (r-1)(c-1) $$

注意:这里的 \(r\) 和 \(c\) 是为了满足 \(E_i \ge 5\) 规则而进行合并后的最终行数和列数。

示例: 如果你有一个 3x4 的表格(3 行 4 列):\(\nu = (3-1)(4-1) = 2 \times 3 = 6\)。

核心要点:
独立性检验的自由度等于(行数减 1)乘以(列数减 1):\((r-1)(c-1)\)。

4. 作出决策(解释结果)

一旦得到了计算出的 \(\chi^2\) 统计量和自由度 \(\nu\),你就可以在 \(\chi^2\) 分布临界值表(位于 MF19 中)中查找临界值。

4.1 临界值与显著性水平

将你计算出的 \(\chi^2\) 值与所选显著性水平 (\(\alpha\)) 和特定自由度 (\(\nu\)) 下的临界值 \(k\) 进行比较。记住,由于我们只关心差异是否巨大,\(\chi^2\) 检验永远是单侧的。

例如,若要在 5% 的显著性水平下进行检验,你需要在表中查找 \(p=0.95\) 的列。

4.2 拒绝规则

\(\chi^2\) 分布是向右倾斜的,拒绝域始终在右侧尾部。

  • 如果 计算出的 \(\chi^2\) \(\le\) 临界值:我们不拒绝 \(H_0\)
    结论: 没有足够的证据表明数据不符合模型(GOF),或变量之间存在关联(独立性)。
  • 如果 计算出的 \(\chi^2\) \(>\) 临界值:我们拒绝 \(H_0\)
    结论: 在 \(\alpha\%\) 的显著性水平下,有充分的证据得出结论:数据不符合拟定分布,或者变量之间不独立。

你知道吗?“Chi-squared”一词来源于希腊字母 \(\chi\)。\(\chi^2\) 分布本身是一种连续概率分布,尽管在这里我们用它来逼近测试数据中离散的频数。

4.3 常见错误提醒

  • 忘记 \(\nu\) 的约束: 务必检查是否需要减去估计的参数(GOF),或者是否用了错误的 \(r\) 和 \(c\)(独立性)。
  • 违反黄金准则: 忽略期望频数 (\(E_i\)) 必须 \(\ge 5\) 的要求将导致检验失效。请务必合并类别直至满足条件。
  • 过早比较 O 和 E: 检验统计量是使用*频数*(\(O\) 和 \(E\))而非*概率*计算的。确保所有期望值都已经转化为了计数。

本章小结:\(\chi^2\) 核心要素

计算公式(永远通用):

$$ \chi^2 = \sum \frac{(O - E)^2}{E} $$

黄金准则(必查):

期望频数 \(E\) 必须 \(\ge 5\)。如果不是,合并类别/单元格。

自由度 (\(\nu\)):
  • GOF: \(\nu = (\text{类别数}) - 1 - (\text{估计的参数个数})\)
  • 独立性: \(\nu = (r-1)(c-1)\)(\(r\) 为行数,\(c\) 为列数)
作出决策:

如果 计算出的 \(\chi^2\) \(>\) 临界值,则拒绝 \(H_0\)。说明观察到的数据与预期偏差过大。