列联表简介

欢迎!在本章中,我们将探讨统计学家如何判断两个不同的分类变量 (categorical variables) 之间是否存在关联。例如:一个人的运动习惯与其偏好的球鞋品牌之间是否有关联?或者,你居住的地区会影响你的政党倾向吗?

在 Paper 2 中,你的重点是统计推断 (Statistical Inference)。这意味着我们利用样本数据来对整个总体做出“最佳猜测”或推断。列联表 (contingency tables) 是达成此目的的强大工具,因为它们让我们能够测试独立性 (independence)——即检查一件事的发生是否完全与另一件事无关。

如果现在觉得这些概念有点抽象,别担心!我们将把它拆解成简单的步骤,让你每次都能轻松上手!

1. 什么是列联表?

列联表(有时称为交叉表,two-way table)只是一个用来总结两个分类变量之间关系的表格。其中一个变量显示在行 (rows) 中,另一个则显示在列 (columns) 中。

例子:一项调查访问了 100 名学生,询问他们偏好茶还是咖啡,以及他们是 12 年级还是 13 年级。

观测频数 (Observed Frequencies, O): 这些是你从研究中收集到的实际数据。你可能会看到像这样的表格:

- 12 年级:20 人选茶,30 人选咖啡(总计 = 50)
- 13 年级:25 人选茶,25 人选咖啡(总计 = 50)
- 列总计:45 人选茶,55 人选咖啡
- 总计 (Grand Total, N): 100

重点总结

列联表将数据的原始计数 (raw counts) 整理成行与列,让我们能观察两个类别之间的规律。

2. 卡方 (\(\chi^2\)) 独立性检验

为了判定两个变量是否真的相关,我们执行卡方 (\(\chi^2\)) 检验。我们测试的对象是零假设 (Null Hypothesis, \(H_0\))

假设:
\(H_0\): 两个变量是独立的(没有关联)。
\(H_1\): 两个变量是不独立的(有关联/链接)。

逐步教学:寻找期望频数 (E)

为了观察变量是否独立,我们计算如果它们之间完全没有链接,表格“应该”呈现的样子。这些值我们称为期望频数 (Expected Frequencies)

表格中每个单元格的计算公式为:
\(E = \frac{\text{行总计} \times \text{列总计}}{\text{总计}}\)

快速回顾:
O = 观测值 (Observed,你手头上的真实数据)
E = 期望值 (Expected,你计算出的“完全独立”模型数据)

逐步教学:检验统计量

一旦你为每个单元格算出 OE 值,就可以使用以下公式计算 \(\chi^2\) 检验统计量:
\(\chi^2 = \sum \frac{(O - E)^2}{E}\)

这样想:我们是在衡量现实 (O) 与独立模型 (E) 之间的“差距”。\(\chi^2\) 值越大,变量不独立的可能性就越高。

重点总结

卡方检验比较了我们观察到的数据与如果两个变量毫无关联时我们期望看到的数据。

3. 自由度 (\(df\))

要在统计表中找到临界值 (critical value),你需要知道自由度 (Degrees of Freedom)。这告诉我们数据有多少程度的“变动空间”。

对于列联表,公式很简单:
\(df = (\text{行数} - 1) \times (\text{列数} - 1)\)

常见错误: 计算行数和列数时,切记不要把“总计”那一行或那一列算进去!

例子:在一个 \(3 \times 2\) 的表格中(3 行,2 列):
\(df = (3 - 1) \times (2 - 1) = 2 \times 1 = 2\)

4. 重要规则:“5 的规则”与合并组别

卡方检验是一种近似值。为了准确起见,期望频数 (E) 必须足够大。Pearson Edexcel 课程大纲要求所有期望频数必须大于或等于 5

如果期望频数小于 5 怎么办?

如果你计算出的 \(E\) 值小于 5,你必须合并 (pool) 行或列。这意味着你需要将两个相似的类别合并,以产生一个更大的组别。

例子:如果你正在测试“冰淇淋口味”,而“薄荷味”的期望频数是 3,你可以将“薄荷”与“巧克力”类别合并为“薄荷与巧克力”类,从而使频数大于 5。

你知道吗?
在考试中,你不需要使用耶茨修正法 (Yates' Correction)。即使你在旧教材或网络上看到它,对于 9ST0 课程规范来说,直接忽略它即可!只需使用标准的 \(\chi^2\) 公式。

重点总结

务必先检查你的期望频数。如果任何数值小于 5 (\( < 5 \)),你必须合并类别,直到所有数值皆为 5 或以上。

5. 解读结果

计算出 \(\chi^2\) 检验统计量并找到临界值(使用你的 \(df\) 和显著性水平,通常为 5%)后:

1. 如果计算出的 \(\chi^2\) > 临界值:拒绝 \(H_0\)。这代表有证据显示两者有关联。
2. 如果计算出的 \(\chi^2\) < 临界值:接受 \(H_0\)(无法拒绝 \(H_0\))。这代表没有证据显示两者有关联。

记得:一定要根据题目背景写出你的最终结论!不要只写“拒绝 \(H_0\)”,要说“有证据表明 [变量 A] 与 [变量 B] 之间存在关联。”

考试摘要清单

- [ ] 清晰地陈述你的假设(\(H_0\) 永远是“独立”)。
- [ ] 构建表格,并使用 \(\frac{RT \times CT}{GT}\) 计算期望频数
- [ ] 检查“5 的规则”:如果有任何 \(E < 5\),请合并类别。
- [ ] 使用 \(\sum \frac{(O - E)^2}{E}\) 计算 \(\chi^2\) 检验统计量。
- [ ] 确定自由度:\((r-1)(c-1)\)。
- [ ] 将结果与临界值进行比较,并在背景情境中给出结论。

专家提示:如果你必须合并行或列,请记住你的自由度会因为行数或列数的减少而随之改变!