欢迎来到卡方 (\(\chi^2\)) 关联性检验!

你有没有想过两件事之间是否存在真正的关联?例如,你选择最喜欢的运动是否与你的年龄层有关?又或者,人们听的音乐类型与他们居住的地方有关吗?在统计学中,我们不只是“猜测”是否存在联系;我们会使用一种称为卡方关联性检验 (Chi-Squared Test for Association) 的数学工具来进行验证!

在本章中,你将学习如何处理原始数据、整理数据,并计算一个“分数”来判定两个变量是否独立,或是它们之间是否存在显著的“关联”(这是指关联性的专业用语)。别担心,如果起初觉得有点复杂——我们会一步步带你掌握!


1. 准备工作:列联表 (Contingency Tables)

在进行任何数学计算之前,我们需要先整理数据。我们使用 \(n \times m\) 列联表。这只是一个网格,行代表一个类别,列代表另一个类别。

例子: 想象我们询问了 100 名学生他们喜欢茶还是咖啡。同时,我们还记录了他们是中六还是中七的学生。

观察频数 (\(O_i\)): 这些是你从调查中收集到的实际数据。
• 第一行:中六学生
• 第二行:中七学生
• 第一列:喝茶的学生
• 第二列:喝咖啡的学生

表格的“大小”表示为(行数)\(\times\)(列数)。上面的例子是一个 \(2 \times 2\) 的表格。如果我们增加一行“中五”,它就会变成 \(3 \times 2\) 的表格。

快速复习:
在开始之前,请务必先计算行总计 (Row Totals)列总计 (Column Totals)总计 (Grand Total)(所有数据的总和)。下一步你会用到这些数据!


2. “如果……会怎样?”情境:期望频数 (Expected Frequencies)

要了解是否存在联系,我们首先要想象,如果两者之间完全没有联系,数据应该长什么样子。我们称这些为期望频数 (\(E_i\))

期望频数的黄金法则:
对于表格中的任何一个格子,计算方式为:
\(E = \frac{\text{行总计} \times \text{列总计}}{\text{总计}}\)

重要准则 (SE3):
为了确保卡方检验的准确性,每一个期望频数 (\(E_i\)) 必须大于 5
为什么呢? 如果期望数值太小,检验会变得“不稳定”且不可靠。如果在现实问题中发现 \(E_i < 5\),你可能需要合并行或列来增大样本组!

重点总结: \(O\) 是我们在现实中观察到 (Observed) 的结果;\(E\) 是如果两个变量毫无关联时,我们所期望 (Expected) 的结果。


3. 卡方统计量:衡量差距

现在我们要计算现实数据 (\(O\)) 与“无关联”数据 (\(E\)) 之间的差异。我们使用卡方 (\(\chi^2\)) 公式

\(\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\)

计算 \(\chi^2\) 的分步指南:
1. 对于表格中的每个格子,用观察值减去期望值:\((O - E)\)。
2. 将该数值平方:\((O - E)^2\)。(这能确保负数不会抵消正数!)
3. 将该结果除以期望值:\(\frac{(O - E)^2}{E}\)。
4. 将所有这些数值相加 (\(\sum\))。最终的总和就是你的检验统计量

记忆小撇步: 把 \(\chi^2\) 想成一个“差异探测器”。如果观察值非常接近期望值,\(\chi^2\) 会是一个很小的数字(意味着没有关联)。如果两者差异很大,\(\chi^2\) 会是一个很大的数字(意味着可能存在关联!)。


4. 自由度 (\(v\))

在我们查统计表以取得“分数”之前,我们需要知道自由度 (Degrees of Freedom)。这告诉我们数据有多少“变动空间”。

对于一个有 \(r\) 行和 \(c\) 列的列联表:
\(v = (r - 1) \times (c - 1)\)

例子: 在 \(3 \times 2\) 的表格中,自由度为 \((3 - 1) \times (2 - 1) = 2 \times 1 = 2\)。

常见错误: 在计算 \(r\) 和 \(c\) 时,请勿将“总计”行或列计算在内!只计算包含实际数据类别的行数和列数。


5. 下结论:假设与决策

每一个统计检验都需要一个起始假设,我们称之为假设 (Hypotheses)

\(H_0\)(零假设): 两个变量之间没有关联。(它们是独立的)。
\(H_1\)(备择假设): 两个变量之间存在关联

如何下结论:
1. 使用你的自由度 (\(v\)) 和显著性水平(通常为 5% 或 0.05)从 \(\chi^2\) 表中找到临界值 (Critical Value)
2. 如果你的计算 \(\chi^2\) 值大于临界值,则拒绝 \(H_0\)。这表示有证据显示两者有关联!
3. 如果你的计算 \(\chi^2\) 值小于临界值,则未能拒绝 \(H_0\)。这表示没有足够的证据证明关联存在。


6. 识别关联来源 (SE4)

有时,检验结果告诉我们“存在”关联,但没告诉我们关联“在哪里”。为了找出“关联来源”,我们回头检查每个格子对应的个别 \(\frac{(O - E)^2}{E}\) 值。

寻找最大的数值: 对最终 \(\chi^2\) 总和贡献最大的那个格子,就是关联的主要来源。这正是“观察值”与“期望值”差异最极端的所在。

解释范例: “关联的主要来源是中七学生喝的咖啡比预期多得多。”这为你的数学答案增加了背景信息,对于在考试题目中拿满分至关重要!


快速总结清单

整理: 建立列联表并计算总计。
假设: 说明 \(H_0\)(无关联)和 \(H_1\)(存在关联)。
期望: 计算 \(E = \frac{\text{行总计} \times \text{列总计}}{\text{总计}}\)。确保所有 \(E > 5\)。
计算: 使用 \(\sum \frac{(O - E)^2}{E}\) 找出 \(\chi^2\)。
自由度: 使用 \(v = (r-1)(c-1)\)。
比较: 将你的数值与表中的临界值进行比较。
识别: 如果存在关联,找出对 \(\chi^2\) 分数贡献最大的格子。

别担心,如果这看起来步骤很多!稍微练习一下,计算表格就会变得轻而易举。记住:你只是在衡量“现实”与“随机概率”相差有多大。