Chi squared tests for association

欢迎来到卡方 (\(\chi^2\)) 关联性检验！

你有没有想过两件事之间是否存在真正的关联？例如，你选择最喜欢的运动是否与你的年龄层有关？又或者，人们听的音乐类型与他们居住的地方有关吗？在统计学中，我们不只是“猜测”是否存在联系；我们会使用一种称为卡方关联性检验 (Chi-Squared Test for Association) 的数学工具来进行验证！

在本章中，你将学习如何处理原始数据、整理数据，并计算一个“分数”来判定两个变量是否独立，或是它们之间是否存在显著的“关联”（这是指关联性的专业用语）。别担心，如果起初觉得有点复杂——我们会一步步带你掌握！

1. 准备工作：列联表 (Contingency Tables)

在进行任何数学计算之前，我们需要先整理数据。我们使用 \(n \times m\) 列联表。这只是一个网格，行代表一个类别，列代表另一个类别。

例子： 想象我们询问了 100 名学生他们喜欢茶还是咖啡。同时，我们还记录了他们是中六还是中七的学生。

观察频数 (\(O_i\))： 这些是你从调查中收集到的实际数据。
• 第一行：中六学生
• 第二行：中七学生
• 第一列：喝茶的学生
• 第二列：喝咖啡的学生

表格的“大小”表示为（行数）\(\times\)（列数）。上面的例子是一个 \(2 \times 2\) 的表格。如果我们增加一行“中五”，它就会变成 \(3 \times 2\) 的表格。

快速复习：
在开始之前，请务必先计算行总计 (Row Totals)、列总计 (Column Totals) 和总计 (Grand Total)（所有数据的总和）。下一步你会用到这些数据！

2. “如果……会怎样？”情境：期望频数 (Expected Frequencies)

要了解是否存在联系，我们首先要想象，如果两者之间完全没有联系，数据应该长什么样子。我们称这些为期望频数 (\(E_i\))。

期望频数的黄金法则：
对于表格中的任何一个格子，计算方式为：
\(E = \frac{\text{行总计} \times \text{列总计}}{\text{总计}}\)

重要准则 (SE3)：
为了确保卡方检验的准确性，每一个期望频数 (\(E_i\)) 必须大于 5。
为什么呢？ 如果期望数值太小，检验会变得“不稳定”且不可靠。如果在现实问题中发现 \(E_i < 5\)，你可能需要合并行或列来增大样本组！

重点总结： \(O\) 是我们在现实中观察到 (Observed) 的结果；\(E\) 是如果两个变量毫无关联时，我们所期望 (Expected) 的结果。

3. 卡方统计量：衡量差距

现在我们要计算现实数据 (\(O\)) 与“无关联”数据 (\(E\)) 之间的差异。我们使用卡方 (\(\chi^2\)) 公式：

\(\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\)

计算 \(\chi^2\) 的分步指南：
1. 对于表格中的每个格子，用观察值减去期望值：\((O - E)\)。
2. 将该数值平方：\((O - E)^2\)。(这能确保负数不会抵消正数！)
3. 将该结果除以期望值：\(\frac{(O - E)^2}{E}\)。
4. 将所有这些数值相加 (\(\sum\))。最终的总和就是你的检验统计量。

记忆小撇步： 把 \(\chi^2\) 想成一个“差异探测器”。如果观察值非常接近期望值，\(\chi^2\) 会是一个很小的数字（意味着没有关联）。如果两者差异很大，\(\chi^2\) 会是一个很大的数字（意味着可能存在关联！）。

4. 自由度 (\(v\))

在我们查统计表以取得“分数”之前，我们需要知道自由度 (Degrees of Freedom)。这告诉我们数据有多少“变动空间”。

对于一个有 \(r\) 行和 \(c\) 列的列联表：
\(v = (r - 1) \times (c - 1)\)

例子： 在 \(3 \times 2\) 的表格中，自由度为 \((3 - 1) \times (2 - 1) = 2 \times 1 = 2\)。

常见错误： 在计算 \(r\) 和 \(c\) 时，请勿将“总计”行或列计算在内！只计算包含实际数据类别的行数和列数。

5. 下结论：假设与决策

每一个统计检验都需要一个起始假设，我们称之为假设 (Hypotheses)。

\(H_0\)（零假设）： 两个变量之间没有关联。（它们是独立的）。
\(H_1\)（备择假设）： 两个变量之间存在关联。

如何下结论：
1. 使用你的自由度 (\(v\)) 和显著性水平（通常为 5% 或 0.05）从 \(\chi^2\) 表中找到临界值 (Critical Value)。
2. 如果你的计算 \(\chi^2\) 值大于临界值，则拒绝 \(H_0\)。这表示有证据显示两者有关联！
3. 如果你的计算 \(\chi^2\) 值小于临界值，则未能拒绝 \(H_0\)。这表示没有足够的证据证明关联存在。

6. 识别关联来源 (SE4)

有时，检验结果告诉我们“存在”关联，但没告诉我们关联“在哪里”。为了找出“关联来源”，我们回头检查每个格子对应的个别 \(\frac{(O - E)^2}{E}\) 值。

寻找最大的数值： 对最终 \(\chi^2\) 总和贡献最大的那个格子，就是关联的主要来源。这正是“观察值”与“期望值”差异最极端的所在。

解释范例： “关联的主要来源是中七学生喝的咖啡比预期多得多。”这为你的数学答案增加了背景信息，对于在考试题目中拿满分至关重要！

快速总结清单

• 整理： 建立列联表并计算总计。
• 假设： 说明 \(H_0\)（无关联）和 \(H_1\)（存在关联）。
• 期望： 计算 \(E = \frac{\text{行总计} \times \text{列总计}}{\text{总计}}\)。确保所有 \(E > 5\)。
• 计算： 使用 \(\sum \frac{(O - E)^2}{E}\) 找出 \(\chi^2\)。
• 自由度： 使用 \(v = (r-1)(c-1)\)。
• 比较： 将你的数值与表中的临界值进行比较。
• 识别： 如果存在关联，找出对 \(\chi^2\) 分数贡献最大的格子。

别担心，如果这看起来步骤很多！稍微练习一下，计算表格就会变得轻而易举。记住：你只是在衡量“现实”与“随机概率”相差有多大。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。