卡方相关性检验简介
你好!欢迎来到统计学课程中最实用的一章。你有没有好奇过,两者之间是否存在真正的联系?例如:你最喜欢的音乐类型是否与你的年龄层有关?或者人们对早餐的选择是否取决于他们的工作?
在本章中,我们将学习卡方 (\(\chi^2\)) 相关性检验。这是一个非常出色的工具,能帮助我们判断两个类别变量是独立的(没有关联),还是存在相关性(彼此有联系)。如果一开始觉得有点复杂,别担心;我们会把它拆解成简单易懂的步骤!
你知道吗? 「卡方」(Chi-Squared)中的「Chi」是一个希腊字母,发音为 "Kai"(与 "sky" 押韵),而不是 "Chee"!
1. 场景设定:列联表 (Contingency Tables)
在进行任何计算之前,我们需要先整理数据。我们使用一种称为 \(n \times m\) 列联表的工具。
想象我们询问了 100 名学生关于他们最喜欢的运动和所属年级。表格看起来可能像这样:
示例表格:
12年级: 足球 (20), 网球 (10), 游泳 (5)
13年级: 足球 (15), 网球 (30), 游泳 (20)
在这种情况下,我们有 2 个行(12年级和13年级)和 3 个列(足球、网球、游泳)。我们称之为 \(2 \times 3\) 表格。
关键术语:
- 观测频数 (\(O_i\)): 这是我们从调查或实验中收集到的实际数据。
- 期望频数 (\(E_i\)): 这些是如果变量之间完全没有关联时,我们预期会看到的数据。
快速复习: \(n \times m\) 表格仅表示一个有 \(n\) 个行和 \(m\) 个列的表格。记得先点算你的行数和列数!
2. 「如果……会怎样」阶段:计算期望频数
为了看出是否存在相关性,我们首先要计算如果变量是独立的,表格会是什么样子。对于表格中的每一个格子,你需要使用以下简单的公式计算期望频数 (\(E_i\)):
\(E_i = \frac{\text{行总计} \times \text{列总计}}{\text{总计}}\)
必须记住的一条黄金法则!
为了使卡方检验有效,所有期望频数 (\(E_i\)) 必须大于 5。
如果你计算出的 \(E_i\) 小于或等于 5,你通常需要合并行或列,直到所有期望值都安全地大于 5 为止。
类比: 把这想象成一场派对。如果一个房间里的人少于 5 个,就太小了无法跳舞(检验将无法运作),所以你要把它与隔壁房间合并!
3. 卡方统计量 (\(\chi^2\))
现在我们要比较「现实」(观测值)与「理论」(期望值)。我们使用以下公式来找出检验统计量:
\(\chi^2_{calc} = \sum \frac{(O_i - E_i)^2}{E_i}\)
逐步操作流程:
- 对于每个格子,用观测值减去期望值 (\(O - E\))。
- 将该数字平方(这样可以消除恼人的负号!)。
- 将平方结果除以该格子的期望值。
- 将表格中所有格子的结果相加。
关键要点: 一个较大的 \(\chi^2\) 值表示现实与理论大相径庭,这意味着它们之间很可能存在相关性!
4. 自由度 (\(df\))
为了在统计表中查找「临界值」,我们需要知道自由度。这告诉我们数据有多少「调整空间」。对于一个 \(r \times c\) 表格(行 \(\times\) 列):
\(df = (r - 1) \times (c - 1)\)
例子: 在我们的 \(2 \times 3\) 运动表格中,\(df = (2 - 1) \times (3 - 1) = 1 \times 2 = 2\)。
5. 叶氏修正 (Yates’ Correction)(仅适用于 \(2 \times 2\) 表格)
有时,当我们处理较小的表格(特别是 \(2 \times 2\) 表格)时,标准公式可能会显得过于「宽松」。为了更准确,我们使用叶氏连续性修正 (Yates’ Continuity Correction)。
你仅在拥有 \(2 \times 2\) 列联表时才使用此方法。公式会略有改变:
\(\chi^2_{Yates} = \sum \frac{(|O_i - E_i| - 0.5)^2}{E_i}\)
\(|O_i - E_i|\) 的部分仅表示「取正差值」。然后在平方前减去 0.5。这会稍微「缩小」差异,使检验更趋于保守。
常见错误: 学生经常试图在 \(2 \times 3\) 或 \(3 \times 3\) 的表格上使用叶氏修正。千万别这样做! 它严格适用于 \(2 \times 2\) 表格。
6. 识别相关性的来源
如果你的检验得出结论认为确实存在相关性,考官可能会问:「这种相关性从何而来?」
要回答这个问题,请回过头查看你计算 \(\frac{(O_i - E_i)^2}{E_i}\) 的过程。贡献最大(数值最大)的那个格子,就是现实与理论之间差异最大的地方。
例子: 如果「13年级学生」和「网球」这组数据对 \(\chi^2\) 总和有巨大的贡献,你应该说:「相关性的主要来源是 13 年级学生打网球的次数远多于(或远少于)预期。」
考试成功检查清单
- 假设: 务必列出 \(H_0\)(变量独立)和 \(H_1\)(变量相关)。
- 检查 \(E_i\): 所有期望值是否都 \( > 5\)?如果没有,请合并行/列。
- 叶氏修正?: 如果是 \(2 \times 2\) 表格,请使用修正公式。
- 自由度: 使用 \((r-1)(c-1)\)。
- 比较: 如果你的 \(\chi^2_{calc} > \text{临界值}\),则拒绝 \(H_0\)。
- 语境: 务必将最终结论写在原始问题的语境中(例如:「有证据显示年龄与运动选择之间存在相关性」)。
记忆小撇步: 如果 \(\chi^2\) 值高 (High),虚无假设就要走 (Go)!(即拒绝 \(H_0\))。