卡方 (\(\chi^2\)) 检验简介
欢迎来到统计学中最实用的章节之一!你有没有想过,你掷骰子时的“运气”会不会是因为骰子本身不均匀?或者人们听的音乐是否真的与他们的年龄有关?卡方 (\(\chi^2\)) 检验就是数学家用来回答这类“预期与现实”问题的工具。
在本章中,我们将学习如何测量我们实际观察到的数据(Observed)与我们预期会看到的数据(Expected)之间的差异。如果差异很大,那就说明背后有一些值得探究的现象!
1. 核心公式:衡量差距
每一个卡方检验都使用同一个基本引擎来计算统计量。不用担心它看起来很吓人;它其实只是衡量我们的预期与实际情况有多大“出入”的一种方法。
\(\chi^2_{calc} = \sum \frac{(O - E)^2}{E}\)
其中:
\(O\) = 观察频数(你收集到的真实数据)。
\(E\) = 期望频数(如果你的理论正确,数据理应呈现的样子)。
生活化类比:
想象你预期一天会收到 10 条信息 (\(E=10\)),但某天你收到了 15 条 (\(O=15\))。“差距”是 5。我们将该差距平方 (\(5^2 = 25\)),这样负数差距就不会抵消正数差距,然后除以原本的期望值,以了解该差距相对于总体而言有多显著。
快速回顾:
- \(\chi^2\) 值较大 = 数据与理论之间存在巨大差异。
- \(\chi^2\) 值较小 = 数据与理论非常吻合。
2. 卡方关联性检验(列联表)
当你拥有类别数据并想知道两个因素是否独立时,就会用到这个检验。例如:“数学成绩”与“是否吃早餐”之间是否独立?
假设
\(H_0\):这两个因素之间没有关联(它们是独立的)。
\(H_1\):这两个因素之间有关联(它们是相关的)。
计算期望频数 (\(E\))
针对表格中的每个格子,计算:
\(E = \frac{\text{列总计} \times \text{行总计}}{\text{总计}}\)
自由度 (\(df\))
“自由度”告诉我们,在总计数值的限制下,表格中有多少个格子是可以“自由变动”的。
公式: \(df = (r - 1)(c - 1)\)
(其中 \(r\) 为列数,\(c\) 为行数)
常见错误:
计算 \(df\) 时,请勿将“总计”这一行或一列计算在内!只计算类别本身。
重点总结:
如果你的计算所得 \(\chi^2\) 大于查表所得的临界值,你就要拒绝 \(H_0\),并得出结论认为两者之间存在关联。
3. 卡方拟合优度检验
此检验用于检查某个特定的数学模型(例如均匀分布、二项分布或泊松分布)是否真的适合你的实际数据。
假设
\(H_0\):数据符合该模型(例如:泊松分布是一个合适的模型)。
\(H_1\):数据不符合该模型。
黄金法则:较小的期望频数
如果期望频数 (\(E\)) 太小,卡方检验的可靠性会降低。
法则: 如果任何一个 \(E < 5\),你必须将该格与相邻的格子合并(观察值也需做同样处理)。
别担心,记住这句口诀:“若低于五,合并求生!”
计算模型的自由度 (\(df\))
这与列联表略有不同:
\(df = (\text{合并后的格子数量}) - 1 - (\text{从数据中估计出的参数数量})\)
估计的参数:
- 均匀分布: 通常估计 0 个参数。
- 泊松分布: 如果你从数据中计算平均值,则有 1 个参数 (\(\lambda\))。
- 二项分布: 如果你从数据中计算概率,则有 1 个参数 (\(p\))。
你知道吗?
卡方分布总是正数且向右偏态。随着自由度增加,其图形会变得越来越像正态分布曲线!
4. 解读结果
得到 \(\chi^2_{calc}\) 后,有两种方法可以做出决定:
方法 A:使用临界值表
1. 选择显著性水平(通常为 5%)。
2. 使用你的 \(df\) 在公式手册中查出临界值。
3. 如果 \(\chi^2_{calc} > \text{临界值}\),则结果具有显著性。拒绝 \(H_0\)。
方法 B:使用 p 值(软件输出)
如果你使用计算器或电脑,它可能会给你一个 p 值。
- 如果 \(p < \text{显著性水平}\):拒绝 \(H_0\)。
- 如果 \(p > \text{显著性水平}\):无法拒绝 \(H_0\)。
记忆口诀:
“P 值低,\(H_0\) 去;P 值高,\(H_0\) 留。”
5. 最后检查清单
处理卡方考题时,请遵循以下步骤:
1. 清晰陈述假设(\(H_0\) 永远是“无变化”或“独立”的一方)。
2. 为每个类别计算期望值 (\(E\))。
3. 检查 \(E \ge 5\) 规则。必要时合并格子!
4. 使用公式 \(\sum \frac{(O - E)^2}{E}\) 找出统计量。
5. 根据检验类型确定 \(df\)。
6. 将结果与临界值比较,并在题目语境中做出结论(例如:“有充分证据表明……”)。
快速复习盒:
- 列联表 \(df\): \((r-1)(c-1)\)。
- 期望值: 必须 \(\ge 5\)。
- 结论: 务必回到题目本身的内容进行作答!