欢迎来到 $\chi^2$ 检验:成为一名数据侦探!
欢迎来到“进阶统计学”中最实用且最迷人的章节之一!卡方检验($\chi^2$-test)是你的得力工具,它可以帮助你判断现实中观察到的数据是否符合理论预期,或者两个特征(例如性别与喜欢的运动)之间是否有关联。
如果刚开始觉得有点棘手,别担心。只要将其拆解成清晰的逻辑步骤,就会变得简单易懂。学完这一章,你将能够通过统计检验来判定你对数据的假设是否合理!
在本考纲中,$\chi^2$ 检验主要分为两大类:
1. 拟合优度检验 (Goodness of Fit, GOF):一个理论分布(如泊松分布或二项分布)是否准确地描述了观察到的数据?
2. 独立性检验 (Test for Independence):两个分类变量之间是否相关,还是彼此独立?(这通常需要使用列联表/联立表)。
1. 基础知识:$\chi^2$ 检验统计量
1.1 什么是 $\chi^2$ 统计量?
$\chi^2$ 检验统计量是一个单一数值,用来衡量你的观察频数(\(O\))与期望频数(\(E\))之间的差异程度。
类比: 假设你预期有 50 人穿红色,50 人穿蓝色。如果你实际观察到 60 人穿红色,40 人穿蓝色,$\chi^2$ 统计量就能量化这种“10/10 的偏差”到底有多严重。
1.2 计算公式
计算方法是对每一个类别或单元格,求观察频数与期望频数之差的平方,再除以期望频数,最后将这些结果求和:
$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
- \(\chi^2\):计算出的卡方统计量。
- \(O_i\):类别 $i$ 的观察频数(实验中的实际计数)。
- \(E_i\):类别 $i$ 的期望频数(基于零假设 \(H_0\) 的理论预测值)。
核心要点:
$\chi^2$ 的值越大,说明观察值与期望值之间的差异就越大。这意味着推翻零假设(\(H_0\))的证据越充分。
2. 拟合优度检验 (GOF)
拟合优度检验用于检查一组观察数据是否服从某种假设的理论分布(如均匀分布、二项分布或泊松分布)。
2.1 GOF 检验的步骤
第一步:提出假设
$\chi^2$ 检验始终是单侧检验(因为较大的数值代表差异越大)。
- 零假设 (\(H_0\)):数据符合指定的分布。(例如:\(H_0\):数据服从泊松分布。)
- 备择假设 (\(H_1\)):数据不符合指定的分布。(例如:\(H_1\):数据不服从泊松分布。)
第二步:计算期望频数 (\(E_i\))
完全基于 \(H_0\),你需要计算出每个类别的期望计数。
示例: 如果 \(H_0\) 指出数据在 5 个类别中呈均匀分布,且总观测值为 100,那么每个类别的 \(E_i = 100 / 5 = 20\)。
如果是拟合泊松/二项分布: 你需要利用 \(H_0\) 中指定分布的理论概率 \(P(X=x)\),然后 \(E_i = N \times P(X=x)\),其中 \(N\) 是总观测数。
第三步:检查期望频数规则(黄金准则)
重要要求: 为了确保 $\chi^2$ 检验有效,每个期望频数 \((E_i)\) 都必须至少为 5。
如果你发现某个期望频数小于 5,必须将该组(及其对应的观察频数)与相邻的组合并。这通常在分布的两端(数值极小或极大的类别)进行。
你知道吗?这条规则的存在是因为 $\chi^2$ 检验背后的数学原理依赖于一种近似法,如果期望计数过低,这种近似就会失效。第四步:计算检验统计量 \(\chi^2\)
如有必要,使用合并后的新类别数据代入公式计算。
$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
第五步:确定自由度 (\(\nu\))
这是 GOF 检验中最容易出错的部分。自由度 \(\nu\) 表示在满足约束条件后,有多少个类别可以“自由变动”。
$$ \nu = (\text{最终类别数}) - 1 - (\text{估计的参数个数}) $$
- 减 1 是因为总频数 (\(N\)) 是固定的,这限制了最后一个类别的取值。
- 如果你必须从数据本身估计某个参数(例如泊松分布的 \(\lambda\) 或二项分布的 \(p\))来计算 \(E_i\),则每估计一个参数就要多减 1。
示例:
- 如果检验均匀分布(无参数估计):\(\nu = (\text{类别数}) - 1\)。
- 如果检验泊松分布,且从数据中估计了均值 \(\lambda\):\(\nu = (\text{类别数}) - 1 - 1\)。
- 如果检验正态分布,且从数据中估计了均值 \(\mu\) 和方差 \(\sigma^2\):\(\nu = (\text{类别数}) - 1 - 2\)。
助记口诀: 记作 C 减 C 减 P。
\(\nu = \mathbf{C}\)ategories(最终类别数) - \(\mathbf{C}\)onstraint(约束,总是 1) - \(\mathbf{P}\)arameters estimated(估计的参数个数)。
3. 独立性检验(列联表)
当你有两个分类变量,并想知道了解其中一个变量是否有助于预测另一个变量时,就会用到独立性检验。数据通常呈现在一个矩形表格中,称为列联表。
3.1 独立性检验的步骤
第一步:提出假设
该检验用于考查变量 A 和 B 之间的关系。
- 零假设 (\(H_0\)):两个变量独立(没有关联)。
- 备择假设 (\(H_1\)):两个变量不独立(有关联/存在关系)。
示例:\(H_0\):性别与偏好的交通工具类型相互独立。
第二步:计算每个单元格的期望频数
如果事件 A 和 B 独立,则 \(P(A \cap B) = P(A) \times P(B)\)。我们在计算频数时也使用这一逻辑。
表格中任意单元格的期望频数 (\(E\)) 计算公式为:
$$ E = \frac{(\text{行总计}) \times (\text{列总计})}{\text{总合计}} $$
再次检查期望频数规则: 与 GOF 一样,每个单元格的期望频数 (\(E_i\)) 必须至少为 5。如果有任何单元格的 \(E_i < 5\),则必须合并相应的行或列,直到满足约束条件。
第三步:计算检验统计量 \(\chi^2\)
计算方法与之前完全相同,对列联表中的所有最终单元格进行求和。
$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
第四步:确定自由度 (\(\nu\))
对于 \(r\) 行 \(c\) 列的列联表,自由度的计算非常简单:
$$ \nu = (r-1)(c-1) $$
注意:这里的 \(r\) 和 \(c\) 是为了满足 \(E_i \ge 5\) 规则而进行合并后的最终行数和列数。
示例: 如果你有一个 3x4 的表格(3 行 4 列):\(\nu = (3-1)(4-1) = 2 \times 3 = 6\)。
核心要点:
独立性检验的自由度等于(行数减 1)乘以(列数减 1):\((r-1)(c-1)\)。
4. 作出决策(解释结果)
一旦得到了计算出的 \(\chi^2\) 统计量和自由度 \(\nu\),你就可以在 \(\chi^2\) 分布临界值表(位于 MF19 中)中查找临界值。
4.1 临界值与显著性水平
将你计算出的 \(\chi^2\) 值与所选显著性水平 (\(\alpha\)) 和特定自由度 (\(\nu\)) 下的临界值 \(k\) 进行比较。记住,由于我们只关心差异是否巨大,\(\chi^2\) 检验永远是单侧的。
例如,若要在 5% 的显著性水平下进行检验,你需要在表中查找 \(p=0.95\) 的列。
4.2 拒绝规则
\(\chi^2\) 分布是向右倾斜的,拒绝域始终在右侧尾部。
-
如果 计算出的 \(\chi^2\) \(\le\) 临界值:我们不拒绝 \(H_0\)。
结论: 没有足够的证据表明数据不符合模型(GOF),或变量之间存在关联(独立性)。 -
如果 计算出的 \(\chi^2\) \(>\) 临界值:我们拒绝 \(H_0\)。
结论: 在 \(\alpha\%\) 的显著性水平下,有充分的证据得出结论:数据不符合拟定分布,或者变量之间不独立。
你知道吗?“Chi-squared”一词来源于希腊字母 \(\chi\)。\(\chi^2\) 分布本身是一种连续概率分布,尽管在这里我们用它来逼近测试数据中离散的频数。
4.3 常见错误提醒
- 忘记 \(\nu\) 的约束: 务必检查是否需要减去估计的参数(GOF),或者是否用了错误的 \(r\) 和 \(c\)(独立性)。
- 违反黄金准则: 忽略期望频数 (\(E_i\)) 必须 \(\ge 5\) 的要求将导致检验失效。请务必合并类别直至满足条件。
- 过早比较 O 和 E: 检验统计量是使用*频数*(\(O\) 和 \(E\))而非*概率*计算的。确保所有期望值都已经转化为了计数。
本章小结:\(\chi^2\) 核心要素
计算公式(永远通用):
$$ \chi^2 = \sum \frac{(O - E)^2}{E} $$
黄金准则(必查):
期望频数 \(E\) 必须 \(\ge 5\)。如果不是,合并类别/单元格。
自由度 (\(\nu\)):
- GOF: \(\nu = (\text{类别数}) - 1 - (\text{估计的参数个数})\)
- 独立性: \(\nu = (r-1)(c-1)\)(\(r\) 为行数,\(c\) 为列数)
作出决策:
如果 计算出的 \(\chi^2\) \(>\) 临界值,则拒绝 \(H_0\)。说明观察到的数据与预期偏差过大。