### 1. 核心要素:\(O\) 与 \(E\) 在进行任何检验前,我们需要为每个类别准备两组数据:
- 观察频数(Observed Frequencies, \(O\)):这是你从实验或调查中收集到的实际结果。
- 期望频数(Expected Frequencies, \(E\)):这是如果你的理论(即虚无假设)成立时,你“理应”得到的结果。
检验统计量公式
为了将这些差异转化为一个我们能使用的数值,我们使用以下公式:\(\chi^2_{calc} = \sum \frac{(O - E)^2}{E}\)
如何解读此公式: 1. 对于每个类别,将观察值减去期望值。 2. 将结果平方(这样数值永远为正)。 3. 除以期望值。 4. 将所有这些计算结果加总(这就是 \(\sum\) 符号的意义)。快速回顾: 如果观察值与期望值非常接近,\(\chi^2\) 就会很小。如果两者差异巨大,\(\chi^2\) 就会很大!
### 2. 独立性检验(列联表) 有时我们想知道两件事是否相关。例如:最喜欢的颜色是否与性别有关?某种药物是否对特定年龄层效果更好?我们会使用列联表(Contingency Tables)(将数据排列在行与列中)来找出答案。
设定假设
每个检验都始于两个陈述:- \(H_0\)(虚无假设):两个变量是独立的(两者没有关联)。
- \(H_1\)(对立假设):两个变量是不独立的(两者有某种关联)。
计算期望值(\(E\))
对于列联表,我们使用“行列总计法”来计算每个单元格的期望值:\(E = \frac{\text{列总计} \times \text{行总计}}{\text{总计}}\)
自由度(\(df\))
“自由度”告诉我们数据中有多少信息是可以自由变动的。对于一个有 \(r\) 列和 \(c\) 行的列联表:\(df = (r - 1)(c - 1)\)
范例:在一个 \(3 \times 2\) 的表格中,\(df = (3-1)(2-1) = 2 \times 1 = 2\)。重点笔记: 在独立性检验中,\(H_0\) 总是宣称变量之间没有关系。
### 3. 黄金法则:限制与修正 \(\chi^2\) 检验是一种近似值,只有在数据足够充足时才准确。考试时你必须记住两项“安全规则”:
“5 的法则”
每一个期望频数(\(E\))必须至少为 5。如果不符合怎么办? 若某个 \(E\) 值小于 5,检验结果会变得不可靠。为了修正,你必须将相邻的行或列(或类别)合并,直到每个 \(E \ge 5\)。 注意:合并时,记得也要同时合并对应的观察值(\(O\))!
耶茨连续性修正(Yates’ Continuity Correction)
这是一种特殊调整,仅用于 \(2 \times 2\) 表格(即 \(df = 1\) 时)。它会让检验变得更为保守。修正后公式:\(\chi^2 = \sum \frac{(|O - E| - 0.5)^2}{E}\)
垂直线 \(|O - E|\) 代表“取正差值”(忽略负号)。在平方之前,先从差值中减去 0.5。你知道吗? 耶茨修正以英国统计学家 Frank Yates 命名。它就像是一个“安全缓冲区”,确保我们不会因一时运气,而误以为数据之间存在关联!
### 4. 拟合优度检验(Goodness of Fit Tests) “拟合优度”检验用于检查数据是否遵循特定的理论分布,例如给定的比率、比例或离散均匀分布。
拟合的类型
- 给定比率:例如,检验植物后代是否符合 \(3:1\) 的遗传比率。如果你有 100 株植物,你预期其中一类为 75 株,另一类为 25 株。
- 离散均匀分布:这是当你预期每个结果出现的概率都相等时。如果你有 \(n\) 个类别且总观察值为 \(N\),则每个 \(E = \frac{N}{n}\)。
拟合优度检验的自由度
对于这类检验:\(df = \text{类别数量} - 1\)
注意:如果你为了满足 \(E \ge 5\) 规则而合并了类别,“类别数量”是指合并后剩下的类别数。常见错误: 学生常误用“观察值的总人数”来计算 \(df\)。请记住,\(df\) 是基于类别(单元格)的数量,而不是你数了多少人或物品!
### 5. 逐步教学:如何进行检验 考试时,请按照以下步骤来保持条理:
- 陈述假设:清楚写出 \(H_0\) 和 \(H_1\)。
- 计算期望值(\(E\)):利用总计数和给定的分布/比率进行计算。
- 检查 \(E \ge 5\) 规则:若有任何 \(E < 5\),合并类别并重新计算 \(df\)。
- 计算 \(\chi^2\) 统计量:使用公式 \(\sum \frac{(O-E)^2}{E}\)(若是 \(2 \times 2\) 表格,记得使用耶茨修正)。
- 查找临界值:使用你的 \(df\) 和显著性水平(例如 5%)查表得出临界值。
- 比较并得出结论:
- 若 计算出的 \(\chi^2\) > 临界值:拒绝 \(H_0\)。这代表有证据显示存在某种模式/关联。
- 若 计算出的 \(\chi^2\) < 临界值:无法拒绝 \(H_0\)。没有足够证据支持该模式的存在。
加油: 步骤 4 可能涉及许多微小的计算。请慢慢来,或许可以制作一个表格来追踪你的 \((O-E)^2 / E\) 数值。细心是关键!
### 最终总结:全局观
你已经学会了:
- \(\chi^2\) 用来衡量观察值(\(O\))与期望值(\(E\))之间的“差距”。
- 独立性检验的自由度计算公式为 \((r-1)(c-1)\)。
- 拟合优度检验用于检查数据是否符合特定的模式或比率。
- 期望值必须 \(\ge 5\);否则,请合并类别。
- 耶茨修正是你最好的朋友,但请记住它仅适用于 \(2 \times 2\) 表格!