简介:解读随机性

欢迎来到卡方 (\(\chi^2\)) 检验的世界!你有没有想过,两件事情之间是真的有关联,还是纯属巧合?例如,你选择的雪糕口味是真的取决于天气,还是完全随机的?

在本章中,我们将学习如何使用卡方分布来验证这类想法。这是统计学家工具箱中最实用的工具之一,因为它能帮助我们判断“预期”与“实际”结果之间的“差距”是否大到具有统计学意义。

如果起初觉得这些符号有点复杂也不用担心,读完这份笔记后,你会发现这其实是一个非常合乎逻辑的步骤化过程!

1. 核心概念:“惊喜”公式

卡方检验的本质是衡量数据让我们有多“惊讶”。我们将观测频数 (\(O\))(我们实际收集到的数据)与期望频数 (\(E\))(若零假设成立时,我们预期会看到的数据)进行比较。

检验统计量使用以下公式计算:

\(\chi^2 = \sum \frac{(O - E)^2}{E}\)


公式解析:
  • \((O - E)\):差异(即“差距”)。
  • \((O - E)^2\):我们将其平方,以免正负差异互相抵消。
  • \(\div E\):我们除以期望值以进行标准化。如果你预期有 10 个,出现 5 的差距是“大事”;但如果你预期有 1,000 个,出现 5 的差距则是“微不足道”!

快速复习:卡方检验的“大原则”

为了使检验有效,每个期望频数 (\(E\)) 必须至少为 5。如果有任何数值小于 5,你需要合并列或行(在列联表中),或合并邻近的组别(在拟合优度检验中),直到数值达到 5 或以上。

重点摘要: 卡方统计量是各项“贡献值”的总和。卡方值越大,代表我们的数据与预期之间的差异越显著。

2. 独立性检验(列联表)

列联表 (Contingency table) 是一个显示两个变量(如“性别”与“投票意向”)频数的表格。我们使用卡方检验来判断这两个变量是否独立

步骤流程:

  1. 设定假设:
    \(H_0\):两个变量是独立的(没有关系)。
    \(H_1\):两个变量不是独立的(存在关系)。
  2. 计算期望频数 (\(E\)): 对于表格中的每个单元格,使用这个实用公式:

    \(E = \frac{\text{列合计} \times \text{行合计}}{\text{总合计}}\)

  3. 检查“5 之法则”: 如果有任何 \(E < 5\),请将该行/列与邻近的行/列合并。
  4. 计算卡方检验统计量: 使用 \(\sum \frac{(O-E)^2}{E}\) 公式。
  5. 找出自由度 (\(\nu\)):

    \(\nu = (\text{行数} - 1) \times (\text{列数} - 1)\)

  6. 与临界值比较: 在提供的表格中查阅对应的 \(\nu\) 和显著性水平(例如 5%)。如果计算出的 \(\chi^2\) 大于临界值,则拒绝 \(H_0\)

记忆辅助:自由度

你可以将自由度想象成“数据可以变动的空间”。如果你知道一个 \(2 \times 2\) 表格的合计,并且填入其中一个单元格,其他三个单元格就会自动被固定!这就是为什么 \((2-1) \times (2-1) = 1\)。

特殊情况:耶茨修正 (Yates’ Correction)

如果你处理的是 \(2 \times 2\) 表格(且 \(\nu = 1\)),你必须使用耶茨连续性修正 (Yates’ continuity correction) 以提高检验的准确性。公式会略有调整:

\(\chi^2 = \sum \frac{(|O - E| - 0.5)^2}{E}\)

(基本上,在平方之前,先从绝对差值中减去 0.5。)

重点摘要: 对于列联表,我们根据列和行的合计来计算期望值。别忘了 2x2 表格要使用耶茨修正!

3. 拟合优度检验 (Goodness of Fit Tests)

拟合优度检验用于检查你的数据是否“符合”某种特定的理论分布,例如均匀分布、二项分布、泊松分布或正态分布

如何计算期望频数 (\(E\)):

  • 离散均匀分布: 所有类别的可能性相同。\(E = \frac{\text{总频数}}{\text{类别数量}}\)。
  • 给定比例: 如果你预期比例为 1:2:1,则将总数按此比例分配计算 \(E\)。
  • 二项/泊松分布: 使用该分布的概率公式,并乘以总样本数 (\(n\))。

拟合优度检验的自由度:

这是学生最常踩雷的地方!公式如下:

\(\nu = n - 1 - k\)

其中:
  • \(n\) = 组别数量(合并后)。
  • \(1\) = 因为总频数是固定的,所以必须减去 1。
  • \(k\) = 你从数据中估计出的参数数量(例如,如果你必须自己计算泊松检验中的平均值 \(\lambda\),则 \(k=1\))。如果参数是题目直接给出的,则 \(k=0\)。
你知道吗?
卡方检验是由 Karl Pearson 于 1900 年开发的,它被视为现代统计科学的基石之一!

重点摘要: 拟合优度检验告诉我们模型对数据的“贴合度”。计算自由度时要格外小心——务必检查你是否估计了任何参数!

4. 常见错误避雷区

  • 忘了合并: 如果期望频数是 4.9,你必须将其与下一组合并。计算时请使用合并后组别的观测值。
  • 使用百分比: 请务必使用频数(原始计数)。永远不要在卡方公式中使用百分比或平均值。
  • 自由度 (\(\nu\)) 算错: 仔细确认你是进行列联表检验还是拟合优度检验,两者的自由度计算方法不同!
  • 混淆 \(H_0/H_1\): 在卡方检验中,\(H_0\) 通常是“现状”(例如:“符合程度良好”或“两者独立”)。

最终总结检查清单

1. 设定假设: \(H_0\) 通常是“独立”或“适合”。
2. 计算 \(E\): 使用列/行合计或概率模型。
3. “5”之法则: 如果 \(E < 5\),合并组别。
4. 计算: 对 \(\frac{(O-E)^2}{E}\) 求和(2x2 表格使用耶茨修正)。
5. 自由度: \((r-1)(c-1)\) 或 \(n-1-k\)。
6. 结论: 比较 \(\chi^2_{calc}\) 与 \(\chi^2_{crit}\)。如果计算值较大,代表差异显著!


如果刚开始觉得很难也不要灰心! 多练习几次表格计算,你很快就能看出规律。你只是在衡量数据中相较于“正常情况”有多少“偏差”而已。加油!