欢迎来到“拟合优度与列联表”的世界!

你好!欢迎来到统计学 3 (Statistics 3) 中至关重要的一章。这一章的内容将带你成为一名“数据侦探”,帮助我们确定现实中观察到的数据是否符合某种特定模式,或者两个变量之间是否存在真正的关联。

如果刚开始觉得有点棘手也不用担心;我们将一步步拆解强大的卡方 ($\chi^2$) 检验。学完这一章,你将能够自信地检验各种统计模型和变量间的关系!

为什么这一章很重要?

  • 它使我们能够根据现实观察结果来验证理论模型(如泊松分布或二项分布)。
  • 它提供了一种正式的方法来检验类别之间的关系(例如:“对足球的偏好是否与年龄组无关?”)。
  • 它是高级统计分析中的基础概念。

第 1 节:卡方 ($\chi^2$) 检验统计量

卡方检验是“拟合优度”和“列联表”分析背后的核心引擎。它用于衡量我们的观测频数 ($O_i$) 与期望频数 ($E_i$) 之间的偏离程度。

$\chi^2$ 统计量衡量的是什么?

想象一下你在投掷飞镖。你预期飞镖大部分会落在靶心区域(这就是期望模式)。$\chi^2$ 统计量告诉你的就是:实际上你投出的飞镖(即观测数据)与它们本该落入的位置相比,平均偏离了多远。

如果计算出的 $\chi^2$ 值很小,说明观测数据与期望值吻合得很好。如果值很大,说明期望值可能存在问题,我们就会拒绝原假设。

检验统计量 $X^2$ 的公式

检验统计量 $X^2$ 计算为观测频数与期望频数之差的平方,并以期望频数为权重进行加权求和:

$$X^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$
  • $O_i$:第 $i$ 类的观测频数。这是你收集到的原始数据。
  • $E_i$:第 $i$ 类的期望频数。这是理论或原假设认为应该发生的情况。
  • 求和符号 ($\sum$) 表示对所有类别或单元格进行累加。

小贴士: $X^2$ 值永远是正数,因为差值被平方了。$X^2$ 越大,说明拟合程度越差。

第 2 节:拟合优度检验 (Goodness of Fit, GoF)

拟合优度检验用于检查一组数据是否来自具有特定分布的总体(例如:均匀分布、正态分布、泊松分布、二项分布,或仅仅是固定的概率分布)。

拟合优度检验的分步指南

第 1 步:陈述假设

拟合优度检验的假设总是这样结构的:

$$H_0: \text{数据符合指定的分布(例如泊松分布、均匀分布或特定的概率分布)。}$$ $$H_1: \text{数据不符合指定的分布。}$$

注意:卡方检验永远是单尾检验,只关注右侧的临界值,因为我们只关心 $X^2$ 是否过大(即拟合程度是否太差)。

第 2 步:计算期望频数 ($E_i$)

这一步你需要利用 $H_0$ 中指定的理论分布和样本总量 ($N$) 来计算。

如果是针对固定概率 ($p_i$) 进行检验:
$$E_i = N \times p_i$$

如果是针对特定分布(如泊松分布)进行检验:
1. 找出分布所需的参数(例如泊松分布的 $\lambda$ 或二项分布的 $p$)。
2. 使用分布公式求出每个类别的概率 $P(X=x)$。
3. 计算 $E_i = N \times P(X=x)$。

第 3 步:检查条件并合并单元格 (Pooling)

卡方检验依赖于一种近似计算,仅当期望频数足够大时,该近似才可靠。

关键条件: 每个期望频数 ($E_i$) 都必须大于或等于 5 ($E_i \ge 5$)。

如果存在任何 $E_i < 5$,你必须将该类别与相邻类别合并 (pool),直到合并后的期望频数 $\ge 5$。这对于这些类别中的观测值和期望值都适用。

第 4 步:计算检验统计量 ($X^2$)

使用最终的(可能经过合并的)$O_i$ 和 $E_i$ 值代入公式:

$$X^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$
第 5 步:确定自由度 ($\nu$)

自由度 ($\nu$) 可能是拟合优度检验中最具挑战性的部分,请务必注意!

拟合优度的通用公式为:

$$\nu = (\text{类别数量, } k) - 1 - (\text{估计的参数个数, } m)$$
  1. $k$: 在合并单元格之后的类别数量。
  2. $-1$: 这一项必须减去,因为期望频数之和必须等于观测频数之和(这意味着一旦其他类别的频数确定,最后一个类别的频数也就确定了)。
  3. $m$: 为了计算 $E_i$ 而不得不从样本数据中估计的参数个数。
    • 如果你是针对固定概率进行检验(例如 $P(\text{正面})=0.5$),则 $m=0$。
    • 如果你必须从样本数据中计算 $\lambda$(泊松分布)或 $p$(二项/几何分布),则 $m=1$。
    • 如果你必须计算 $\mu$ 和 $\sigma$(正态分布),则 $m=2$。

记忆窍门: 如果你必须使用样本数据来求出一个代入理论公式的参数,那么你就会为该估计参数“损失”一个自由度。

第 6 步:比较与结论

1. 使用计算出的 $\nu$ 和题目给定的显著性水平 ($\alpha$),在卡方分布表中找到临界值
2. 比较:

  • 如果 $X^2 \le \text{临界值}$:接受 } H_0$。有足够的证据表明数据符合指定的分布。
  • \n
  • 如果 $X^2 > \text{临界值}$:拒绝 } H_0$。有足够的证据表明数据不符合指定的分布。
3. 在题目语境下写出结论。

拟合优度检验重点: 检验的成功取决于能否正确计算期望频数 ($E_i$),确保 $E_i \ge 5$,以及确定正确的自由度 ($\nu$)。

第 3 节:列联表(独立性检验)

当我们想要研究两个分类变量之间的关系时,会使用列联表。这被称为独立性检验

例子:一个人的最爱音乐类型(流行、摇滚、古典)与其主要交通方式(汽车、公交、自行车)之间是否存在关联?

目标:检验独立性

如果两个变量是独立的,那么了解其中一个变量的值,对了解另一个变量的值没有任何帮助。该检验用于检查,如果变量实际上是独立的,那么观测数据中出现的模式是否仅仅是偶然发生的。

第 1 步:陈述假设

$$H_0: \text{两个变量相互独立(即没有关联)。}$$ $$H_1: \text{两个变量不相互独立(即存在关联)。}$$

第 2 步:计算期望频数 ($E_{ij}$ )

在一个列联表($r$ 行 $c$ 列)中,任何特定单元格 $(i, j)$ 的期望频数都是基于独立性假设 ($H_0$) 计算出来的:

$$E_{ij} = \frac{(\text{行总计}) \times (\text{列总计})}{\text{总合计}}$$

类比:如果 60% 的人喜欢摇滚乐,且 50% 的人乘公交车,那么假设二者独立,既喜欢摇滚乐又乘公交车的人比例应为 $0.60 \times 0.50 = 0.30$。我们将该概率乘以总合计即可得到期望频数。

第 3 步:检查条件

与拟合优度检验一样,所有期望频数 ($E_{ij}$) 必须 $\ge 5$。如果某个单元格的 $E_{ij} < 5$,你必须合并行或列,直到满足此条件。合并必须符合逻辑(例如,合并两个相似的年龄组)。

第 4 步:计算检验统计量 ($X^2$)

公式保持不变,但求和是对表中的所有单元格进行的:

$$X^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
第 5 步:确定自由度 ($\nu$)

对于 $r$ 行 $c$ 列的列联表,自由度 $\nu$ 的计算比拟合优度简单得多:

$$\nu = (r-1)(c-1)$$

注意:如果你因为期望频数过小而合并了行或列,请务必使用合并的行数/列数。

第 6 步:比较与结论

遵循与拟合优度检验相同的流程:将 $X^2$ 与对应显著性水平 ($\alpha$) 和自由度 ($\nu$) 下的卡方临界值进行比较。

如果 $X^2$ 很大(大于临界值),则拒绝 $H_0$,并得出结论:有证据表明这两个变量之间存在关联。

快速对比:拟合优度 vs. 列联表
  • 拟合优度: 测试单个样本是否符合某种理论分布(例如:这组数据是泊松分布吗?)。$\nu = k - 1 - m$。
  • 列联表: 测试两个变量是否相关(例如:性别与饮食偏好有关吗?)。$\nu = (r-1)(c-1)$。

第 4 节:常见错误与总结

需避免的常见错误

  1. 在条件检查中使用观测频数: 学生常检查 $O_i \ge 5$。这是错误的!你必须检查的是 $E_i \ge 5$
  2. 自由度计算错误 (GoF): 当参数(如 $\lambda$ 或 $p$)是从样本数据中估计出来时,忘记减去 $m$。
  3. 自由度计算错误 (列联表): 使用了总单元格数,而不是 $(r-1)(c-1)$。
  4. 假设陈述错误: 搞混了原假设和备择假设。$H_0$ 总是假设期望的情况(拟合良好 / 变量独立)。
  5. 忘记合并单元格: 当 $E_i < 5$ 时不进行合并,导致检验结果不可靠。

最终检查清单

  • $H_0$ 和 $H_1$ 是否陈述清晰?
  • 所有期望频数计算正确吗?
  • 是否检查了 $E_i \ge 5$ 的条件并进行了必要合并?
  • $\nu$ 的值是否正确(尤其是在 GoF 中考虑了参数估计 $m$)?
  • 计算出的 $X^2$ 统计量正确吗?
  • 结论是否结合了题目语境,并明确说明了接受还是拒绝 $H_0$?

你已经掌握了卡方检验的基本原理!这一工具用途极其广泛,是进行稳健统计推断的强大武器。