Hypothesis tests

A Level 数学 (9709) P3：概率与统计 2

第 6.5 章：假设检验综合学习笔记

你好，未来的统计学家！假设检验听起来可能有点吓人，但它其实是统计学中最强大且令人满意的课题之一。简单来说，它是一种通过证据（样本数据）来判断关于总体参数（如均值或概率）的某种观点（假设）是否成立的正式方法。

把它想象成陪审团审判：我们从一个假设开始，利用证据来决定是否应该推翻这个假设。准备好开始了吗？让我们深入拆解吧！

第一部分：假设检验的术语

在解题之前，你需要熟练掌握其中的词汇。以下是核心概念：

1. 假设（Claims/Hypotheses）

每一个检验都涉及两个对立的陈述：

原假设（Null Hypothesis，$H_0$）：这是默认或现状假设。它总是包含等号（$=$）。
例子：学生的平均身高是 170 cm（$\mu = 170$）。
备择假设（Alternative Hypothesis，$H_1$）：这是我们怀疑的或试图寻找证据支持的观点。它从不包含等号。它是对 $H_0$ 的挑战。
例子：平均身高*不是* 170 cm（$\mu \neq 170$）。

2. 单侧检验与双侧检验

这告诉我们所怀疑的变化方向，完全由 $H_1$ 决定：

双侧检验（Two-Tailed Test）：当我们只关心参数是否发生变化（不论是增加还是减少）时使用。
$H_1$ 使用 $\neq$。
单侧检验（One-Tailed Test）：当我们怀疑参数向特定方向发生变化（例如，增加或减少）时使用。
$H_1$ 使用 $<$ 或 $>$。

类比：双侧检验问的是“这枚硬币公平吗？”，而单侧检验问的是“这枚硬币是否偏向正面？”

3. 显著性水平与区域

显著性水平（Significance Level，$\alpha$）：这是在 $H_0$ 为真时却拒绝它的概率。它代表了我们允许犯错的最大风险（通常为 5% 或 1%）。
如果 $\alpha = 0.05$，意味着我们愿意接受 5% 的概率去拒绝一个真实的 $H_0$。
检验统计量（Test Statistic）：根据样本数据计算出的值，用于决定是否拒绝 $H_0$。
拒绝域（Critical Region / Rejection Region）：导致拒绝 $H_0$ 的检验统计量取值范围。这些通常是那些“极端”数值。
接受域（Acceptance Region）：导致结论为“没有足够证据拒绝 $H_0$”的取值范围。

快速复习框：逻辑关系 分布曲线下的总概率面积为 1。拒绝域的总概率等于 $\alpha$。对于 $\alpha=0.05$ 的双侧检验，拒绝域被平分为两端，每端的面积为 $0.025$。

第二部分：进行假设检验的五个步骤

无论你使用的是二项分布、泊松分布还是正态分布，请务必系统地遵循以下步骤：

第一步：提出假设（$H_0$ 和 $H_1$）

定义总体参数（如概率 $p$ 或均值 $\mu$）并写出 $H_0$ 和 $H_1$。务必确保 $H_0$ 包含等号。

第二步：确定显著性水平和检验类型

写出 $\alpha$（如 5%），并根据 $H_1$ 判断是单侧检验还是双侧检验。

第三步：计算检验统计量（或找到拒绝域）

这是计算的开始。具体方法取决于你所使用的分布（请参阅下文 3a 和 3b 部分）。

第四步：做出决策（比较）

将第三步的结果与临界值或显著性水平进行比较：

如果使用拒绝域：如果算出的检验统计量落在拒绝域内，则拒绝 $H_0$。
如果使用 $p$ 值（直接概率法）：如果观察到样本数据（或更极端情况）的概率小于 $\alpha$，则拒绝 $H_0$。

第五步：结合实际情境进行解释

这一点至关重要！一定要在原问题的语境下陈述你的最终决定。不要仅仅只写“拒绝 $H_0$”。

例子：“在 5% 的显著性水平下，有足够的证据证明平均身高确实有所增加。”

第三部分：针对不同分布的检验

3a：二项分布与泊松分布的假设检验（单次观测）

在检验关于二项分布 $B(n, p)$ 的总体概率 $p$ 或泊松分布 $Po(\lambda)$ 的均值率 $\lambda$ 的观点时，我们通常对小样本使用直接概率法。

过程示例（二项分布）： 某公司声称其设备故障率为 10%（$p=0.1$）。在 20 个设备的样本中，有 5 个故障。请在 $\alpha = 5\%$ 的显著性水平下检验故障率是否增加（$H_1: p > 0.1$）。

1. 假设：$H_0: p = 0.1$，$H_1: p > 0.1$。(单侧检验，右侧)

2. $H_0$ 下的分布：$X \sim B(20, 0.1)$。观察结果：$x=5$。

3. 计算 $p$ 值：假设 $H_0$ 为真（即 $p=0.1$），计算观察到 5 个或更多故障设备的概率。

$p\text{-value} = P(X \geq 5 \text{ | } p=0.1)$

$P(X \geq 5) = 1 - P(X \leq 4)$

（使用分布表/计算器，假设 $P(X \leq 4) = 0.9568$）

$p\text{-value} = 1 - 0.9568 = 0.0432$

4. 决策：由于 $0.0432 < 0.05$，$p$ 值小于 $\alpha$。拒绝 $H_0$。

5. 结论：有证据表明故障设备的比例已经增加。

关于离散数据拒绝域的重要提示：

由于二项/泊松分布是离散的，拒绝域必须通过找到第一个满足累积概率小于或等于 $\alpha$ 的数值 $k$ 来定义。

若 $H_1: p > p_0$，找到最小的 $k$ 使得 $P(X \geq k) \leq \alpha$。
若 $H_1: p < p_0$，找到最大的 $k$ 使得 $P(X \leq k) \leq \alpha$。

3b：二项分布与泊松分布的正态近似

当 $n$ 很大（二项分布）或 $\lambda$ 很大（泊松分布）时，我们使用正态近似，将问题转化为 Z 检验。

近似条件：

二项分布：$n > 50$，且 $np > 5$ 且 $nq > 5$。使用 $N(np, npq)$。
泊松分布：$\lambda > 15$。使用 $N(\lambda, \lambda)$。

关键步骤：连续性修正（Continuity Correction, CC）

因为我们用连续分布来近似离散分布，所以必须进行连续性修正。
例子：$P(X \leq 10)$ 变为 $P(Y < 10.5)$。$P(X > 15)$ 变为 $P(Y > 15.5)$。

3c：关于总体均值（$\mu$）的假设检验

当我们调查关于总体均值的结论时使用该检验。如果样本很大，或者总体服从正态分布且方差已知，它永远是 Z 检验。

前提条件（为什么我们使用正态/Z 分布）：

我们依赖中心极限定理（CLT）或对总体正态分布的假设：

样本均值 $\bar{X}$ 的分布是正态的（如果 $n$ 很大，则近似正态）。
我们使用分布 $\bar{X} \sim N\left( \mu, \frac{\sigma^2}{n} \right)$。

检验统计量（Z 值）

衡量样本均值偏离假设总体均值 $\mu_0$ 多少个标准误的标准方法是：

$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$

其中 $\bar{X}$ 是样本均值，$\mu_0$ 是 $H_0$ 下假设的均值，$\sigma$ 是总体标准差（若 $n$ 很大也可用样本估计值 $s$ 代替），$n$ 是样本量。

Z 检验分步示例：

1. 假设：$H_0: \mu = 50$，$H_1: \mu \neq 50$。（$\alpha = 5\%$，双侧检验）

2. 临界值：由于 $\alpha = 0.05$（双侧），查表得临界 Z 值为 $Z = \pm 1.96$（每侧拒绝域面积为 0.025）。

3. 计算 Z 统计量： （假设样本均值 $\bar{X} = 52$，$\sigma=10$，$n=100$）

$$Z = \frac{52 - 50}{10 / \sqrt{100}} = \frac{2}{1} = 2.00$$

4. 决策：计算出的 $Z=2.00$ 落在接受域（-1.96 到 1.96）之外，即落入拒绝域。拒绝 $H_0$。

5. 结论：在 5% 的显著性水平下，有足够的证据得出结论：总体均值不为 50。

第四部分：决策中的错误

由于我们依赖样本，决策总有可能出错。你需要理解并计算以下两种错误。

4.1 第一类错误（Type I Error, $\alpha$）

定义：当原假设（$H_0$）实际上为真时，却拒绝了它。
严重性：有时被称为“假阳性”。
概率：犯第一类错误的概率等于显著性水平 $\alpha$。
例子：认为平均身高*不是* 170 cm，但实际上它是 170 cm。

4.2 第二类错误（Type II Error, $\beta$）

定义：当原假设（$H_0$）实际上为假（即 $H_1$ 为真）时，却接受了它。
严重性：有时被称为“假阴性”。
概率（$\beta$）：计算较为复杂，需要假设 $H_1$ 下参数的具体值。
例子：认为平均身高*是* 170 cm，但实际上它是 172 cm。

如何计算第二类错误的概率（$\beta$）

计算 $\beta$ 分两步：

A 步：根据 $H_0$ 和 $\alpha$ 找到接受域（临界值）。

在 $H_0$ 定义的分布下，找到划分接受域和拒绝域的边界值（临界值 $k$）。

B 步：假设真实参数为 $H_1$ 中的值，计算检验统计量落在接受域内的概率。

第二类错误的概率 $\beta$ 即为 $P(\text{落在接受域} | \text{真实参数})$。

如果起初觉得这部分困难，别担心！这是本章中最复杂的计算。练习那些 $H_1$ 指定了具体数值的题目（例如 $H_1: \mu = 51$，而不是简单的 $\mu > 50$）是计算 $\beta$ 的最佳起点。

第一类与第二类错误总结

	$H_0$ 为真	$H_0$ 为假（$H_1$ 为真）
接受 $H_0$	正确决策	第二类错误 ($\beta$)
拒绝 $H_0$	第一类错误 ($\alpha$)	正确决策

核心要点： 存在着内在的平衡。如果你降低犯第一类错误的概率（例如调低 $\alpha$），接受域的面积就会变大，这会增加你犯第二类错误（$\beta$）的可能性。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

	\(H_0\) 为真	\(H_0\) 为假（\(H_1\) 为真）
接受 \(H_0\)	正确决策	第二类错误 (\(\beta\))
拒绝 \(H_0\)	第一类错误 (\(\alpha\))	正确决策