Hypothesis testing

欢迎来到假设检验的世界！

你好！这是统计学中最强大且令人兴奋的主题之一。假设检验本质上是一种基于样本数据做出明智决策的统计方法。这就像担任侦探或法官，通过评估证据来决定是否有足够的理由推翻一个长期存在的假设或主张。

在这一章中，我们将学习如何规范地构建统计论证、评估证据，并得出某项主张是否具有统计学意义的结论。如果起初觉得有些复杂，别担心——我们会将其拆解为简单且易于操作的步骤！

1. 核心概念：统计审判

你可以将假设检验想象成法庭上的审判。

零假设（原假设）（\(H_0\)）是“无罪推定”（即现状/默认情况）。
备择假设（\(H_1\)）是“指控”（即我们怀疑成立的主张）。
样本数据是所呈现的证据。
显著性水平是定罪所需的证据强度。

假设原则

在统计学中，我们总是假定零假设（\(H_0\)）成立，就像假定一个人在被证明有罪之前是无罪的一样。然后，我们利用样本数据来观察它是否提供了足够的反驳证据来拒绝 \(H_0\)。

关键要点

我们从不“证明” \(H_1\) 是绝对真理；我们只是决定证据是否足够强大以至于可以拒绝 \(H_0\) 并转而支持 \(H_1\)。

2. 设立假设（H₀ 和 H₁）

2.1. 零假设（\(H_0\)）

零假设是起点，它声明没有变化、没有效应，或者参数等于某个特定值。

\(H_0\) 始终包含等号（\(=\)）。
示例（比例 \(p\)）：\(H_0: p = 0.5\)
示例（均值 \(\mu\) 或 \(\lambda\)）：\(H_0: \mu = 10\)

2.2. 备择假设（\(H_1\)）

备择假设反映了参数已发生改变的主张或怀疑。这决定了该检验是单侧检验还是双侧检验。

单侧检验（One-Tailed Test）： 如果预期变化发生在特定方向（更高或更低）。
例子： 一家制造商声称新工艺减少了缺陷。
\(H_1: p < 0.5\)（低于旧的比例）
双侧检验（Two-Tailed Test）： 如果仅仅预期会有所不同，而没有明确方向。
例子： 我们怀疑平均分数不再是 10。
\(H_1: \mu \neq 10\)（不等于 10）

⛔ 常见陷阱警示！

绝对不要在 \(H_0\) 中使用小于（\(<\)）、大于（\(>\)）或不等于（\(\neq\)）符号。\(H_0\) 必须始终指定一个明确的参数值，例如 \(H_0: \mu = 5\)。

3. 决策制定：关键要素

3.1. 显著性水平（\(\alpha\)）

显著性水平（\(\alpha\）），通常取 5% (0.05) 或 1% (0.01)，是拒绝 \(H_0\) 的阈值。

它代表了犯第一类错误（当 \(H_0\) 实际上正确时却拒绝了它）的最大概率。
较小的 \(\alpha\)（例如 1%）要求更强的证据才能拒绝 \(H_0\)。

3.2. 临界值与拒绝域

拒绝域（或者称为临界区域）是导致拒绝 \(H_0\) 的统计量取值范围。该区域的边界即为临界值。

如果计算出的检验统计量落入拒绝域，你就拒绝 \(H_0\)。
如果检验是双侧的，显著性水平 \(\alpha\) 必须平分到两侧。例如，5% 的显著性水平检验将有 2.5% 的拒绝域在右侧尾部，2.5% 在左侧尾部。
其余的取值范围称为接受域。

3.3. P 值法（P-value Method）

P 值是做出决策的另一种方法，通常更简单，特别是在使用现代计算器时。

在假定 \(H_0\) 正确的前提下，P 值是指观测到与样本数据计算结果相同或更极端的结果的概率。
决策规则： 如果 P 值 < \(\alpha\)（显著性水平），我们就拒绝 \(H_0\)。

类比：如果仅凭偶然看到此证据的概率（P值）低于我们可承受的风险（显著性水平），那么证据就足够强大，可以推翻原先的假设（H₀）。

4. 假设检验中的误差（第一类与第二类）

由于我们依赖样本数据，总是存在得出错误结论的风险。

4.1. 第一类错误（Type I Error）

第一类错误发生在我们拒绝了 \(H_0\)，但 \(H_0\) 实际上是正确的情况。

法庭类比： 将无辜者判定为有罪。
犯第一类错误的风险（概率）等于显著性水平 \(\alpha\)。

4.2. 第二类错误（Type II Error）

第二类错误发生在我们接受 \(H_0\)（或未能拒绝 \(H_0\)），但 \(H_0\) 实际上是错误的情况。

法庭类比： 将有罪者判定为无罪。
犯第二类错误的风险通常用 \(\beta\) 表示。

你知道吗？

如果你降低第一类错误的概率（例如将 \(\alpha\) 从 5% 降至 1%），在样本量保持不变的情况下，你通常会增加犯第二类错误（\(\beta\)）的概率。除非收集更多数据，否则通常无法同时降低这两种风险！

5. 教学大纲涵盖的特定检验

所有检验的流程都是一样的：1. 陈述假设，2. 定义显著性水平，3. 计算检验统计量/P 值，4. 比较并得出结论。变化的是我们用于计算的概率分布。

5.1. 总体比例检验（二项分布）

如果你正在检验一个比例 \(p\)（例如支持某位候选人的比例）并且使用较小的有限样本量 \(n\)，你必须使用二项分布。

\(H_0\) 下假设的分布：\(X \sim B(n, p_0)\)。
我们使用精确二项概率（累积分布表或公式）来寻找 P 值。

二项/泊松检验步骤（使用 P 值）：

陈述 \(H_0\)（例如 \(p = 0.2\)）和 \(H_1\)（例如 \(p > 0.2\)）。
从样本中识别观测频数 \(x\)。
计算 P 值：在假设的分布 \(B(n, p_0)\) 下，寻找 \(P(X \ge x)\)（若 \(H_1\) 为 \(>\)）或 \(P(X \le x)\)（若 \(H_1\) 为 \(<\)）。
如果检验是双侧的（\(H_1: p \neq p_0\)）：求出观测结果或更极端结果的概率。然后将此概率乘以 2 得到双侧 P 值。
将 P 值与 \(\alpha\) 进行比较。

5.2. 泊松分布均值的检验

如果数据由计数组成（例如每小时收到的电子邮件数量），且我们正在检验速率参数 \(\lambda\)，则使用泊松分布。

\(H_0\) 下假设的分布：\(X \sim Po(\lambda_0)\)。
我们使用精确泊松概率（累积分布表或公式，包括 \(e^{-\lambda}\) 的计算）来寻找 P 值。

注意： 如果你是在特定时间段内检验平均速率 \(\lambda\)，请记住，如果样本是在时间 \(t\)（或长度 \(L\)）内收集的，则你在泊松分布中使用的参数必须是 \(\lambda_0 \times t\)（或 \(\lambda_0 \times L\)）。

5.3. 使用 Z 统计量的均值检验（\(\mu\)）

在检验均值 \(\mu\) 时，我们通常在三种关键场景下使用正态分布（因此使用 \(Z\) 统计量）：

场景 A：已知方差 (\(\sigma^2\)) 的正态分布

如果原总体服从正态分布 \(X \sim N(\mu, \sigma^2\)，且已知 \(\sigma^2\)，则样本均值 \(\bar{X}\) 服从分布：
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
检验统计量为 Z 统计量：
\(Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\)

场景 B：大样本检验（正态近似）

根据中心极限定理 (CLT)，如果样本量 \(n\) 较大（通常 \(n > 30\)），则无论原总体分布如何，样本均值 \(\bar{X}\) 的抽样分布均可近似为正态分布。

如果已知总体方差 \(\sigma^2\)，则在 \(Z\) 公式中使用它。
如果 \(\sigma^2\) 未知，对于大样本，我们可以用样本方差 \(S^2\)（或样本标准差 \(S\)）来代替 \(\sigma^2\)，并仍然使用 \(Z\) 检验。
检验统计量（大样本）：\(Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\)

5.4. 使用 t 统计量的均值检验（\(\mu\)）

当我们在满足以下条件的总体中检验均值时，使用这种进阶检验：

假设总体是正态分布的。
样本量 \(n\) 很小（例如 \(n < 30\)）。
总体方差 \(\sigma^2\) 未知，必须使用样本方差 \(S^2\) 进行估计。

当满足这些条件时，均值的抽样分布服从t 分布，而不是标准正态分布。

检验统计量：\(T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\)
t 分布取决于自由度，通常为 \(n-1\)。你需要使用 t 分布表（在你的公式手册中提供），而不是正态分布表。

快速回顾：假设检验步骤

假设： 陈述 \(H_0\)（含 \(=\)）和 \(H_1\)（含 \(<\)、\(>\) 或 \(\neq\)）。
水平： 定义显著性水平 \(\alpha\)。
分布： 识别适当的分布（二项、泊松或正态/t）。
检验： 计算检验统计量（或计算 P 值）。
决策： 将 P 值与 \(\alpha\) 比较，或将检验统计量与临界值比较。
结论： 在问题的背景下写出明确的结论陈述（例如：“在 5% 的显著性水平下，有足够的证据拒绝均值为 10 的主张。”）

你已经成功掌握了统计决策的基础知识！继续练习这些步骤，你很快就能像专家一样进行假设检验了。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。