Hypothesis testing, significance testing, confidence…

欢迎来到统计推论 (Statistical Inference)！

在本章中，我们将从单纯的数据描述，迈向基于数据作出重大决策的阶段。你可以把这视为统计学中的“侦探工作”。我们会利用样本来对整个母体做出“最佳猜测”，并计算出这些猜测的可信度。无论你是要测试一种新药，还是检查机器填充麦片盒是否准确，这些工具都会是你最好的助手。如果一开始觉得理论有点深奥，别担心——我们会带你一步步拆解！

1. 置信区间 (Confidence Intervals)：你的“安全网”

置信区间 (Confidence Interval, CI) 是一个数值范围，我们有相当的把握认为真实的母体平均值就在这个范围内。比起只给出一个数字（点估计），我们提供的是一个区间。

比喻： 想象你在黑暗的池塘里抓鱼。扔出一支鱼叉就像是“点估计”——你很可能会射偏。而撒下一张大渔网则像是“置信区间”——你更有可能将鱼网罗在范围之内！

选择 \(z\) 分布还是 \(t\) 分布

为了建立我们的“网”，我们需要选择正确的分布：

使用 \(z\)-分布： 如果已知母体标准差 \(\sigma\)，或者样本量够大 (\(n \geq 30\))。
使用 \(t\)-分布： 如果样本量较小 (\(n < 30\)) 且不知道母体标准差 \(\sigma\)。

计算公式

平均值置信区间的一般公式为：
\(\bar{x} \pm (z \text{ 或 } t) \times (\text{标准误})\)

其中标准误 (Standard Error) 是 \(\frac{s}{\sqrt{n}}\)。记得在计算 \(s^2\)（样本方差）时，计算器必须使用 \((n-1)\) 作为除数！

小复习：区间的宽度

你的“网”有多宽取决于两件事：

置信水平 (Confidence Level)： 置信水平越高（例如 99% 对比 95%），区间会变得越宽。
样本量 (\(n\))： 样本越大，区间会变得越窄，精确度也越高。

常见错误： 同学常以为 99% 的置信区间比较“好”，因为它更确定。然而，它的范围也更宽，精确度较低。这是一种权衡！

重点总结： 置信区间为我们提供母体平均值的范围。当样本较小且不知道母体真实分布时，请使用 \(t\)-分布。

2. 第一型与第二型错误：当我们判断错误时

即使统计方法再完美，我们仍可能做出错误的判断。在假设检验中，有两种常见的错误方式。

第一型错误 (Type I Error)：即“伪阳性”

当虚无假设 (\(H_0\)) 实际上是正确的，但我们却错误地拒绝了它。

例子：火警钟在没有火灾时响起。它“宣称”发生了变动，但事实上并没有。

你知道吗？ 第一型错误的概率等于检验的显著性水平 (\(\alpha\))（通常为 5% 或 0.05）。

第二型错误 (Type II Error)：即“伪阴性”

当虚无假设 (\(H_0\)) 实际上是错误的，但我们却未能拒绝它（我们“接受”了它）。

例子：火灾正在燃烧，但火警钟却保持沉默。它未能侦测到变动。

记忆小撇步：真相法则

第一型 (Type I)： 拒绝了真相 (The Null was True)。
第二型 (Type II)： 接受了谎言 (The Null was False/a Lie)。

重点总结： 第一型错误是“狼来了”却没狼；第二型错误是狼就在眼前却没发现！

3. 检验力 (Power of a Test)

假设检验的检验力 (Power) 是指正确拒绝一个错误的虚无假设的能力。简单来说，就是当效果确实存在时，检验能够成功侦测出该效果的概率。

公式

检验力 = \(1 - P(\text{第二型错误})\)

如果发生第二型错误的风险很高，检验力就低。我们总是追求高检验力！

如何提高检验力：

增加样本量 (\(n\))： 这是最常用的方法。更多数据会使检验更敏感。
提高显著性水平 (\(\alpha\))： 如果从 1% 提高到 5%，你更有可能拒绝 \(H_0\)，这会增加检验力（但同时也会增加第一型错误的风险！）。
选择较大的效果量 (Effect size)： 侦测巨大的变化比微小的变化容易得多。

小复习： 检验力就像显微镜的“放大倍率”。强大的检验可以看见微弱的细节（效果），而弱的检验则会错过它们。

4. 显著性检验：临界区域 vs. p-值

进行检验时，你有两种方法来决定是否拒绝 \(H_0\)。两者最终得到的结论是一样的！

临界区域法 (Critical Region Method)

找到一个“截止值”（即临界值 Critical Value）。如果你的检验统计量 (Test Statistic) 落入“临界区域”（分布的尾端），你就拒绝 \(H_0\)。

p-值法 (p-value Method)

p-值 是指假设 \(H_0\) 为真时，得到目前结果（或更极端结果）的概率。

如果 p-值 \(\leq\) 显著性水平 (\(\alpha\))：拒绝 \(H_0\)（结果显著）。
如果 p-值 \(>\) 显著性水平 (\(\alpha\))：不拒绝 \(H_0\)（结果不显著）。

鼓励一下： 如果觉得 p-值很难理解，别担心！只要记住："If the p is low, the Null must go!"（p值若低，虚无假设必走！）

考试重要提醒： 在关于母体相关系数的假设检验中，通常会直接使用表格中的临界值，而不是 p-值。

重点总结： 无论你是用临界区域还是 p-值，目的都是检查你的样本结果是否“古怪”到足以证明虚无假设很可能是错的。

5. 实际重要性与样本量

在现实世界中，不能只看数字，还必须观察背景因素 (Context)。

样本量很重要： 如果样本量极大，即使是微小且毫无意义的差异，也可能呈现出“统计显著性”。
证据强度： 永远要评估你的结论有多强。如果你的 p-值是 0.049，而截止值是 0.05，虽然显著，但也只是“勉强”显著！
改变 \(n\)： 如果检验结果不明确，统计学家可能会增加样本量，以取得更好的证据并提高检验力。

常见错误： 以为“统计显著”就等于“重要”。如果一种新药只能降低 0.1% 的血压，它可能是统计上显著的（不是随机造成的），但对医生来说并没有临床上的实用价值！

重点总结： 务必在问题的情境下解释你的结果。大样本确实能更容易找到证据，但请确保这些证据在现实生活中是有意义的。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

Hypothesis testing, significance testing, confidence intervals and power