Hypothesis testing for a mean using Normal distribution - Mathematics B (MEI) - H640 - Cambridge OCR A Level

欢迎来到平均数假设检验！

你有没有想过手机包装上标示的“平均电池寿命”是否真的准确？又或者一种新出的减肥餐单是否真的能改变某一群人的平均体重？在这一章，我们将学习如何使用正态分布 (Normal Distribution) 来判断关于总体平均数的说法是否可信，还是该拆穿它！别担心，一开始看起来步骤好像很多，我们会把它拆解成容易消化的小单元。

1. 逻辑：为什么要用样本平均数？

如果我们想检验一个关于整个总体的说法（例如“成年人的平均身高是 170cm”），我们通常不可能测量每一个人。因此，我们会抽取一个样本 (sample)。

要记住的关键是：样本平均数 (\( \bar{x} \)) 比单一数据点可靠得多。你可以这样想：如果你只测量一个人，他可能刚好特别高，这纯属巧合。但如果你测量 100 个人，他们的平均身高就更有可能接近真实的总体平均数。

样本平均数的分佈

根据课程纲要 (Ref: MH7)，如果我们从总体 \( X \sim N(\mu, \sigma^2) \) 中抽取一个大小为 \( n \) 的样本，样本平均数 \( \bar{X} \) 本身也会服从一个正态分布：

\( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)

请留意，方差 (variance) 被 \( n \) 除过了。这意味着当你的样本数越大，样本平均数的“离散程度”就会越小。你的估计也会变得越精准！

快速回顾框：
总体平均数 = \( \mu \)
总体方差 = \( \sigma^2 \)
样本大小 = \( n \)
标准误 (Standard Error) (即平均数的标准差) = \( \frac{\sigma}{\sqrt{n}} \)

重点提示：进行平均数检验时，请务必使用方差 \( \frac{\sigma^2}{n} \)，而不是 \( \sigma^2 \)！

2. 设定你的假设

每个检验都始于两个互相竞争的声明 (Ref: H4)：

1. 零假设 (Null Hypothesis, \( H_0 \))： 这代表“现状”。我们假设没有任何改变。它永远长这样：\( H_0 : \mu = \text{某个数值} \)。
2. 对立假设 (Alternative Hypothesis, \( H_1 \))： 这是你试图证明的目标。它可以是：
- 单尾 (大于)： \( H_1 : \mu > \text{数值} \)
- 单尾 (小于)： \( H_1 : \mu < \text{数值} \)
- 双尾 (不等于)： \( H_1 : \mu \neq \text{数值} \)

例子：一家工厂声称他们的麦片盒重 500g。你认为他们包装不足。
\( H_0 : \mu = 500 \)
\( H_1 : \mu < 500 \) (这是一个单尾检验)。

重点提示： \( H_0 \) 永远是“等于”。\( H_1 \) 则取决于题目中的描述（“增加”、“减少”或“改变”）。

3. 执行检验：两种方法

你的课程纲要 (Ref: H8) 要求你能够使用 p-值 (p-value) 或 临界区域 (critical regions) 进行计算。

方法 A：p-值法

p-值 是指在 \( H_0 \) 为真的情况下，得到一个跟你目前结果一样极端（或更极端）的结果的概率。

- 如果 p-值 < 显著性水平 (Significance Level)：拒绝 \( H_0 \)。(结果太罕见，不太可能是随机误差)。
- 如果 p-值 > 显著性水平：不拒绝 \( H_0 \)。

方法 B：临界区域法

临界区域 (Critical Region)（或称拒绝区域）是一组数值范围，若我们的检验统计量落入其中，我们就会拒绝 \( H_0 \)。这个区域的边界就是 临界值 (Critical Value)。

你知道吗？
显著性水平（通常为 5% 或 1%）实际上就是指当事件并未发生时，我们却“错误地发现结果”的概率。这是我们在拒绝零假设时所承担的犯错风险！

重点提示： p-值越小，反对零假设的证据就越强。记住口诀：“若 p 值低，Null 就得去！”(If the p is low, the Null must go!)

4. 计算步骤指南

跟随这些步骤来解决任何相关的考试题目：

步骤 1：写出假设。 使用符号 \( \mu \) 清晰地列出 \( H_0 \) 和 \( H_1 \)。
步骤 2：写出分布。 写下 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)。
步骤 3：计算检验统计量。 找出 \( z \)-分数（你的样本平均数与声称的平均数之间相差多少个标准误）：
\( z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \)
步骤 4：找出 p-值或临界值。 使用计算器的正态分布功能。
步骤 5：比较并作决定。 看看你的统计量是否落入拒绝区域。
步骤 6：写出结论 (结合题目背景)。 (Ref: MH10) 千万不要只写“拒绝 \( H_0 \)”。你必须写：“在 5% 的显著性水平下，有足够证据显示麦片盒的平均重量已经减少。”

常见错误： 很多同学会忘记除以 \( \sqrt{n} \)。如果你只用 \( \sigma \) 而不是 \( \frac{\sigma}{\sqrt{n}} \)，你的 \( z \)-分数会比应有的数值小得多，这样你很可能会错过显著的结果！

5. 当方差未知时

在现实生活中，我们很少知道总体方差 (\( \sigma^2 \))。你的课程纲要 (Ref: H8b) 指出，如果 样本数 \( n \) 很大，我们可以使用 样本方差 (\( s^2 \)) 来代替 \( \sigma^2 \)。

如果这看起来有点复杂，不用担心！ 只要看题目：如果题目给了你样本的方差，并说明样本很大（通常 \( n > 30 \)），直接把那个数值代入原本该放 \( \sigma^2 \) 的位置即可。

重点提示： 大样本让我们在处理方差时更有弹性。

最终核对清单

- 我是否使用了样本平均数的分布 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)？
- 我的 \( H_1 \) 是单尾还是双尾？
- 我的结论是否以通顺的文字写成，并回扣到题目中的背景故事？
- 如果是双尾检验，我是否记得在寻找临界值时将显著性水平减半？

成功小贴士： 永远要画一张正态曲线的草图。将代表显著性水平的“尾部”涂黑。这样做可以大大降低你搞错不等号方向的概率！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。