欢迎来到平均值的假设检验!
在之前的章节中,你已经学过如何检验一枚硬币是否有偏差,或是某个特定比例的人群是否偏好某个品牌。那些是针对离散 (discrete) 数据(可以点算的事物)。现在,我们将进入连续 (continuous) 数据的世界(可以测量的事物),例如学生的身高、麦片盒的重量或灯泡的寿命。
别担心,虽然这看起来比二项分布检验“重”一点,但背后的逻辑完全相同!我们只是将正态分布 (Normal Distribution) 当作我们的尺,来看看一个结果是令人惊讶的,还是“纯属巧合”。
1. 作为随机变量的样本平均值
想象你有一个装满雷根糖的巨大罐子。如果你只取出其中一颗,它的重量可能会非常重或非常轻。但如果你抓一把 20 颗雷根糖并算出它们的平均重量,这个平均值出现极端数值的几率就会小得多。
在统计学中,我们将样本的平均值称为 \(\bar{x}\)。因为每次我们抽取新样本时 \(\bar{x}\) 都会改变,所以我们将其视为一个随机变量 (random variable),记作 \(\bar{X}\)。
“更瘦”分布的规则
课程大纲要求你掌握一个非常具体的结果。如果你的原始总体遵循正态分布 \(X \sim N(\mu, \sigma^2)\),那么样本平均值也会遵循正态分布,但它会显得更“瘦”(离散程度更小):
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
其中:
- \(\mu\) 是总体平均值。
- \(\sigma^2\) 是总体方差。
- \(n\) 是样本大小。
快速复习:要得到这个新分布的标准差(通常称为标准误 Standard Error),你需要对方差取平方根:\(\frac{\sigma}{\sqrt{n}}\)。
你知道吗?
你的样本大小 (\(n\)) 越大,方差 (\(\frac{\sigma^2}{n}\)) 就越小。这很合理:相较于小样本,大样本能为你提供更可靠的真实平均值估计!
重点提示:进行平均值检验时,请务必使用 \(\bar{X}\) 的分布,这代表你必须将原始方差除以样本大小 \(n\)。
2. 设定检验
就像二项分布检验一样,我们需要一个起始假设和一个对立假设。
虚无假设 (Null Hypothesis, \(H_0\)):这是“现状”。我们假设平均值完全符合预期。
例如:\(H_0: \mu = 50\)
对立假设 (Alternative Hypothesis, \(H_1\)):这是我们正在调查的对象。 - 单尾检验 (1-tailed test):我们认为平均值已经增加 (\(\mu > 50\)) 或减少 (\(\mu < 50\))。 - 双尾检验 (2-tailed test):我们只是认为平均值已经改变 (\(\mu \neq 50\))。
避免犯下常见错误
编写假设时,请务必使用总体参数 \(\mu\)。切勿在 \(H_0\) 或 \(H_1\) 中使用 \(\bar{x}\)。假设是关于整个总体的,而不仅仅是你手头上的那个小样本!
3. 分步骤操作流程
如果你能找到一套方法并坚持使用,这些问题会变得简单得多。让我们看看“临界值”法。
第一步:假设
清楚写出 \(H_0\) 和 \(H_1\),并定义 \(\mu\) 代表什么(例如:“其中 \(\mu\) 为巧克力棒的平均重量”)。
第二步:分布
说明在虚无假设下样本平均值的分布:\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)。
第三步:显著性水平
从题目中找出显著性水平 (\(\alpha\))(通常是 5% 或 1%)。如果是双尾检验,记得将其一分为二(例如:两端各占 2.5%)。
第四步:找出临界区域
使用计算器的“逆向正态分布”(Inverse Normal) 功能,找出对应于你的 \(\bar{X}\) 分布显著性水平的边界值(临界值, Critical Value)。
例如:如果 \(\alpha = 5\%\) 且我们正在检验 \(\mu > 50\),请找出一个数值 \(c\),使得 \(P(\bar{X} > c) = 0.05\)。
第五步:比较与结论
- 如果观察到的样本平均值 \(\bar{x}\) 落在临界区域(“尾部”)之内,那么这不太可能是偶然发生的。拒绝 \(H_0\)。
第六步:结合情境的结论
务必用平实的语言写下最后一句。
例如:“在 5% 的显著性水平下,有足够的证据表明巧克力棒的平均重量已经减少。”
4. 使用 Z 分数转换
有时,与其直接在计算器上对 \(\bar{X}\) 进行操作,你可能更想使用标准正态分布 (Standard Normal Distribution) \(Z \sim N(0, 1)\)。如果你使用考试公式手册中提供的统计表,这会特别有帮助。
将样本平均值转换为检验统计量 (test statistic, \(z\)) 的公式为:
\(z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\)
将 \(z\) 分数视为“我的样本距离平均值有多少个标准差?”。如果 \(z\) 分数非常大(例如对于 5% 单尾检验大于 1.645),则结果是显著的!
5. 成功的重要提醒
记忆小帮手:看“尾部”说故事
如果问题问的是“平均值是否改变”,请使用双尾检验并平分显著性水平。如果问题问的是“增加”或“减少”,请使用单尾检验。
快速复习盒
- 总体:\(X \sim N(\mu, \sigma^2)\)
- 样本平均值:\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
- 假设:务必使用 \(\mu\)
- 结论:务必与现实生活情境(例如“灯泡”、“学生”)联系起来。
常见陷阱
1. 忘记除以 \(n\):这是最常见的错误。样本平均值总是比总体更稳定(分布更“瘦”)。
2. 使用方差而非标准差:在计算器中,“sigma”(\(\sigma\)) 代表标准差。如果题目给你的是方差 (\(\sigma^2\)),你必须先取平方根,然后再除以 \(\sqrt{n}\)。
3. 结论过于绝对:永远不要说“\(H_0\) 是正确的”或“我已经证明了平均值发生了变化”。请始终使用谨慎的语言,例如“有证据表明……”或“证据不足以表明……”
重点提示:假设检验其实就是在问:“我的样本平均值距离预期平均值是否远到离谱,以至于原始平均值一定是错的?”如果答案是肯定的,你就可以拒绝虚无假设!