欢迎来到 t 分布的世界!

在你之前的统计学学习中,你可能已经使用过正态分布(即 \(z\)-检验)来进行总体平均值的假设检验。但这有一个前提:你必须知道总体方差 (\(\sigma^2\))。

在现实世界中,我们很少能得知整个总体的确切方差。如果我们只有一个小样本且不知道总体方差,正态分布就显得不够精确。这时,t 分布(也称为学生 t 分布)就能派上用场了!本章将带你学习如何在信息有限的情况下进行假设检验并求出置信区间。

1. 为什么要使用 t 分布?

你可以把 \(t\)-分布想象成正态分布的“谨慎表亲”。因为我们是根据小样本来估计方差,所以我们对结果的确定性较低。为了反映这种不确定性,\(t\)-分布的“尾部”比正态分布更肥厚

我们什么时候使用它?
当符合以下条件时,请使用 \(t\)-分布:
1. 总体呈现正态分布(或近似正态)。
2. 总体方差 (\(\sigma^2\)) 未知
3. 样本大小 (\(n\)) 较小(通常 \(n < 30\)),尽管对于较大的样本它同样适用!

类比:想象你试图猜测学校学生的平均身高。如果你测量了 1,000 名学生,你可以非常有信心(使用正态分布)。如果你只测量了 5 名学生,你需要为你的猜测预留更多的“误差空间”——而 \(t\)-分布那肥厚的尾部,正是提供了额外的误差空间。

快速复习:如果你知道 \(\sigma^2\),就用 \(z\);如果你不知道 \(\sigma^2\),就用 \(t\)!

2. 核心概念:自由度与方差

方差的无偏估计 (\(s^2\))

由于我们不知道总体方差 (\(\sigma^2\)),我们必须从样本数据中计算出一个无偏估计值。我们使用符号 \(s^2\) 来表示。
其公式为:
\( s^2 = \frac{\sum (x - \bar{x})^2}{n - 1} \) 或 \( s^2 = \frac{1}{n-1} (\sum x^2 - \frac{(\sum x)^2}{n}) \)

常见错误:千万别除以 \(n\)!在 \(t\)-分布中,我们总是除以 \(n - 1\),这是为了修正小样本倾向于低估真实总体离散程度的事实。

自由度 (\(\nu\))

t 分布的形状会随着数据量的不同而改变,这由自由度决定,以希腊字母 nu (\(\nu\)) 表示。
对于单样本检验:
\( \nu = n - 1 \)

你知道吗?随着自由度的增加(样本变得越大),\(t\)-分布看起来就越趋近于标准正态分布!

重点提示:在查阅概率表之前,务必先计算好 \(s^2\) 和 \(\nu = n-1\)。

3. 进行假设检验

我们的目标是检验总体平均值 (\(\mu\)) 是否等于某个特定值 (\(\mu_0\))。

步骤详解:

1. 陈述你的假设:
\(H_0: \mu = \mu_0\)
\(H_1: \mu \neq \mu_0\)(双尾检验)或 \(\mu > \mu_0\) / \(\mu < \mu_0\)(单尾检验)。

2. 计算检验统计量 (\(t\)):
使用公式:
\( t = \frac{\bar{x} - \mu}{s / \sqrt{n}} \)
其中 \(\bar{x}\) 是样本平均值,\(\mu\) 是假设的平均值,而 \(s\) 是你计算出的无偏方差估计值的平方根。

3. 寻找临界值:
使用你的自由度 (\(\nu\)) 和显著性水平 (\(\alpha\)),在统计表中查出 \(t\)-分布的临界值。

4. 比较并下结论:
如果计算出的 \(t\) 值距离零比临界值更远,则拒绝 \(H_0\)。否则,不拒绝 \(H_0\)

结论常用句型:“在 5% 的显著性水平下,有足够的证据表明苹果的平均重量已经发生了变化。”

4. 平均值的置信区间

有时候,我们不是要检验特定的数值,而是想找出一个区间,让我们有 95%(或 99%)的把握认为真实的总体平均值落在其中。

对称置信区间的公式为:
\( \bar{x} \pm t_{\nu}(\alpha) \times \frac{s}{\sqrt{n}} \)

公式拆解:
- \(\bar{x}\):样本平均值(区间的中心)。
- \(t_{\nu}(\alpha)\):对应 \(\nu = n-1\) 时的 \(t\)-分布查表值。对于 95% 的置信区间,你要查的是 2.5% 的尾部(0.025),因为 5% 的概率被分配在两端。
- \(\frac{s}{\sqrt{n}}\):这被称为标准误 (Standard Error)

记忆小撇步:将置信区间想象成:结果 \(\pm\) (安全系数 \(\times\) 精确度)

5. 总结与成功秘诀

快速检查表:
- 标准差:使用 \(s\)(包含 \(n-1\) 的版本)。
- 自由度:\(\nu = n-1\)。
- 检验统计量:\( t = \frac{\bar{x} - \mu}{s / \sqrt{n}} \)。
- 前提条件:原始总体必须是正态分布

避免常见陷阱:

1. 漏掉 \(n-1\):学生常常忘记在查表时使用 \(n-1\)。一定要先写下 \(\nu = \dots\)!
2. 单尾 vs 双尾:仔细阅读题目。如果题目说“平均值是否改变”,那就是双尾;如果题目说“平均值是否大于”,那就是单尾。
3. 方差 vs 标准差:确认题目给的是 \(s^2\) 还是 \(s\)。如果题目给的是方差,记得在套用公式前先将其开根号!

如果起初觉得这些概念有些棘手也不用担心!它的逻辑与你之前做过的 \(z\)-检验完全相同,我们只是换了一张不同的表,并用稍微不同的方式来计算离散程度。多练习几题,规律自然就会变得清晰明了!