简介:为什么要抽样?
你有没有想过,民调机构如何只访问几千人,就能预测数百万人的选举结果?又或者,厨师只需试喝一勺汤,就能知道整锅汤的咸度是否适中?简而言之,这就是抽样(Sampling)!
在 H2 数学中,我们学习抽样是为了了解如何通过观察一个较小的群体(样本,Sample),来对一个庞大的群体(总体,Population)做出非常准确的“推测”。这不仅能节省时间和金钱,有时这也是唯一取得数据的方法,而无需损坏所有产品(例如:测试玻璃瓶在破裂前能承受多少压力!)。
1. 基本概念:总体 vs 样本
在深入探讨数学之前,我们先理清这些定义:
- 总体(Population):你感兴趣的所有对象或个体的总集合。(例如:新加坡所有的 H2 数学学生)。
- 样本(Sample):从总体中选出,并实际进行测量的子集。(例如:从你学校挑选出的 50 名学生)。
- 简单随机样本(Simple Random Sample, SRS):一种样本,其中总体的每一个成员都有相等机会被选中。就像是从一个充分搅拌过的罐子里抽签一样。
你知道吗? 如果样本不是随机的,它可能会产生偏差(Biased)。例如,如果你只在健身房询问人们关于健康的看法,你的结果将无法代表整个国家!
2. 作为随机变量的样本平均值 \(\bar{X}\)
这部分很有趣。如果你抽取 10 个人的样本并计算他们的平均身高,你会得到一个数值。如果你抽取另一个 10 人的样本,你很可能会得到一个不同的平均身高。
由于样本平均值的数值会随着你选取的样本而改变,我们将样本平均值视为一个随机变量(Random Variable),记作 \(\bar{X}\)。
\(\bar{X}\) 的关键性质:
如果总体的平均值为 \(\mu\) 且方差为 \(\sigma^2\),那么对于大小为 \(n\) 的样本:
- 期望值(中心): \(E(\bar{X}) = \mu\)。
解释:平均来说,样本平均值会等于总体平均值。 - 方差(离散程度): \(Var(\bar{X}) = \frac{\sigma^2}{n}\)。
解释:当样本大小 \(n\) 变大时,你的样本平均值会变得更稳定(波动更小)。
记忆小撇步: 把 \(n\) 看作“信息量”。你拥有的“信息”(\(n\)) 越多,平均值中的“误差”或“波动”就越少!
3. 样本平均值的分配
\(\bar{X}\) 在图表上看起来是什么样子?对于考试,你需要掌握两种主要情境:
情境 A:总体本身已呈正态分配
如果总体遵循正态分配 \(N(\mu, \sigma^2)\),那么无论样本大小如何,\(\bar{X}\) 永远会是正态分配。
公式: \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
情境 B:总体不是正态分配(中心极限定理)
这就是统计学的“魔力”所在!即使你的总体形状很怪(偏态、平坦或凹凸不平),只要你的样本大小足够大,\(\bar{X}\) 的分配就会变得近似正态分配。
经验法则: 在 H2 课程大纲中,“足够大”通常是指 \(n \ge 30\)。
中心极限定理(CLT)指出:
若 \(n\) 够大(\(n \ge 30\)),则 \(\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\)(近似于此分配)。
如果这看起来很难,别担心! 只要记住:大的 \(n\) \(\rightarrow\) 平均值的正态分配。这就像一群混乱的人;个人行为是不可预测的,但作为一个大型群体,他们的平均行为会遵循一个可预测的模式。
4. 无偏估计量:处理真实数据
在现实世界中,我们通常不知道真正的总体平均值 (\(\mu\)) 或方差 (\(\sigma^2\))。我们必须使用样本数据来估计它们。
1. 估计总体平均值 (\(\mu\))
最好的估计量就是样本平均值 \(\bar{x}\):
\(\mu \text{ 的无偏估计量} = \bar{x} = \frac{\sum x}{n}\)
2. 估计总体方差 (\(\sigma^2\))
这是一个常见的陷阱!你可能会认为直接使用样本方差公式即可,但为了获得无偏(Unbiased)估计量(标记为 \(s^2\)),我们除以的是 \(n-1\) 而不是 \(n\)。
公式:
\(s^2 = \frac{1}{n-1} \left[ \sum x^2 - \frac{(\sum x)^2}{n} \right]\)
为什么是 \(n-1\)? 使用 \(n\) 通常会低估真实的离散程度。除以一个较小的数 (\(n-1\)) 可以修正这种“偏差”。我们称之为总体方差的无偏估计量。
5. 处理已整理的数据
有时,考试题目不会给你一串原始数值,而是给你“已整理的数据”,例如 \(\sum (x-a)\) 或 \(\sum (x-a)^2\)。别慌!我们只需使用调整后的公式即可。
处理已整理数据的步骤:
如果你拿到 \(\sum (x-a)\) 和 \(\sum (x-a)^2\):
- 找出“平移后”数据的平均值: \(\overline{x-a} = \frac{\sum (x-a)}{n}\)
- 找出实际的总体平均值估计量: \(\bar{x} = a + \overline{x-a}\)
- 找出总体方差估计量 \(s^2\):
\(s^2 = \frac{1}{n-1} \left[ \sum (x-a)^2 - \frac{(\sum (x-a))^2}{n} \right]\)
小贴士: 注意 \(a\) 的值不会改变方差!方差衡量的是离散程度,将整组数据向左或向右平移(即加上或减去 \(a\))并不会改变它们的散布状态。
常见错误提示
- 混淆 \(\sigma^2\) 和 \(\frac{\sigma^2}{n}\): 当讨论单个个体时使用 \(\sigma^2\)。当你讨论一组数据的平均值时,使用 \(\frac{\sigma^2}{n}\)。
- 忘记 "n-1": 务必检查题目问的是“样本方差”(除以 \(n\))还是“总体方差的无偏估计量”(除以 \(n-1\))。在抽样中,我们几乎总是使用 \(n-1\) 的版本。
- CLT 的条件: 只有当原始总体非正态分配且 \(n \ge 30\) 时,才调用中心极限定理。如果总体本身已经是正态分配,你就不需要 CLT!
重点总结
1. 样本平均值 \(\bar{X}\) 是一个随机变量,其平均值为 \(\mu\),方差为 \(\frac{\sigma^2}{n}\)。
2. 中心极限定理: 若 \(n \ge 30\),无论总体形状如何,\(\bar{X}\) 皆近似正态分配。
3. 无偏估计量: 使用 \(\bar{x}\) 来估计 \(\mu\),并使用除以 \(\frac{1}{n-1}\) 的公式来估计 \(\sigma^2\)。
4. 样本数越大 (\(n\)),估计结果越可靠(方差越小)。