Sampling - Mathematics (9758) - GCE A-Level - Higher 2 (H2)

简介：为什么要抽样？

你有没有想过，民调机构如何只访问几千人，就能预测数百万人的选举结果？又或者，厨师只需试喝一勺汤，就能知道整锅汤的咸度是否适中？简而言之，这就是抽样（Sampling）！

在 H2 数学中，我们学习抽样是为了了解如何通过观察一个较小的群体（样本，Sample），来对一个庞大的群体（总体，Population）做出非常准确的“推测”。这不仅能节省时间和金钱，有时这也是唯一取得数据的方法，而无需损坏所有产品（例如：测试玻璃瓶在破裂前能承受多少压力！）。

1. 基本概念：总体 vs 样本

在深入探讨数学之前，我们先理清这些定义：

总体（Population）：你感兴趣的所有对象或个体的总集合。（例如：新加坡所有的 H2 数学学生）。
样本（Sample）：从总体中选出，并实际进行测量的子集。（例如：从你学校挑选出的 50 名学生）。
简单随机样本（Simple Random Sample, SRS）：一种样本，其中总体的每一个成员都有相等机会被选中。就像是从一个充分搅拌过的罐子里抽签一样。

你知道吗？ 如果样本不是随机的，它可能会产生偏差（Biased）。例如，如果你只在健身房询问人们关于健康的看法，你的结果将无法代表整个国家！

2. 作为随机变量的样本平均值 \(\bar{X}\)

这部分很有趣。如果你抽取 10 个人的样本并计算他们的平均身高，你会得到一个数值。如果你抽取另一个 10 人的样本，你很可能会得到一个不同的平均身高。

由于样本平均值的数值会随着你选取的样本而改变，我们将样本平均值视为一个随机变量（Random Variable），记作 \(\bar{X}\)。

\(\bar{X}\) 的关键性质：

如果总体的平均值为 \(\mu\) 且方差为 \(\sigma^2\)，那么对于大小为 \(n\) 的样本：

期望值（中心）： \(E(\bar{X}) = \mu\)。
解释：平均来说，样本平均值会等于总体平均值。
方差（离散程度）： \(Var(\bar{X}) = \frac{\sigma^2}{n}\)。
解释：当样本大小 \(n\) 变大时，你的样本平均值会变得更稳定（波动更小）。

记忆小撇步： 把 \(n\) 看作“信息量”。你拥有的“信息”(\(n\)) 越多，平均值中的“误差”或“波动”就越少！

3. 样本平均值的分配

\(\bar{X}\) 在图表上看起来是什么样子？对于考试，你需要掌握两种主要情境：

情境 A：总体本身已呈正态分配

如果总体遵循正态分配 \(N(\mu, \sigma^2)\)，那么无论样本大小如何，\(\bar{X}\) 永远会是正态分配。

公式： \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

情境 B：总体不是正态分配（中心极限定理）

这就是统计学的“魔力”所在！即使你的总体形状很怪（偏态、平坦或凹凸不平），只要你的样本大小足够大，\(\bar{X}\) 的分配就会变得近似正态分配。

经验法则： 在 H2 课程大纲中，“足够大”通常是指 \(n \ge 30\)。

中心极限定理（CLT）指出：
若 \(n\) 够大（\(n \ge 30\)），则 \(\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\)（近似于此分配）。

如果这看起来很难，别担心！ 只要记住：大的 \(n\) \(\rightarrow\) 平均值的正态分配。这就像一群混乱的人；个人行为是不可预测的，但作为一个大型群体，他们的平均行为会遵循一个可预测的模式。

4. 无偏估计量：处理真实数据

在现实世界中，我们通常不知道真正的总体平均值 (\(\mu\)) 或方差 (\(\sigma^2\))。我们必须使用样本数据来估计它们。

1. 估计总体平均值 (\(\mu\))

最好的估计量就是样本平均值 \(\bar{x}\)：

\(\mu \text{ 的无偏估计量} = \bar{x} = \frac{\sum x}{n}\)

2. 估计总体方差 (\(\sigma^2\))

这是一个常见的陷阱！你可能会认为直接使用样本方差公式即可，但为了获得无偏（Unbiased）估计量（标记为 \(s^2\)），我们除以的是 \(n-1\) 而不是 \(n\)。

公式：
\(s^2 = \frac{1}{n-1} \left[ \sum x^2 - \frac{(\sum x)^2}{n} \right]\)

为什么是 \(n-1\)？ 使用 \(n\) 通常会低估真实的离散程度。除以一个较小的数 (\(n-1\)) 可以修正这种“偏差”。我们称之为总体方差的无偏估计量。

5. 处理已整理的数据

有时，考试题目不会给你一串原始数值，而是给你“已整理的数据”，例如 \(\sum (x-a)\) 或 \(\sum (x-a)^2\)。别慌！我们只需使用调整后的公式即可。

处理已整理数据的步骤：

如果你拿到 \(\sum (x-a)\) 和 \(\sum (x-a)^2\)：

找出“平移后”数据的平均值： \(\overline{x-a} = \frac{\sum (x-a)}{n}\)
找出实际的总体平均值估计量： \(\bar{x} = a + \overline{x-a}\)
找出总体方差估计量 \(s^2\)：
\(s^2 = \frac{1}{n-1} \left[ \sum (x-a)^2 - \frac{(\sum (x-a))^2}{n} \right]\)

小贴士： 注意 \(a\) 的值不会改变方差！方差衡量的是离散程度，将整组数据向左或向右平移（即加上或减去 \(a\)）并不会改变它们的散布状态。

常见错误提示

混淆 \(\sigma^2\) 和 \(\frac{\sigma^2}{n}\)： 当讨论单个个体时使用 \(\sigma^2\)。当你讨论一组数据的平均值时，使用 \(\frac{\sigma^2}{n}\)。
忘记 "n-1"： 务必检查题目问的是“样本方差”（除以 \(n\)）还是“总体方差的无偏估计量”（除以 \(n-1\)）。在抽样中，我们几乎总是使用 \(n-1\) 的版本。
CLT 的条件： 只有当原始总体非正态分配且 \(n \ge 30\) 时，才调用中心极限定理。如果总体本身已经是正态分配，你就不需要 CLT！

重点总结

1. 样本平均值 \(\bar{X}\) 是一个随机变量，其平均值为 \(\mu\)，方差为 \(\frac{\sigma^2}{n}\)。
2. 中心极限定理： 若 \(n \ge 30\)，无论总体形状如何，\(\bar{X}\) 皆近似正态分配。
3. 无偏估计量： 使用 \(\bar{x}\) 来估计 \(\mu\)，并使用除以 \(\frac{1}{n-1}\) 的公式来估计 \(\sigma^2\)。
4. 样本数越大 (\(n\))，估计结果越可靠（方差越小）。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。