Sampling - Mathematics (8865) - GCE A-Level - Higher 1 (H1)

抽样简介

欢迎来到抽样 (Sampling) 这个章节！你有没有想过，新闻频道是如何在票数未完全点算完毕前就预测到选举结果的？或者，厨师只需试喝一小勺汤，就能知道那一大锅汤的调味是否准确？简单来说，这就是抽样的力量。

在本章中，我们将学习如何通过观察群体中的一小部分（称为样本 (sample)）来对整个群体（称为总体 (population)）做出聪明的推断。这是统计学中一项基础技能，能帮助我们高效地处理海量数据。

1. 总体与简单随机样本

在进入数学运算之前，我们先理清一些定义。这些概念是后续所有内容的基础。

什么是总体 (Population)？

总体是指我们感兴趣研究的所有项目或个体的集合。例如，如果我们想知道学校学生的平均身高，那么学校里的每一个学生都是这个总体的一部分。

什么是样本 (Sample)？

样本是总体的一个子集或一小部分。由于测量总体中的每一个人往往成本过高、过于耗时，甚至是不可能的，因此我们转而采取抽样。

简单随机样本 (Simple Random Sample, SRS)

为了确保统计的公平性，总体中的每一个成员都必须有均等的机会被选中。这称为简单随机样本。想象一下从一个摇匀的帽子里抽出名字的过程！

你知道吗？ 如果你品尝汤的时候没有先搅拌，你可能只会喝到浮在上面的奶油。在统计学中，“搅拌汤”就像是确保你的样本真正具有随机性和代表性！

重点总结：

总体是“整体”，而样本是“部分”。样本要具有参考价值，前提是它必须是随机选取的。

2. 作为随机变量的样本平均数 (\(\bar{X}\))

这部分开始变得有趣了！假设你随机抽取 10 名学生并计算他们的平均身高。然后，你的朋友抽取了另一个不同的 10 名学生样本。你们算出的平均数会一样吗？很可能不会！

因为样本平均数的值取决于样本中包含了哪些具体个体，所以我们将样本平均数 (\(\bar{X}\)) 视为一个随机变量。

\(\bar{X}\) 的期望值与方差

虽然样本平均数会变动，但它遵循一些非常明确的规则。如果原始总体的平均值为 \(\mu\)，方差为 \(\sigma^2\)：

1. 样本平均数的期望值： \(E(\bar{X}) = \mu\)
(平均而言，你的样本平均数会等于真实的总体平均值。)

2. 样本平均数的方差： \(Var(\bar{X}) = \frac{\sigma^2}{n}\)
(当样本容量 \(n\) 增大时，样本平均数的“离散程度”或不确定性会减小。这很合理：样本越大，结果越可靠！)

重点总结：

所有可能的样本平均数之平均值等于总体平均值，但随着样本容量增加，这些平均数的离散程度会缩小。

3. 样本平均数的分佈

我们如何得知 \(\bar{X}\) 分佈的“形状”？这取决于总体本身。

情况 1：从常态分佈总体中抽样

如果原始总体已经是常态分佈，表示为 \(X \sim N(\mu, \sigma^2\)，那么无论样本容量大小，样本平均数总是呈现常态分佈。

我们写作：\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

情况 2：中央极限定理 (Central Limit Theorem, CLT)

如果原始总体不是常态分佈怎么办？（或许它是偏态的，或者形状很奇怪）。别担心！这就是统计学“魔力”所在的地方。

中央极限定理指出，如果你的样本容量 \(n\) 足够大（通常 \(n \ge 30\)），那么样本平均数 \(\bar{X}\) 的分佈将会近似常态分佈，即使总体本身不是！

条件： \(n \ge 30\)
结果： \(\bar{X} \approx N(\mu, \frac{\sigma^2}{n})\)

类比： 想象有许多人抛洒一捧捧随机颜色的沙子。即使个别沙粒是随机散落的，但如果你抛洒得足够多，它们往往会在中间形成一个漂亮、平滑的“钟形曲线”堆叠。

快速复习：

- 若总体为常态分佈 \(\rightarrow \bar{X}\) 为常态分佈（任何 \(n\)）。
- 若总体非常态分佈 \(\rightarrow\) 当 \(n \ge 30\) 时，\(\bar{X}\) 为近似常态分佈（中央极限定理）。

4. 总体参数的无偏估计

在现实世界中，我们通常不知道真实的总体平均值 (\(\mu\)) 或方差 (\(\sigma^2\))。我们必须使用样本数据来估计它们。

总体平均值 (\(\mu\)) 的无偏估计

总体平均值的最佳估计就是你的样本平均数。

\(\text{无偏估计 } \hat{\mu} = \bar{x} = \frac{\sum x}{n}\)

总体方差 (\(\sigma^2\)) 的无偏估计

这部分比较棘手！你可能会以为直接使用样本方差公式即可，但这样计算出的数值往往会低估真实的总体方差。为了修正这个问题，我们在分母中使用 \(n-1\) 而不是 \(n\)。我们称这个无偏估计为 \(s^2\)。

原始数据公式：
\(s^2 = \frac{1}{n-1} \left( \sum x^2 - \frac{(\sum x)^2}{n} \right)\)

总结数据公式（使用常数 \(a\)）：
有时考试会给你一组平移了数值 \(a\) 的数据。别慌！平移数据不会改变方差。请使用这个版本：
\(s^2 = \frac{1}{n-1} \left( \sum (x-a)^2 - \frac{(\sum (x-a))^2}{n} \right)\)

避免常见错误： 千万别忘了 \(n-1\)！如果你除以 \(n\)，你得到的是样本方差。如果你除以 \(n-1\)，你得到的是总体方差的无偏估计。对于 H1 数学来说，我们几乎总是要求无偏估计！

重点总结：

为了正确估计总体方差，我们使用带有 \(n-1\) “修正因子”的 \(s^2\) 公式。

5. 总结与成功秘诀

抽样可能感觉很抽象，但它其实就是利用信息的小碎片来洞察大局。以下是解题的快速检查清单：

识别总体： 它是常态分佈吗？如果不是，\(n \ge 30\) 吗？（如果是，使用中央极限定理 CLT）。
检查方差： 题目给予的是总体方差 \(\sigma^2\)，还是需要你计算无偏估计 \(s^2\)？
留意公式： 记住平均数的方差是 \(\frac{\sigma^2}{n}\)。人们常会忘记除以 \(n\)！
仔细阅读题目： 题目问的是单个项目 (\(X\)) 的分佈，还是多个项目平均数 (\(\bar{X}\)) 的分佈？

如果起初觉得这些内容很复杂，别担心！只要多加练习，辨别何时该用总体方差或样本平均数的方差，这种感觉自然就会变得熟练。你一定做得到！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

抽样简介

1. 总体与简单随机样本

什么是总体 (Population)？

什么是样本 (Sample)？

简单随机样本 (Simple Random Sample, SRS)

重点总结：

2. 作为随机变量的样本平均数 (\(\bar{X}\))

\(\bar{X}\) 的期望值与方差

重点总结：

3. 样本平均数的分佈

情况 1：从常态分佈总体中抽样

情况 2：中央极限定理 (Central Limit Theorem, CLT)

快速复习：

4. 总体参数的无偏估计

总体平均值 (\(\mu\)) 的无偏估计

总体方差 (\(\sigma^2\)) 的无偏估计

重点总结：

5. 总结与成功秘诀

立即实践所学