介绍:为什么抽样在进阶数学统计学中至关重要

未来的统计学家们,你们好!欢迎来到激动人心的抽样 (Sampling) 世界。
本章作为 S3 单元的一部分,是统计学的基础。它教会我们如何收集可靠的数据,而无需对现实中的每一个事物都进行测量。想象一下,要找出英国每个人的平均身高——这根本不可能!因此,我们采用样本 (Sample)

理解科学的抽样技术至关重要,因为糟糕的抽样会导致糟糕的数据,而糟糕的数据会导致错误的结论(或者导致假设检验失败!)。如果一开始觉得有些复杂也不必担心,我们将一步步拆解这些方法。

核心学习目标:

  • 定义核心术语(总体、样本、抽样框)。
  • 区分不同的随机抽样与非随机抽样技术。
  • 评估每种方法的优缺点。

第一部分:基础术语

在学习如何选择样本之前,我们必须掌握相关的专业术语。

1.1 总体与样本

总体 (Population)

总体 (Population) 是我们研究中感兴趣的全部个体或项目的集合。这可以是人、动物、物体或数据点。
例子:如果你想研究工厂今天生产的灯泡质量,那么总体就是今天生产的“所有”灯泡。

样本 (Sample)

样本 (Sample) 是从总体中选出的用于测量或观察的一小部分,是总体中可控的子集。
比喻:想象一下烤蛋糕。你不需要吃掉整个蛋糕来判断它是否烤熟,只需要尝一小勺(样本)来测试面糊(总体)即可。

普查 (Census)

当总体中的每一个成员都被纳入研究时,就称为普查 (Census)
什么时候使用? 仅当总体规模非常小,或者法律有要求时(例如全国人口普查)。

1.2 抽样单位与抽样框

抽样单位 (Sampling Unit)

抽样单位 (Sampling Unit) 是总体中可以被选中作为样本的单个成员或项目。
例子:如果总体是学校里的学生,那么单位就是一个学生。

抽样框 (Sampling Frame)

抽样框 (Sampling Frame) 是总体中所有抽样单位的完整列表。它就像我们选择样本时的“通讯录”。
例子:包含所有在校生姓名的学生花名册。

快速回顾:基础概念
  • 总体 (Population): 整个群体。
  • 样本 (Sample): 群体中的一部分。
  • 抽样框 (Frame): 你从中进行挑选的名单。

第二部分:随机抽样方法

在统计推断中,我们的目标是获得一个具有代表性的样本。这意味着样本的特征应能反映总体的特征。实现这一目标的最佳方法是随机抽样 (Random Sampling),其中每个单位被选中的概率已知且不为零。

2.1 简单随机抽样 (Simple Random Sample, SRS)

这是最简单的随机抽样形式。每个所需规模的可能样本都有相同的被选中概率,且每个单位都有相同的被选中机会。

简单随机抽样的过程:
  1. 创建一个完整的抽样框(所有单位的名单)。
  2. 给抽样框中的每个单位分配一个唯一的编号。
  3. 使用完全随机的方法(例如随机数生成器、从盒子里抽取带编号的纸条)来选出所需的样本量。

简单随机抽样的优点:

  • 理论上无偏(不涉及人为判断)。
  • 如果总体规模较小,易于理解和执行。

简单随机抽样的缺点:

  • 需要完整的抽样框,而这可能不存在或难以建立。
  • 对于庞大的总体,可能非常耗时。

2.2 系统抽样 (Systematic Sampling)

在系统抽样中,单位是按照从抽样框中设定的固定间隔选取的。

系统抽样的步骤:

设 \(N\) 为总体规模,\(n\) 为所需的样本规模。

  1. 计算间隔大小 \(k\):\(k = \frac{N}{n}\)(通常向下取整为最接近的整数)。
  2. 在 1 到 \(k\) 之间选择一个随机起始点 \(r\)。
  3. 选择编号为 \(r\) 的单位,然后选择 \(r + k\)、\(r + 2k\),以此类推,直到达到样本量 \(n\)。

例子:总体 \(N=100\),样本 \(n=10\)。间隔 \(k = 100/10 = 10\)。选择随机起点为 4。样本单位为 4, 14, 24, 34, ..., 94。

系统抽样的优点:

  • 通常快速且简单易行。
  • 如果单位在抽样框中是随机排列的,它往往能很好地代表总体。

系统抽样的缺点:

  • 如果抽样框中存在与间隔 \(k\) 相吻合的隐藏模式或周期性,样本会产生严重的偏差。(例如:每 7 天取样一次可能会错过只在周末发生的趋势。

2.3 分层抽样 (Stratified Sampling)

如果总体根据性别、年龄或地点等特征自然划分为不同的组(称为层 (strata)),分层抽样 (Stratified Sampling) 可以确保每一层在样本中都按比例得到体现。

何时使用分层抽样:

当总体是异质的 (heterogeneous)(不统一的),并且你认为被测量的特征(例如观点)受到不同层的影响时,请使用此方法。

比例原则(关键计算):

从每一层中选择的单位数量必须与该层在总体中所占的比例一致。

$$ \text{某层样本量} = \frac{\text{该层总体规模}}{\text{总体规模}} \times \text{总样本量} $$

例子:某学院有 600 名男生和 400 名女生(总数 1000)。我们需要 100 个人的样本。
男生样本:\(\frac{600}{1000} \times 100 = 60\) 名男生。
女生样本:\(\frac{400}{1000} \times 100 = 40\) 名女生。

计算出每一层所需的数量后,在每一层内部的实际选择则通过简单随机抽样或系统抽样完成。

分层抽样的优点:

  • 保证样本能准确反映总体在关键特征(如性别比例)上的结构。
  • 通常能产生最具代表性和可靠性的数据。

分层抽样的缺点:

  • 总体必须被明确分类为不同的层。
  • 必须拥有详细的抽样框,注明每个单位所属的层。
常见错误提醒!

不要将分层抽样与整群抽样 (Cluster Sampling) 混淆(后者常出现在高等大学课程中,但有时会在语境中提及)。在整群抽样中,你随机选择整个群体(群),并调查这些所选群内的*每一个人*。而在分层抽样中,你从*每一层*中选择*一部分*人。


第三部分:非随机(非概率)抽样方法

非随机抽样方法通常更快、更便宜,但它们依赖于研究者的主观判断。这意味着它们极易受到偏差 (bias) 的影响,不能可靠地用于统计推断(如假设检验)。

3.1 配额抽样 (Quota Sampling)

配额抽样类似于分层抽样,因为总体被划分为若干组(如年龄或性别),研究者为每一组设定目标(配额)。

配额抽样的运作方式:

调查员主动寻找调查对象,直到满足配额要求。在配额内部的选择完全由调查员的判断决定(例如,拦住遇到的前 10 名男性)。

配额抽样的优点:

  • 不需要抽样框。
  • 快速、简单且经济。
  • 即使在限制调查对象接触条件的情况下也能进行研究(例如,需要面对面接触调查对象)。

配额抽样的缺点:

  • 极易受到调查员偏差的影响(调查员可能会下意识选择看起来平易近人或乐意配合的人)。
  • 结果不能可靠地推广到整个总体。

3.2 机会抽样(便利抽样, Opportunity/Convenience Sampling)

这是科学研究中最简单、最快速,通常也是最差的方法。选择样本纯粹是因为这些单位在研究时随手可得。

例子:调查图书馆外你遇到的前 20 个人。

机会抽样的优点:

  • 极其容易且廉价。

机会抽样的缺点:

  • 几乎肯定不具备代表性。(样本仅反映了恰好在那时出现在那个地方的人的观点。
  • 会导致显著的偏差。

第四部分:总结与评估

4.1 普查在何时适用?

只有在以下情况下,普查(研究整个总体)才适用:

  • 总体规模非常小。
  • 研究涉及非破坏性测试(即不需要把灯泡测试到坏掉为止)。
  • 需要高准确度,且你有无限的时间和资源。

4.2 对比表:方法、优缺点

方法 关键特征 优点 缺点
简单随机 完全基于机会选择。 无偏;易于分析结果。 需要完整抽样框;大规模调查昂贵。
系统抽样 固定间隔 (\(k = N/n\))。 快速且易于执行。 若抽样框内有周期性循环,可能会产生偏差。
分层抽样 关键子组的比例代表性。 高度代表性;减少变异性。 需掌握层大小;需要复杂抽样框。
配额抽样 调查员按配额选取单位。 无需抽样框;田野调查快且便宜。 极易产生调查员偏差;并非真正随机。
机会抽样 选择随手可得的单位。 极其快速且便捷。 偏差最高;无代表性。

你知道吗? 政治民调公司花费数百万美元确保其样本完美分层,通常平衡数十种特征(年龄、地理位置、投票历史)以减少偏差并准确预测选举结果!

考试重点提示:

最常见的考试题目是要求你辩论为什么在特定场景下某种方法优于另一种。如果总体有明确、已知的子组,分层抽样通常是最佳答案。如果无法建立抽样框,你必须依赖配额抽样机会抽样,但记得指出它们存在的高风险偏差。


你已经成功掌握了抽样的核心方法!带着这些知识继续学习 S3 单元的后续章节吧,在那里我们将使用这些样本进行强大的统计推断。多加练习比例计算,你很快就能成为抽样专家!