欢迎来到抽样的世界!

你有没有想过,民意调查员是如何预测选举结果的?或者科学家如何在不测试地球上每个人的情况下,判断一种新药是否有效?这就是统计抽样 (Statistical Sampling) 的威力。在本章中,你将学习如何挑选一小组人(或物件)来代表一个更大的群体。这就像尝一勺汤来判断整锅汤是否需要多加点盐一样——你不需要把整锅汤喝完就能知道结果!

读完这些笔记后,你将了解我们收集数据的不同方式,以及为什么选择正确的方法是获取准确结果的秘诀。

1. 母体 vs. 样本

在我们开始挑选群体之前,需要先搞清楚“谁”和“什么”。

母体 (Population): 这是你感兴趣的整个群体或物件。如果你想知道学校学生的平均身高,母体就是该校的每一位学生

样本 (Sample): 这是母体的子集(一小部分),是你实际从中收集数据的对象。如果你在食堂询问 30 名学生他们的身高,这 30 名学生就是你的样本。

普查 (Census): 这是指观察或测量母体的每一个成员。在英国,政府每 10 年会进行一次人口普查。

优缺点:重大取舍

为什么我们不每次都进行普查呢?听起来似乎比较准确,对吧?没错,它确实很准确,但并不总是切实可行。

普查的优点:

  • 能提供完全准确的结果。
  • 没有遗漏任何人。
普查的缺点:
  • 昂贵耗时
  • 很难联系到每一个人。
  • 如果测试涉及破坏产品(例如测试灯泡寿命),普查会导致你没有产品可以销售!

样本的优点:

  • 更加快捷便宜
  • 收集数据所需的人力较少。
样本的缺点:
  • 数据可能不是百分之百准确。
  • 样本可能无法完全代表整个母体(这称为偏差 (bias))。

重点总结

普查对于准确性来说很棒,但对你的钱包和时间表来说却是个噩梦。抽样既快速又实惠,但存在无法成为母体“完美缩影”的风险。

2. 随机抽样技术

为了使抽样公平,母体的每一位成员都应该有被选中的机会。这就是随机抽样 (Random Sampling) 的作用。要做到这一点,通常需要一个抽样框 (Sampling Frame)——即母体中所有人的名单(例如登记册或电话簿)。

简单随机抽样 (Simple Random Sampling)

这是最纯粹的随机抽样形式。想象把每个人的名字放进一个巨大的帽子里,然后把它们抽出来。在现代,我们使用随机数产生器

如何操作:

  1. 为你的抽样框中的每个人分配一个唯一的编号。
  2. 使用计算器或电脑产生随机数。
  3. 挑选与产生出的编号相符的人。

系统抽样 (Systematic Sampling)

把这想象成一种“有系统”的抽样。你随机选择一个起点,然后每隔 \(k\) 个人挑选一个。

如何操作:

  1. 计算间隔 \(k = \frac{\text{母体大小}}{\text{样本大小}}\)。
  2. 在 1 到 \(k\) 之间随机选一个数作为你的起点。
  3. 此后每隔 \(k\) 个人选取一人。
例子:如果你有 100 人,想要 20 人的样本,\(k = 100 / 20 = 5\)。随机选择一个起点(例如 3),然后选取第 3、8、13、18 个人,以此类推。

分层抽样 (Stratified Sampling)

有时母体有明确的分组(称为层 (strata)),例如学校的年级或不同年龄层。为了公平,你需要样本的比例与母体相同。

公式: \( \text{该层的样本数} = \frac{\text{该层人数}}{\text{母体总人数}} \times \text{样本大小} \)

不用担心,这并不难! 记住,这一切都是关于百分比。如果学校有 60% 的学生是女生,那么你的样本中也应有 60% 是女生。

记忆小撇步

Stratified (分层) = Strata (层) = Segments (分段)。想象蛋糕的层次,你切的一块蛋糕应该要包含每一层才行!

3. 非随机抽样技术

有时我们没有所有人的名单(没有抽样框),所以必须使用非随机方法。

配额抽样 (Quota Sampling)

这就像分层抽样,但没有随机性。面试官被要求在街上找 20 名男性和 20 名女性。一旦凑齐 20 名男性,他们就会停止询问男性,转而只寻找女性。

优点:非常简单且低成本。缺点:可能存在偏差,因为面试官可能会选择那些看起来“友好”的人。

方便抽样 (Opportunity Sampling)

这只是挑选当下随手可得的人。如果你站在健身房外,询问前 10 个路人关于他们的饮食习惯,这就是方便抽样。

优点:获取数据最简单的方法。缺点:极不可能代表整个母体。(在健身房的人可能比普通人吃得更健康!)

你知道吗?

方便抽样是学生在做专题作业时最常用的方法,但它也是最常被批评为有偏差的方法!

4. 批判与偏差

在考试中,你可能会被要求“批判 (critique)”一种抽样方法。这仅仅意味着“找出其中的错误”。

需要注意的常见陷阱:

  • 样本太小:如果你只问 2 个人,你不可能知道 1,000 个人的想法。
  • 偏差:样本是否只包含某一类型的人?(例如,只在周二上午 10 点进行采访,会忽略掉所有朝九晚五上班的人)。
  • 抽样框错误:名单是否过期?是否排除某些特定人群(例如没有座机电话的人)?

“不同样本”规则

重要点:记住,来自同一个母体的不同样本会得出不同的结论。这是自然的!一个好的抽样技术的目的是确保这些差异尽可能缩小。

快速复习箱
简单随机:每个人机会均等。需要名单。
系统抽样:每隔 \(k\) 个人。简单快捷。
分层抽样:按组别比例。最具代表性。
配额抽样:非随机分组。快速但可能有偏差。
方便抽样:随手可得的人。偏差极大但极易操作。

总结:如何选择?

当你在解决统计与力学 (Paper 3) 的问题时,务必问自己这三个问题:

  1. 我有母体名单吗?(如果有,请使用随机抽样;如果没有,使用配额或方便抽样)。
  2. 母体是否分为明显的组别?(如果有,分层或配额抽样最好)。
  3. 我有充足的时间和预算吗?(如果没有,千万不要考虑普查!)。

最后的小贴士:当考试问及随机抽样的缺点时,“很难获得完整的抽样框”几乎永远是满分答案!