欢迎来到抽样的世界!
你有没有想过,民意调查员是如何预测选举结果的?或者科学家如何在不测试地球上每个人的情况下,判断一种新药是否有效?这就是统计抽样 (Statistical Sampling) 的威力。在本章中,你将学习如何挑选一小组人(或物件)来代表一个更大的群体。这就像尝一勺汤来判断整锅汤是否需要多加点盐一样——你不需要把整锅汤喝完就能知道结果!
读完这些笔记后,你将了解我们收集数据的不同方式,以及为什么选择正确的方法是获取准确结果的秘诀。
1. 母体 vs. 样本
在我们开始挑选群体之前,需要先搞清楚“谁”和“什么”。
母体 (Population): 这是你感兴趣的整个群体或物件。如果你想知道学校学生的平均身高,母体就是该校的每一位学生。
样本 (Sample): 这是母体的子集(一小部分),是你实际从中收集数据的对象。如果你在食堂询问 30 名学生他们的身高,这 30 名学生就是你的样本。
普查 (Census): 这是指观察或测量母体的每一个成员。在英国,政府每 10 年会进行一次人口普查。
优缺点:重大取舍
为什么我们不每次都进行普查呢?听起来似乎比较准确,对吧?没错,它确实很准确,但并不总是切实可行。
普查的优点:
- 能提供完全准确的结果。
- 没有遗漏任何人。
- 昂贵且耗时。
- 很难联系到每一个人。
- 如果测试涉及破坏产品(例如测试灯泡寿命),普查会导致你没有产品可以销售!
样本的优点:
- 更加快捷且便宜。
- 收集数据所需的人力较少。
- 数据可能不是百分之百准确。
- 样本可能无法完全代表整个母体(这称为偏差 (bias))。
重点总结
普查对于准确性来说很棒,但对你的钱包和时间表来说却是个噩梦。抽样既快速又实惠,但存在无法成为母体“完美缩影”的风险。
2. 随机抽样技术
为了使抽样公平,母体的每一位成员都应该有被选中的机会。这就是随机抽样 (Random Sampling) 的作用。要做到这一点,通常需要一个抽样框 (Sampling Frame)——即母体中所有人的名单(例如登记册或电话簿)。
简单随机抽样 (Simple Random Sampling)
这是最纯粹的随机抽样形式。想象把每个人的名字放进一个巨大的帽子里,然后把它们抽出来。在现代,我们使用随机数产生器。
如何操作:
- 为你的抽样框中的每个人分配一个唯一的编号。
- 使用计算器或电脑产生随机数。
- 挑选与产生出的编号相符的人。
系统抽样 (Systematic Sampling)
把这想象成一种“有系统”的抽样。你随机选择一个起点,然后每隔 \(k\) 个人挑选一个。
如何操作:
- 计算间隔 \(k = \frac{\text{母体大小}}{\text{样本大小}}\)。
- 在 1 到 \(k\) 之间随机选一个数作为你的起点。
- 此后每隔 \(k\) 个人选取一人。
分层抽样 (Stratified Sampling)
有时母体有明确的分组(称为层 (strata)),例如学校的年级或不同年龄层。为了公平,你需要样本的比例与母体相同。
公式: \( \text{该层的样本数} = \frac{\text{该层人数}}{\text{母体总人数}} \times \text{样本大小} \)
不用担心,这并不难! 记住,这一切都是关于百分比。如果学校有 60% 的学生是女生,那么你的样本中也应有 60% 是女生。
记忆小撇步
Stratified (分层) = Strata (层) = Segments (分段)。想象蛋糕的层次,你切的一块蛋糕应该要包含每一层才行!
3. 非随机抽样技术
有时我们没有所有人的名单(没有抽样框),所以必须使用非随机方法。
配额抽样 (Quota Sampling)
这就像分层抽样,但没有随机性。面试官被要求在街上找 20 名男性和 20 名女性。一旦凑齐 20 名男性,他们就会停止询问男性,转而只寻找女性。
优点:非常简单且低成本。缺点:可能存在偏差,因为面试官可能会选择那些看起来“友好”的人。
方便抽样 (Opportunity Sampling)
这只是挑选当下随手可得的人。如果你站在健身房外,询问前 10 个路人关于他们的饮食习惯,这就是方便抽样。
优点:获取数据最简单的方法。缺点:极不可能代表整个母体。(在健身房的人可能比普通人吃得更健康!)
你知道吗?
方便抽样是学生在做专题作业时最常用的方法,但它也是最常被批评为有偏差的方法!
4. 批判与偏差
在考试中,你可能会被要求“批判 (critique)”一种抽样方法。这仅仅意味着“找出其中的错误”。
需要注意的常见陷阱:
- 样本太小:如果你只问 2 个人,你不可能知道 1,000 个人的想法。
- 偏差:样本是否只包含某一类型的人?(例如,只在周二上午 10 点进行采访,会忽略掉所有朝九晚五上班的人)。
- 抽样框错误:名单是否过期?是否排除某些特定人群(例如没有座机电话的人)?
“不同样本”规则
重要点:记住,来自同一个母体的不同样本会得出不同的结论。这是自然的!一个好的抽样技术的目的是确保这些差异尽可能缩小。
快速复习箱
简单随机:每个人机会均等。需要名单。系统抽样:每隔 \(k\) 个人。简单快捷。
分层抽样:按组别比例。最具代表性。
配额抽样:非随机分组。快速但可能有偏差。
方便抽样:随手可得的人。偏差极大但极易操作。
总结:如何选择?
当你在解决统计与力学 (Paper 3) 的问题时,务必问自己这三个问题:
- 我有母体名单吗?(如果有,请使用随机抽样;如果没有,使用配额或方便抽样)。
- 母体是否分为明显的组别?(如果有,分层或配额抽样最好)。
- 我有充足的时间和预算吗?(如果没有,千万不要考虑普查!)。
最后的小贴士:当考试问及随机抽样的缺点时,“很难获得完整的抽样框”几乎永远是满分答案!