欢迎来到统计抽样的世界!

你有没有想过,为什么新闻台在选票还没开完之前,就能预测选举结果?或者科学家如何在不对地球上每个人进行测试的情况下,判断一种新药是否有效?答案就是:统计抽样 (Statistical Sampling)

在这一个章节中,我们将学习如何挑选一小群人(或事物)来代表一个更庞大的群体。统计学就像侦探工作一样——我们利用小小的线索来解开巨大的谜团。如果一开始觉得内容有点「文字化」,别担心;一旦你看懂了其中的逻辑,学起来就会轻松得多!

1. 总体 (Population) 与样本 (Sample)

在我们开始「侦探工作」之前,必须先厘清我们调查的对象。我们主要使用这两个术语:

总体 (Population):这是我们感兴趣的「整个」群体或事物。例如,如果你想知道学校里学生最喜欢的食物,总体就是该校的每一位学生

样本 (Sample):这是从总体中挑选出来的一小群人。我们研究样本,是为了试图了解整个总体。例如,询问你所属年级的 30 位学生他们最喜欢的食物。

浓汤的比喻

想像你在煮一大锅蔬菜汤,想知道需不需要加盐。你不会把整锅汤喝完(那是总体),你只会舀一勺来尝(那是样本)。如果那一勺味道刚好,你就可以推论 (infer) 整锅汤的味道都不错!

重点总结

总体是全部;样本只是其中的一部分,用来作出经过深思熟虑的猜测(推论)。

快速复习:
总体 (Population):整个群体。
样本 (Sample):我们实际调查的那部分群体。
推论 (Inference):根据样本对总体作出结论。

2. 我们如何选择样本?

挑选样本的方法有很多种。对于 OCR 考试,你需要能够运用其中两种特定的方法,并评析(讨论优缺点)另外四种方法。

A. 简单随机抽样 (Simple Random Sampling)

简单随机抽样中,总体的每一位成员都有均等的机会被选中。就像把每个人的名字写在纸条上放入一个巨大的帽子里,然后盲目地抽出来一样。

步骤说明:
1. 列出总体中每一位成员的名单(这份名单称为抽样框, sampling frame)。
2. 为每位成员编上唯一的号码。
3. 使用随机数字产生器(计算器或电脑)选出你需要的号码。

优点:绝对公平,通常没有偏差 (bias)
缺点:如果总体非常大,操作起来会很困难且耗时。

B. 机会抽样 (Opportunity Sampling)

这通常被称为“便利抽样”。你只需挑选当时在场且符合你标准的人。例如,站在商店门口询问前 10 位路过的人。

优点:非常快速、简单且省钱。
缺点:非常容易产生偏差。如果你站在健身房外,你的样本只会代表那些喜欢健身的人,而不代表整个城镇!

你知道吗?
如果你只访问你的朋友来完成学校作业,你就是在做机会抽样!这虽然容易,但可能无法公平地代表整个学校。

3. 其他需要评析的方法

你无需在数学上进行这些运算,但必须能够描述它们,并指出它们的优劣之处。

系统抽样 (Systematic Sampling)

以固定的间隔挑选对象。例如,从名单中每隔 10 个人选出一位。
“我会选第 5 个人,然后是第 15 位,接着是 25 位……”

分层抽样 (Stratified Sampling)

将总体根据特性(如年龄或性别)分成不同组别(称为层, strata)。然后根据每层的大小比例,从中进行随机抽样。
“如果学校有 60% 的女生和 40% 的男生,我抽取的 10 个人的样本中,应该要有 6 位女生和 4 位男生。”

配额抽样 (Quota Sampling)

类似分层抽样,但不是随机的。你为每一组设定了“目标”或“配额”。一旦某个类别的配额满了,你就停止询问该类别的人。
“我需要 10 个青少年。我会一直问人,直到找到 10 个自称是青少年的人为止。”

整群抽样 (Cluster Sampling)

将总体分为现有的群组(如“导师班”或“街道”)。随机挑选几个群组(整群),并研究这些群组内的所有人。
“我会随机挑选学校里的 3 间教室,并访问这些教室里的所有学生。”

重点总结

不同的方法有不同的公平性。随机抽样通常最公平,但机会抽样配额抽样通常较快速。

4. 评析与偏差 (Critique and Bias)

统计学很重要的一环就是保持批判性!当你看到一个样本时,问问自己:这组样本能代表总体吗?

如果一个样本有偏差,代表它不能正确地反映总体。这会导致错误的推论。例如,如果你想知道英国人的平均身高,但你的样本只包含职业篮球选手,那么你的结论肯定是错的!

避免常见的错误:

1. 样本过小 (Small Sample Size):如果样本太小(例如只问 2 个人),就无法很好地代表总体。
2. 无响应 (Non-Response):有些人可能拒绝回答你的调查。如果这些人具备某种共同特质,你的数据就会产生偏差!
3. 抽样框错误 (Sampling Frame errors):如果你所使用的总体名单过期或遗漏了某些人,样本就不会是真正的随机。

记忆法:评析时参考 "RSVP"
评估抽样方法时,检查以下几点:
Random? (随机吗?公平吗?)
Size? (样本足够大吗?)
Varied? (样本是否包含各类型的人?)
Practical? (执行起来是否太困难?)

5. 最终总结

总体是整个群体;样本是其中的一部分。
简单随机抽样让每个人有均等机会(公平但缓慢)。
机会抽样使用当下在场的人(快速但有偏差)。
• 同一个总体的不同样本可能会导致不同的结论
• 时刻关注偏差——任何让样本不具代表性的因素都会导致数据的可信度下降。

如果觉得定义太多,别担心!只要回想“浓汤的比喻”即可。如果那一勺(样本)能很好地代表那一锅(总体),你的统计结果就会很美味!