欢迎来到统计抽样的世界!

你好!欢迎来到数学课程中最实用的一章。你有没有想过新闻频道是如何在点票结束前预测选举结果的?或者科学家如何在不对地球上每个人进行测试的情况下,判断一种新药是否有效?答案就是抽样(Sampling)

在本章中,我们将学习如何挑选一小群人或物件来代表一个庞大的群体。如果比起代数,统计学让你觉得内容比较“文字化”,别担心——我们会循序渐进地为你拆解!


1. 基本概念:总体与样本

在我们开始挑选群体之前,需要先了解“整体”与“我们观察的部分”之间的区别。

关键术语:

总体(Population):你感兴趣的全部人员或物件。
例子:你学校里的所有学生。

样本(Sample):从总体中挑选出来,实际进行研究的一小群人。
例子:午饭时间在食堂随机挑选的 20 名学生。

普查(Census):收集总体中每一位成员的数据。
例子:政府每 10 年进行一次的人口普查。

抽样框(Sampling Frame):总体中所有人或物件的列表。你需要这份列表来进行随机抽样。
例子:学校的学生注册名册。

“汤”的类比

想象你正在煮一大锅蔬菜汤(这是总体)。你想知道汤是否需要多加点盐。你不会把整锅汤喝光(那是普查)!相反,你会先搅拌均匀,然后尝一勺(这是样本)。如果那一勺汤的咸度适中,你就可以推论(infer)整锅汤的味道没问题。

快速复习箱:
总体 = 整锅汤。
样本 = 那一勺汤。
普查 = 把整锅汤喝完(既昂贵又花时间!)。

核心重点:我们使用样本是因为它比普查更快捷、成本更低。如果我们的样本具代表性,我们就可以对整个总体做出“非正式推论”——也就是合理的估计。


2. 你必须掌握的抽样技巧

OCR 课程大纲要求你理解并能够使用两种特定的抽样方式:简单随机抽样(Simple Random)机会抽样(Opportunity)

A. 简单随机抽样

简单随机抽样中,总体的每一位成员都有均等的机会被选中。这就像把所有人的名字写在纸条上放入一个大帽子里,然后随机抽出来一样。

操作步骤:
1. 给总体的每一位成员编上唯一号码。
2. 使用随机数产生器(计算器或电脑上的)来抽取号码。
3. 将这些号码与列表中的名字进行对照。

优点:非常公平且无偏见。
缺点:你需要完整的总体列表(抽样框),这并不总是能够获得的。

B. 机会抽样(便利抽样)

这种方式是指你直接挑选当下随手可得的人。
例子:站在超级市场门口,询问头 10 个经过的人对某事物的看法。

优点:非常简单、快速且低成本。
缺点:极有可能产生偏见(biased)。如果你站在健身房外面,你的样本可能比一般人更热爱运动!

核心重点:简单随机抽样是公平性的“黄金标准”,但机会抽样在执行上最为容易。


3. 你需要评鉴的抽样技巧

接下来的这四种方法,你不需要知道如何计算,但你必须了解它们的定义,以便在考试中讨论它们的优缺点。

A. 系统抽样(Systematic Sampling)

以固定的间隔挑选对象。
例子:在名单上挑选每第 \(10^{th}\) 个人。
评鉴:执行简单,但如果列表本身有规律,可能会导致样本出现偏见。

B. 分层抽样(Stratified Sampling)

将总体分成不同的组别(称为层(strata)),例如按年龄或性别分组。然后从每一组中进行随机抽样,使样本的比例与总体一致。
例子:如果学校里 60% 是女生,40% 是男生,那么你的样本也应该包含 60% 女生和 40% 男生。
评鉴:它是最能代表总体的抽样方式,但组织过程较为复杂。

C. 配额抽样(Quota Sampling)

与分层抽样类似,你有分组,但不是随机选择。你只是不断寻找对象,直到填满你的“配额”。
例子:“我需要 10 个男性和 10 个女性;我就随机拦下遇到的前几个人。”
评鉴:不需要抽样框,但研究者挑选对象的偏好可能会引入偏见。

D. 整群抽样(Cluster Sampling)

你将总体分成小组(群体),每个小组都应该代表整体,然后挑选其中一个完整的群体进行研究。
例子:为了研究英国学生,你挑选 3 所特定的学校,并访问那里的所有学生。
评鉴:比在全国各地奔波便宜得多,但如果你挑选的群体并不具代表性,结果就会出错。

你知道吗?“Strata”一词在拉丁语中意为“层”。把分层抽样想象成一层层的蛋糕——你希望切出来的一块里每一层都有!


4. 偏见与样本大小

即使出发点是好的,事情也可能出错。这就是所谓的偏见(Bias)

常见错误:

1. 样本太小:如果你只询问 2 个人的意见,你不可能知道全国的想法。样本越大,结果通常越可靠。
2. 无回应(Non-response):你发出了 100 份问卷,但只有持有强烈(通常是负面)观点的人才回复。
3. 覆盖不足(Undercoverage):你的抽样框(列表)遗漏了一些人(例如:使用电话簿会遗漏没有座机电话的人)。

抽样变异性(Sampling Variability)

重要的是要明白,不同的样本会导致不同的结论。如果两名学生同时从同一所学校随机抽取 20 人,他们的平均身高结果可能会略有不同。这不是错误,这只是抽样的本质!

如果觉得这部分很难,别担心:在考试中,如果被要求“评鉴”某种抽样方法,试着找出它为什么可能无法公平地代表所有人。它是否遗漏了某个群体?它是否只是挑选了“容易”获取的人?样本大小是否太小?

核心重点:一个样本只有在具代表性(representative)时才是“好的”。如果它偏袒某个群体,那就是有偏见(biased)的。


摘要清单

在继续之前,请确保你能:

• 定义总体样本普查
• 解释如何使用随机数进行简单随机抽样
• 描述机会抽样以及它为何可能产生偏见。
• 识别系统抽样分层抽样配额抽样整群抽样
• 解释为什么较大的样本量通常更好。

做得好!你刚刚掌握了统计抽样的基础知识。准备好进入数据展示的学习了吗?