欢迎来到统计抽样的世界!
你好!欢迎来到数学课程中最实用的一章。你有没有想过新闻频道是如何在点票结束前预测选举结果的?或者科学家如何在不对地球上每个人进行测试的情况下,判断一种新药是否有效?答案就是抽样(Sampling)。
在本章中,我们将学习如何挑选一小群人或物件来代表一个庞大的群体。如果比起代数,统计学让你觉得内容比较“文字化”,别担心——我们会循序渐进地为你拆解!
1. 基本概念:总体与样本
在我们开始挑选群体之前,需要先了解“整体”与“我们观察的部分”之间的区别。
关键术语:
总体(Population):你感兴趣的全部人员或物件。
例子:你学校里的所有学生。
样本(Sample):从总体中挑选出来,实际进行研究的一小群人。
例子:午饭时间在食堂随机挑选的 20 名学生。
普查(Census):收集总体中每一位成员的数据。
例子:政府每 10 年进行一次的人口普查。
抽样框(Sampling Frame):总体中所有人或物件的列表。你需要这份列表来进行随机抽样。
例子:学校的学生注册名册。
“汤”的类比
想象你正在煮一大锅蔬菜汤(这是总体)。你想知道汤是否需要多加点盐。你不会把整锅汤喝光(那是普查)!相反,你会先搅拌均匀,然后尝一勺(这是样本)。如果那一勺汤的咸度适中,你就可以推论(infer)整锅汤的味道没问题。
快速复习箱:
• 总体 = 整锅汤。
• 样本 = 那一勺汤。
• 普查 = 把整锅汤喝完(既昂贵又花时间!)。
核心重点:我们使用样本是因为它比普查更快捷、成本更低。如果我们的样本具代表性,我们就可以对整个总体做出“非正式推论”——也就是合理的估计。
2. 你必须掌握的抽样技巧
OCR 课程大纲要求你理解并能够使用两种特定的抽样方式:简单随机抽样(Simple Random)和机会抽样(Opportunity)。
A. 简单随机抽样
在简单随机抽样中,总体的每一位成员都有均等的机会被选中。这就像把所有人的名字写在纸条上放入一个大帽子里,然后随机抽出来一样。
操作步骤:
1. 给总体的每一位成员编上唯一号码。
2. 使用随机数产生器(计算器或电脑上的)来抽取号码。
3. 将这些号码与列表中的名字进行对照。
优点:非常公平且无偏见。
缺点:你需要完整的总体列表(抽样框),这并不总是能够获得的。
B. 机会抽样(便利抽样)
这种方式是指你直接挑选当下随手可得的人。
例子:站在超级市场门口,询问头 10 个经过的人对某事物的看法。
优点:非常简单、快速且低成本。
缺点:极有可能产生偏见(biased)。如果你站在健身房外面,你的样本可能比一般人更热爱运动!
核心重点:简单随机抽样是公平性的“黄金标准”,但机会抽样在执行上最为容易。
3. 你需要评鉴的抽样技巧
接下来的这四种方法,你不需要知道如何计算,但你必须了解它们的定义,以便在考试中讨论它们的优缺点。
A. 系统抽样(Systematic Sampling)
以固定的间隔挑选对象。
例子:在名单上挑选每第 \(10^{th}\) 个人。
评鉴:执行简单,但如果列表本身有规律,可能会导致样本出现偏见。
B. 分层抽样(Stratified Sampling)
将总体分成不同的组别(称为层(strata)),例如按年龄或性别分组。然后从每一组中进行随机抽样,使样本的比例与总体一致。
例子:如果学校里 60% 是女生,40% 是男生,那么你的样本也应该包含 60% 女生和 40% 男生。
评鉴:它是最能代表总体的抽样方式,但组织过程较为复杂。
C. 配额抽样(Quota Sampling)
与分层抽样类似,你有分组,但不是随机选择。你只是不断寻找对象,直到填满你的“配额”。
例子:“我需要 10 个男性和 10 个女性;我就随机拦下遇到的前几个人。”
评鉴:不需要抽样框,但研究者挑选对象的偏好可能会引入偏见。
D. 整群抽样(Cluster Sampling)
你将总体分成小组(群体),每个小组都应该代表整体,然后挑选其中一个完整的群体进行研究。
例子:为了研究英国学生,你挑选 3 所特定的学校,并访问那里的所有学生。
评鉴:比在全国各地奔波便宜得多,但如果你挑选的群体并不具代表性,结果就会出错。
你知道吗?“Strata”一词在拉丁语中意为“层”。把分层抽样想象成一层层的蛋糕——你希望切出来的一块里每一层都有!
4. 偏见与样本大小
即使出发点是好的,事情也可能出错。这就是所谓的偏见(Bias)。
常见错误:
1. 样本太小:如果你只询问 2 个人的意见,你不可能知道全国的想法。样本越大,结果通常越可靠。
2. 无回应(Non-response):你发出了 100 份问卷,但只有持有强烈(通常是负面)观点的人才回复。
3. 覆盖不足(Undercoverage):你的抽样框(列表)遗漏了一些人(例如:使用电话簿会遗漏没有座机电话的人)。
抽样变异性(Sampling Variability)
重要的是要明白,不同的样本会导致不同的结论。如果两名学生同时从同一所学校随机抽取 20 人,他们的平均身高结果可能会略有不同。这不是错误,这只是抽样的本质!
如果觉得这部分很难,别担心:在考试中,如果被要求“评鉴”某种抽样方法,试着找出它为什么可能无法公平地代表所有人。它是否遗漏了某个群体?它是否只是挑选了“容易”获取的人?样本大小是否太小?
核心重点:一个样本只有在具代表性(representative)时才是“好的”。如果它偏袒某个群体,那就是有偏见(biased)的。
摘要清单
在继续之前,请确保你能:
• 定义总体、样本和普查。
• 解释如何使用随机数进行简单随机抽样。
• 描述机会抽样以及它为何可能产生偏见。
• 识别系统抽样、分层抽样、配额抽样和整群抽样。
• 解释为什么较大的样本量通常更好。
做得好!你刚刚掌握了统计抽样的基础知识。准备好进入数据展示的学习了吗?