欢迎来到抽样(Sampling)的世界!
你有没有想过新闻频道是如何在点算所有选票之前就预测选举结果的?或者科学家如何在不捕捉北海每一条鱼的情况下,得知鳕鱼的平均长度?秘诀就在于抽样(Sampling)。在本章中,我们将学习如何从一个群体中提取一个小“快照”,来了解整体的“大图像”。如果统计学起初让你觉得有点抽象,不用担心——我们会运用大量现实生活中的例子,让一切变得浅显易懂!
1. 总体与样本:大图像与快照
在收集数据之前,我们需要明确定义我们所探讨的对象。
关键术语
总体(Population):我们在特定调查中所感兴趣的所有个体或项目的总集合。例子:目前就读于你这所预科书院(Sixth-form college)的每一位学生。
样本(Sample):特别从总体中挑选出来,供我们研究的较小群体。例子:从你的书院中随机挑选出的 20 名学生。
汤的类比
想象你正在煮一大锅蔬菜汤。总体就是锅里的每一滴汤。为了看它是否需要加盐,你不会把整锅汤喝掉(那会是普查(census)!)。相反,你会搅拌汤,然后舀起一勺。那一勺就是你的样本。如果那一勺喝起来很咸,你就会推论(infer)整锅汤都很咸。
你知道吗?总体的大小并不总是固定的。总体可以是无限的(infinite),就像永远抛掷硬币的所有可能结果一样!
快速复习:总体与样本
• 总体:整个群体(可以是有限或无限的)。
• 样本:我们实际观察的那部分群体。
• 推论:利用样本对整个总体作出“最佳猜测”。
2. 进行非正式推论
我们使用样本来估计总体的情况。例如,我们可能会计算样本平均值(sample mean) \( ( \bar{x} ) \),以估计真实的总体平均值(population mean) \( ( \mu ) \)。
重点提示:不同的样本可能会导致不同的结论!如果你抽取三个不同的 10 名学生样本并测量他们的身高,你很可能会得到三个略有不同的平均值。这称为抽样变异性(sampling variability)。这是非常正常的,但这也是为什么我们必须谨慎选择样本的原因。
3. 随机抽样:公平的方式
为了确保我们的样本具备代表性(公平),我们通常希望它是随机(random)的。
简单随机抽样(Simple Random Sampling, SRS)
在简单随机抽样中,每一个指定大小的可能样本被选中的概率都是相同的。这就像把每个人的名字放进一个巨大的帽子里,然后蒙着眼睛把它们抽出来一样。
操作方法:
1. 为总体的每个成员分配一个唯一的编号(这份列表称为抽样框(sampling frame))。
2. 使用随机数产生器(在计算器或电脑上)来选取编号。
3. 对应这些编号的人员/项目就是你的样本。
关键总结:随机抽样有助于避免偏差(bias)——即某些群体无意中被过度偏袒的情况。
4. 其他抽样技术
有时简单随机抽样并不切实际。以下是你在 MEI 课程大纲中需要了解的其他方法:
系统抽样(Systematic Sampling)
从列表中按固定的间隔选择项目。
例子:你有一个 100 人的列表,你想抽取 10 个人的样本。你在 1 到 10 之间随机选定一个起点,然后选取列表中的每第 \( 10 \) 个人。
分层抽样(Stratified Sampling)
将总体根据某种特征(如年龄或性别)划分为多个组(称为层(strata))。然后从每一层中进行随机抽样,确保各个样本的大小与总体中该组的大小成比例。
例子:如果学校里 60% 是女生,40% 是男生,一个 100 人的分层样本就会随机挑选 60 名女生和 40 名男生。
配额抽样(Quota Sampling)
类似于分层抽样,但并非随机。访问员被告知要从特定群体中找到一定数量的人(例如:“找到 20 名 50 岁以上的男性”)。一旦“配额”满了,他们就会停止。
记忆小撇步:Quota =“数量”(Quantity)。你只需要从每个群体中获取特定数量即可。
便利抽样(Opportunity Sampling / Convenience Sampling)
你只是挑选当时在场且符合你标准的人。
例子:站在超级市场外,询问走过的前 50 个人。
整群抽样(Cluster Sampling)
将总体划分为“群组”(通常基于地理位置)。然后随机挑选几个群组,并对这些群组内的每个人进行抽样。
例子:如果你想对英国的医生进行抽样,你可能会随机挑选 5 家特定的医院,并采访其中的每一位医生。
自选抽样(Self-Selected / Volunteer Sampling)
人们选择主动参与研究。
例子:新闻网站上的网上投票。
5. 评估抽样方法与偏差
在考试中,你可能会被要求批评某种抽样方法。以下是你需要注意的事项:
偏差的问题
偏差(Bias)发生在样本不能准确反映总体的情况下。常见的原因包括:
• 无回应(Non-response):有些人拒绝回答,而这些人的意见可能与回应者不同。
• 抽样框误差(Sampling Frame errors):你使用的列表可能过时或遗漏了某些人。
• 方法偏差(Method Bias):便利抽样通常带有偏差,因为你只在一个特定的时间和地点与人交谈。
应避免的常见错误
• 混淆分层抽样与配额抽样:记住,分层抽样在组内使用随机选择;而配额抽样是非随机的(例如访问员挑选人)。
• 忘记抽样框:如果你没有完整的总体列表,就无法进行简单随机抽样!
• 低估便利抽样的风险:虽然它很容易操作,但它几乎总是最具偏差的方法。
快速复习盒:
• 简单随机:所有人机会均等。
• 系统抽样:每第 \( n \) 个项目。
• 分层抽样:按比例的随机分组。
• 配额抽样:非随机分组。
• 便利抽样:最容易但偏差最大。
• 自选抽样:仅限志愿者。
本章总结
理解总体与样本之间的区别是所有统计学的基础。为了让样本有用,我们尽量使其随机化以避免偏差。虽然简单随机抽样是“黄金标准”,但在现实世界中,分层抽样或系统抽样等其他方法通常更实用。时刻留意潜在的偏差——这往往是统计预测出错的最常见原因!