欢迎来到统计抽样的世界!
在本章中,我们将探索数学家和科学家是如何收集有关这个世界的资讯。无论是预测选举结果,还是测试新药是否有效,我们通常都没有时间和金钱去询问地球上的每一个人。这就是抽样 (Sampling) 的用武之地!
阅读完这些笔记后,你将能理解“总体”与“样本”之间的区别,并准确地知道如何挑选合适的研究对象。如果一开始觉得统计学有点“文字游戏”的感觉,别担心——一旦你看透了它们与现实世界的联系,你会发现它其实非常有逻辑。
1. 大局观:总体 vs. 样本
在我们开始收集数据之前,我们需要定义我们实际上对“谁”或“什么”感兴趣。在 AQA Mathematics 7357 中,我们使用两个非常具体的术语:
总体 (Population)
总体是指你想研究的群体中的每一位成员。如果你想知道学校学生的平均身高,那么总体就是该校注册的每一位学生。
样本 (Sample)
样本是从总体中挑选出来的一小部分群体。如果你只测量了学校中 20 名学生的身高,这 20 名学生就是你的样本。
比喻:想象你正在煮一大锅蔬菜汤。总体就是整锅汤。为了检查是否需要多加点盐,你不需要把整锅汤喝完!相反,你只需要喝一口汤匙。那一小匙就是你的样本。
为什么我们要使用样本?
我们使用样本是因为研究整个总体通常会遇到以下情况:
1. 成本太高(想象一下要花钱采访英国的每一个人!);
2. 太过于耗时;
3. 不可能做到(如果你要测试灯泡的“寿命”,你无法测试每一个灯泡,因为这样做会把灯泡全部弄坏!)。
重点速览:
• 总体 (Population):整个群体。
• 样本 (Sample):总体的一部分。
• 普查 (Census):当你实际观察总体中的每一位成员时(例如英国政府每 10 年进行一次的人口普查)。
2. 进行推断 (Making Inferences)
抽样的最终目的是为了进行推断 (Inference)。这是一个高级的说法,意思是“根据样本对总体做出有根据的猜测”。
如果你那一汤匙的汤(样本)喝起来太咸,你会推断整锅汤(总体)都太咸了。在考试中,你可能会被要求解释样本告诉了我们什么。你应该使用诸如“样本显示…… (the sample suggests that...)”或“我们可以从样本推断出…… (we can infer from the sample that...)”这样的句式。
重要提示:不同的样本可能会导致不同的结论!如果你的样本恰好只包含学校里最高的学生,那么你对全校平均身高的“推断”就会出错。这被称为抽样误差 (Sampling error)。
3. 抽样方法
AQA 课程要求你理解两种主要的样本选取方式。你如何选择样本至关重要,因为它决定了你的结果是否会产生偏差 (Bias)(即不公平或单一倾向)。
方法 A:简单随机抽样 (Simple Random Sampling)
在简单随机抽样中,总体的每一位成员都有相同的机会被选中。就像把所有人的名字写在纸条上放入一个大帽子里,然后一个一个抽出来一样。
具体做法(步骤):
1. 为总体的每一位成员分配一个唯一的编号(这份列表称为抽样框 (Sampling frame))。
2. 使用随机数生成器(在计算器或电脑上)来选取编号。
3. 对应这些编号的人员/项目就是你的样本。
优点:完全无偏 (Unbiased)。没有人是因为研究者的偏好而被选中的。
缺点:你需要一份完整的总体名单,这可能很难获得。如果总体分散在巨大的区域,它也可能不切实际。
方法 B:机会抽样 (Opportunity Sampling)
机会抽样(有时称为便利抽样)就是简单地挑选当时有空且符合你条件的人。例如,如果你站在超级市场门口,询问前 10 个经过的人进行调查,这就是在使用机会抽样。
优点:快速、容易且便宜。你不需要一份完整的总体名单。
缺点:极有可能产生偏差。如果你站在健身房门口,你的样本可能会比一般大众更“健壮”。它无法很好地代表整个总体。
记忆辅助:把“机会”理解为“利用身边任何人的机会”。
4. 批判样本
在 Paper 3 中,你经常会被要求批判 (Critique)(找出缺点)一种抽样方法。当你看到这类问题时,请留意两点:
1. 样本量是否足够大?
小样本是“不可靠的”。如果你只问了 2 个人的意见,其中一个人的奇怪观点就会让你的结果产生 50% 的误差!更大的样本通常更具代表性。
2. 是否存在偏差?
思考数据是在哪里和什么时候收集的。
例子:如果你想知道人们有多喜欢足球,千万不要在周六的球场外询问群众(这就是有偏差的!)。
你知道吗?
1936 年,美国一家杂志根据 240 万人的样本,预测 Alf Landon 在总统大选中将以压倒性优势获胜。然而,他们是从电话簿和汽车登记册中选择样本。在 1936 年,只有富有的人才有电话和汽车。这个样本是有偏差的,结果 Franklin D. Roosevelt 实际上以压倒性优势赢得了选举!
5. 常见错误避雷针
• 混淆样本与总体:一定要仔细阅读题目。给出的数字是整个群体还是仅仅是他们测试的一小部分?
• 认为“随机”等于“随意”:在数学中,“随机”有严格的定义(相同的概率)。在街角随便找人问不是随机的;那是机会抽样。
• 忽略背景资讯:如果题目涉及“大型数据集 (Large Data Set)”,请记住,对该数据集进行不同的抽样可能会显示出不同的趋势。
3.12 K 节重点总结
• 总体 (Population) 是整体;样本 (Sample) 是局部。
• 简单随机抽样给予每个人相同的机会(无偏,但需要名单)。
• 机会抽样使用当时在场的人(快速,但有偏差)。
• 不同的样本会导致不同的推断 (Inferences)。
• 要批判一个样本,请检查是否存在偏差和样本量问题。
继续练习吧!统计学的精髓就在于理解我们如何信任每天在新闻中看到的那些数字。你能做到的!