抽样简介
欢迎来到统计学的世界!在这章节,我们将探讨如何收集数据。试想一下,如果你想知道全英国人最喜欢的披萨配料是什么,你不可能去询问所有 6,700 万人——这不仅会花费无尽的时间,成本更是高得吓人!因此,我们会选择一个较小的群体,并根据他们的回答对其他人做出合理的推断。这正是抽样 (sampling) 的核心所在。
我们将学习挑选小群体的特定技巧,并确保我们的结果既公平又准确。别担心,刚接触这么多术语可能会觉得有点混乱,我们会逐一为你拆解!
1. 母体与样本
在选择抽样技巧之前,我们需要先了解统计学中两个主要的“群体”:
母体 (Population)
母体是指你感兴趣的整个群体或项目。
例子:北海中所有的鳕鱼,或是你学校目前注册的所有学生。
样本 (Sample)
样本是指你实际研究的子集,也就是母体中较小的一部分。
例子:捕获 100 条鳕鱼进行测量,或是访问食堂里的 50 名学生。
推论 (Inference)
当我们利用样本中的数据来描述整个母体时,这过程称为推论。
重要提示:不同的样本可能会导致不同的结论!如果你只对学校里的精英运动员进行抽样,你可能会“推论”出整间学校的人都非常健康。但如果你只采样电竞社的学生,你可能会得到截然不同的结果。这就是为什么我们如何选择样本显得如此重要。
快速回顾:
• 母体:“大局”(每一个人/每一件事物)。
• 样本:“小快照”(我们实际检查的那一部分)。
• 推论:利用快照来猜测整体样貌。
2. “黄金标准”:随机抽样
为了公平起见,母体中的每个成员都应该有机会被选中。这就引出了简单随机抽样 (Simple Random Sampling, SRS)。
简单随机抽样
在简单随机抽样中,每一个所需规模的可能样本都有相等的机率被选中。
类比:就像把每个人的名字放进一个巨大的帽子里,摇匀后抽出 10 个名字。
操作方法:
1. 为母体中的每个成员分配一个唯一的编号(这份名单称为抽样框, sampling frame)。
2. 使用乱数产生器(计算器或电脑)来选取号码。
3. 与这些号码对应的人员或项目即成为你的样本。
重点总结:随机抽样有助于避免偏误 (bias)(即偏袒),但你需要一份完整的母体名单才能进行,这在现实中未必总能实现。
3. 其他抽样技巧
有时候,简单随机抽样并不实用。以下是你在 MEI 课程大纲中需要掌握的其他方法:
系统抽样 (Systematic Sampling)
这是指你从名单中按固定间隔选择个体。
例子:选择每第 10 个走进门的人。
步骤:
1. 计算间隔 \( k = \frac{\text{母体大小}}{\text{样本大小}} \)。
2. 在 1 和 \( k \) 之间随机选取一个起点。
3. 不断加上 \( k \) 来找到后续的参与者。
分层抽样 (Stratified Sampling)
当母体包含不同特性的群体(称为层, strata,例如不同的年龄层或性别)且这些群体表现可能不同时使用。样本需反映母体的比例。
公式: \( \text{从该层抽样的人数} = \frac{\text{该层人数}}{\text{总母体人数}} \times \text{总样本大小} \)
配额抽样 (Quota Sampling)
这与分层抽样相似,但不是随机的。访问员被告知要在特定的类别中找到一定数量的受访者。
例子:“去找到 20 名 50 岁以上的男性和 20 名女性。”一旦“配额”满了,他们就停止抽样。
整群抽样 (Cluster Sampling)
将母体分成彼此相似的群组(整群)。你随机选择几个整群,然后对里面的每个人进行采样。
例子:如果你想对英国的 12 年级学生进行抽样,你可能会随机选择 5 所学校,并访问这些学校中所有的 12 年级学生。
机会抽样 (Opportunity/Convenience Sampling)
选择当时在场且符合条件的人。
例子:在周二早上站在超市门口,询问前 10 个看到的人。
警告:这通常有很高的偏误,因为它只包含了当时刚好在那里的人。
自选抽样 (Self-Selected Sampling)
参与者自愿成为样本的一部分。
例子:网上投票或“邮寄回复”的问卷。
你知道吗?自选样本往往带有偏误,因为观点强烈的人比不在乎的人更有可能自愿参加。
4. 评估抽样技巧
在考试中,你可能会被要求选择最佳方法,或解释为什么某种方法不好。你应该考虑偏误 (bias) 和实用性 (practicality)。
常见陷阱(避免这些错误!)
• 混淆分层抽样与配额抽样:请记住,分层抽样在组内使用随机选择;而配额抽样使用机会选择(访问员先遇到谁就选谁)。
• 混淆整群抽样与分层抽样:分层抽样是从每一层取几个人;而整群抽样是从几个整群取所有人。
• 忽略偏误:务必检查抽样方法是否排除了特定类型的人。例如,如果你在下午 2 点拨打室内电话来调查“工作习惯”,你会错过所有正在上班的人!
快速回顾总结表
方法:简单随机抽样
优点:完全公平/无偏误。
缺点:需要完整的母体名单(抽样框)。
方法:分层抽样
优点:确保所有群体都被公平地代表。
缺点:组织复杂;需要母体的详细资料。
方法:机会抽样
优点:简单且便宜。
缺点:偏误机率高。
方法:系统抽样
优点:将样本均匀散布在整份名单中。
缺点:如果名单有隐藏的规律,可能会产生偏误。
最终重点总结
• 母体是所有人;样本是其中的一小部分。
• 随机抽样给予每个可能的样本相等的被选中机会。
• 当母体中某些成员比其他人更容易(或更不容易)被包含在内时,就会产生偏误。
• 选择抽样技巧是在统计完美性与现实世界的实用性之间取得平衡。
别担心,刚开始觉得复杂是正常的——只要你多练习在试题中识别这些方法,区分“配额”与“分层”或“整群”抽样的差异就会变得更清晰!