欢迎来到统计学:抽样(Sampling)!

你有没有想过,新闻台是怎么在所有选票开出之前,就预测出选举结果的?或者,科学家如何在不对地球上每个人进行测试的情况下,就确定新药有效?秘诀就在于抽样。在本章中,我们将学习如何从群体中抽取一个小小的“缩影”,并用它来理解整体状况。如果统计学让你觉得跟纯代数不太一样,别担心——它其实讲求的是逻辑与精明的推论!


1. 母体(Population)与样本(Sample):纵观全局

在开始计算之前,我们必须明确知道我们所谈论的对象到底是谁或什么。

母体(The Population)

在统计学中,母体是指你感兴趣的整个群体,无论是物品还是人员。它不一定非得是人!它可以是北海里的每一条鳕鱼、工厂生产的每一个灯泡,甚至是抛掷硬币的所有可能结果。
有限母体(Finite Population):你可以点算的群体,例如你学校里所有的学生。
无限母体(Infinite Population):没有终点的群体,例如“掷骰子的所有可能结果”。

样本(The Sample)

样本是从母体中选出的较小群体。我们研究样本是为了节省时间和金钱。试着这样想:你不需要喝完整锅汤才能知道它是不是太咸;你只需要喝一样本就够了!

有放回抽样与无放回抽样(Sampling With or Without Replacement)

当我们挑选样本时,通常采用无放回抽样。这意味着一旦我们选出某人进行访问,我们就不会把他们放回“锅子”里再次被抽中。这可以避免从同一个人身上收集两次数据。然而,如果母体是无限的(例如抛硬币),那么我们是否放回其实并不重要!

快速复习:
母体:整个群体。
样本:群体的一部分。
普查(Census):测量整个母体的行为(罕见且昂贵!)。

重点总结:我们利用样本来对母体进行推论(Inferences)(即精明的推测)。


2. 进行推论(做出最佳猜测)

一旦我们有了样本,我们就会计算诸如样本平均数 \( (\bar{x}) \) 或样本变异数 \( (s^2) \) 之类的数值。我们将这些数值用作整个母体的估计值

例子:如果你发现你那届 50 名学生的平均身高是 \( 165 \text{ cm} \),你可能会推论全国所有学生的平均身高大约也是 \( 165 \text{ cm} \)。

“不同样本”的问题:
如果你的朋友选了另外 50 名不同的学生,他们可能会算出平均身高是 \( 168 \text{ cm} \)。这很正常!不同的样本会导致不同的结论。这就是为什么选择正确的抽样方法如此重要。

重点总结:样本数据提供的是一个估计值,但它很少能做到 100% 完美。不同的样本会产生不同的结果。


3. 抽样技术:如何选择你的群体

你如何挑选样本,决定了你的结果是“公平的”还是“有偏颇的”。课程大纲要求你掌握以下特定方法:

A. 简单随机抽样(Simple Random Sampling)

母体的每一个成员都有相等的中选机会
如何操作:给每个项目一个编号,然后使用乱数产生器来挑选你的样本。这就像从帽子里抽名字一样!

B. 系统抽样(Systematic Sampling)

你随机选择一个起点,然后每隔 \( n \) 个选取一个项目。
例子:你有 1000 个人的名单,想要 50 个样本。你在 1 到 20 之间随机选一个起始点,然后选择名单上的每第 \( 20 \) 个人。

C. 分层抽样(Stratified Sampling)

将母体根据特征(如年龄或性别)分为不同组别(称为层(strata))。然后从每一层中进行随机抽样,其数量与该层在母体中的比例相符。
公式:\( \text{某层的抽样数量} = \frac{\text{该层的人数}}{\text{母体总人数}} \times \text{总样本大小} \)

D. 配额抽样(Quota Sampling)

类似于分层抽样,但并非随机。你被要求从特定群体中找到一定数量的受访者。
例子:研究人员站在购物中心,被要求访问 20 名男性和 20 名女性。他们只需拦下看到的头几个人,直到“配额”满了为止。

E. 便利抽样(Opportunity/Convenience Sampling)

你只选择当时随手可得的人。
例子:访问周二早上走进图书馆的前 10 个人。这很方便,但通常会产生偏差

F. 整群抽样(Cluster Sampling)

母体被分为“群组”(例如不同的城镇)。你随机挑选几个群组,然后对这些群组内的每一个人进行取样。

G. 自愿抽样(Self-Selected Sampling)

人们主动报名成为样本的一部分。
例子:网上问卷或电台听众来电。
你知道吗?自愿样本通常存在偏差,因为只有那些意见强烈的人才会花时间参与!

重点总结:随机方法(简单、系统、分层)通常比较公平。非随机方法(配额、便利、自愿)较简单,但风险较高。


4. 偏差(Bias)与实务性

即使初衷良好,事情也可能出错。在考试中,你需要具备批判抽样方法的能力。

什么是偏差?

偏差是指样本不能公平地代表母体。有偏差的样本会高估或低估真实情况。

需要留意的偏差来源:

抽样框偏差(Sampling Frame Bias):如果你所使用的母体“名单”遗漏了人(例如:使用电话簿会漏掉没有固网电话的人)。
无回应偏差(Non-response Bias):被选中作为样本的人拒绝回答。
地点/时间偏差(Location/Time Bias):清晨 6 点在健身房外抽样,只会接触到特定类型的人!

实务问题:

有时你无法做到绝对随机,因为那太昂贵、太耗时或在物理上不可能(你不可能给海里的每条鱼都编号!)。在考试中,你可能会被要求在考虑这些实务限制的情况下,提出更好的抽样方法。

要避免的常见错误:不要因为样本不是随机的就假设它“很差”。有时配额抽样是确保能快速获取不同年龄层或背景混合样本的唯一实务方法。

重点总结:随时问自己:“这个样本是否真正代表了整个母体,还是它向某个方向倾斜了?”


总结检查清单

在继续学习之前,请确保你能:
• 定义母体样本
• 解释为什么不同的样本会给出不同的平均数/变异数估计值。
• 描述如何执行随机、系统及分层抽样。
• 在给定情境中识别偏差
• 讨论为什么某种方法可能比另一种更具实务性

如果起初觉得这些概念很复杂,别担心!看的例子越多,你就会越容易看出当中的规律。继续练习吧!