欢迎来到统计学的世界!

你有没有想过,公司是如何决定推出哪款新口味的巧克力?或者科学家是如何知道一种新药是否有效?这一切都始于收集数据。在本章中,你将学习如何规划一项调查、识别不同类型的数据,以及选择最合适的方法来挑选研究对象。你可以把这看作是统计学的“侦探工作”阶段!

1. 规划你的调查

在开始点算或测量之前,你需要一个计划。第一步是建立一个假设(Hypothesis)。这只是一个花哨的术语,指的是一个可以进行测试以验证其真伪的陈述。
例子:“随着摩托车车龄增加,其价值很可能会下降。”

现实世界中的挑战

测试假设并不总是那么容易。科学家和研究人员会面临各种限制(Constraints)
时间: 你可能没有 10 年的时间去观察一辆摩托车贬值的过程。
成本: 跨越全国去访问人们是非常昂贵的!
道德与保密: 你必须确保人们的个人资料安全,并公平对待所有参与者。
方便性: 有时你必须使用最容易获得的数据,即使它并不完美。

快速回顾: 为了避免之后出现问题,请务必制定应对“如果……会怎样”的策略。例如,如果你发出的问卷有一半人没有填写,你会怎么做?这被称为无回应(Non-response)问题。

重点总结: 一项好的统计调查始于一个清晰、可测试的假设,同时必须考虑涉及的时间、成本和道德因素。

2. 理解不同类型的数据

统计学使用特定的词汇来描述数据。掌握这些词汇就像解开这门学科的“秘密代码”一样!

定性数据 vs. 定量数据

定性数据(Qualitative Data): 用文字或标签描述(非数值)。例子:眼睛颜色(蓝色、棕色、绿色)。
定量数据(Quantitative Data): 用数字描述。例子:身高或体重。

离散数据 vs. 连续数据

如果这些听起来很相似,别担心;这里有一个简单的技巧:
离散数据(Discrete Data):数出来的东西。它只能取特定的数值(如整数)。你不可能有 2.5 个兄弟姐妹!
连续数据(Continuous Data):测量出来的东西。它可以在一定范围内取任何数值。例子:一个人的身高可能是 165.23 厘米。

其他重要术语

类别数据(Categorical Data): 可以归入不同组别的数据(例如:初一、初二、初三)。
顺序数据(Ordinal Data): 具有自然顺序的数据。例子:考试成绩(A、B、C)或电影的“星级评分”。
双变量数据(Bivariate Data): 涉及两个变量以观察它们之间是否存在关联的数据。例子:比较学习时间与考试分数之间的关系。
原始数据(Raw Data): 未经整理、收集时最原本的数据。

分组数据

有时我们会将数据合并为组距(Class intervals)(例如 0-10, 11-20 等分组),以便阅读。
警告: 虽然分组使数据更容易呈现,但你会因为不再知道确切的原始数值而损失准确性

重点总结: 数据分为定性(文字)或定量(数字)。定量数据又分为离散(用数的)或连续(用量的)。

3. 解释变量与反应变量

当我们观察两个变量(双变量数据)时,我们会给它们特殊的称呼:
1. 解释变量(Explanatory Variable / 自变量): 你认为可能会导致变化的那个变量。在图表中,它总是放在“x”轴(水平轴)上。
2. 反应变量(Response Variable / 因变量): 对变化作出反应的那个变量。它放在“y”轴(垂直轴)上。

类比:想象一棵植物。你给它的浇水量就是解释变量,而它长多高就是反应变量

4. 数据从哪里来?

一手数据 vs. 二手数据

一手数据(Primary Data):(或你的团队)为了特定目的而收集。
优点: 你清楚知道它是如何收集的;数据非常及时。
缺点: 耗费大量的时间和金钱。

二手数据(Secondary Data):其他人(如政府或网站)收集。
优点: 快速且通常免费。
缺点: 可能已经过时,或者包含你不知道的错误。

你知道吗? 当使用二手数据时,必须始终注明来源(说明你从哪里取得数据)!

5. 母体与抽样

你通常无法询问世界上每一个人,这就是抽样(Sampling)发挥作用的地方。

母体(Population): 你感兴趣的整个群体(例如:“英国所有的学生”)。
抽样框(Sample Frame): 你实际可以从中挑选的母体名单(例如:“学校的学生名册”)。
样本(Sample):实际挑选出来进行研究的小组。

抽样方法

1. 简单随机抽样: 每一个人被抽中的机会均等。你可以使用电脑、抽签或骰子来决定。
2. 系统抽样: 每隔 \( n \) 个人挑选一个(例如:名单上每第 10 个人)。
3. 配额抽样: 从不同群体中挑选一定数量的样本(例如:“我需要 20 名男生和 20 名女生”)。
4. 机会抽样(方便抽样): 挑选当时在场的人(例如:询问你在公园里遇到的前 10 个人)。风险: 这种抽样通常有偏差,因为它不能代表所有人。

分层抽样

这是一种非常公平的抽样方式。你将母体分为不同群体(,strata),例如按年级分组,然后从每个群体中抽取与母体比例相同的样本。
例子:如果学校里 60% 是女生,那么你的样本中也应该有 60% 是女生。

重点总结: 一个好的样本必须避免偏差,以便准确反映整个母体

6. 信度与效度

这两个词对于你的考试至关重要:
信度(Reliability): 如果你再次进行测试,能否得到相同的结果?(思考:测量是否一致?)
效度(Validity): 测试是否真的测量了它应该测量的东西?(思考:它是达成目标的正确工具吗?)

常见错误: 一个坏掉的体重计总是显示你轻了 5 公斤,它具有信度(每次都给出同样错误的答案),但它不具备效度(它显示的不是你真实的体重)。

7. 设计优质问题

在制作问卷时,要避开这些陷阱:
诱导性问题: “你不觉得学校午餐很好吃吗?”(这会强迫人们说“是”)。
封闭式问题 vs. 开放式问题: 封闭式问题提供选项(勾选框),使数据易于分析。开放式问题让回答者填写任何内容,这能提供更多细节,但难以统计。

专家建议: 务必进行一次先导研究(Pilot study)。这是一个小型的“预演”,在发送给所有人之前,先找几个人看看你的问题是否合理!

8. 清洗数据

在分析数据之前,你必须“清洗”它。这意味着要找出:
离群值(Outliers): 比其余数据大得多或小得多的数值(可能是错误)。
缺失数据: 有人跳过了一个问题。
错误格式: 有人写了“ten”而不是“10”。

总结: 收集数据的关键在于小心规划、公平抽样,并清洗你的结果,以确保它们具备信度与效度