The collection of data - Statistics (1ST0) - Pearson Edexcel GCSE (9-1)

欢迎来到统计学的世界！

你有没有想过，公司是如何决定推出哪款新口味的巧克力？或者科学家是如何知道一种新药是否有效？这一切都始于收集数据。在本章中，你将学习如何规划一项调查、识别不同类型的数据，以及选择最合适的方法来挑选研究对象。你可以把这看作是统计学的“侦探工作”阶段！

1. 规划你的调查

在开始点算或测量之前，你需要一个计划。第一步是建立一个假设（Hypothesis）。这只是一个花哨的术语，指的是一个可以进行测试以验证其真伪的陈述。
例子：“随着摩托车车龄增加，其价值很可能会下降。”

现实世界中的挑战

测试假设并不总是那么容易。科学家和研究人员会面临各种限制（Constraints）：
• 时间： 你可能没有 10 年的时间去观察一辆摩托车贬值的过程。
• 成本： 跨越全国去访问人们是非常昂贵的！
• 道德与保密： 你必须确保人们的个人资料安全，并公平对待所有参与者。
• 方便性： 有时你必须使用最容易获得的数据，即使它并不完美。

快速回顾： 为了避免之后出现问题，请务必制定应对“如果……会怎样”的策略。例如，如果你发出的问卷有一半人没有填写，你会怎么做？这被称为无回应（Non-response）问题。

重点总结： 一项好的统计调查始于一个清晰、可测试的假设，同时必须考虑涉及的时间、成本和道德因素。

2. 理解不同类型的数据

统计学使用特定的词汇来描述数据。掌握这些词汇就像解开这门学科的“秘密代码”一样！

定性数据 vs. 定量数据

• 定性数据（Qualitative Data）： 用文字或标签描述（非数值）。例子：眼睛颜色（蓝色、棕色、绿色）。
• 定量数据（Quantitative Data）： 用数字描述。例子：身高或体重。

离散数据 vs. 连续数据

如果这些听起来很相似，别担心；这里有一个简单的技巧：
• 离散数据（Discrete Data）： 你数出来的东西。它只能取特定的数值（如整数）。你不可能有 2.5 个兄弟姐妹！
• 连续数据（Continuous Data）： 你测量出来的东西。它可以在一定范围内取任何数值。例子：一个人的身高可能是 165.23 厘米。

其他重要术语

• 类别数据（Categorical Data）： 可以归入不同组别的数据（例如：初一、初二、初三）。
• 顺序数据（Ordinal Data）： 具有自然顺序的数据。例子：考试成绩（A、B、C）或电影的“星级评分”。
• 双变量数据（Bivariate Data）： 涉及两个变量以观察它们之间是否存在关联的数据。例子：比较学习时间与考试分数之间的关系。
• 原始数据（Raw Data）： 未经整理、收集时最原本的数据。

分组数据

有时我们会将数据合并为组距（Class intervals）（例如 0-10, 11-20 等分组），以便阅读。
警告： 虽然分组使数据更容易呈现，但你会因为不再知道确切的原始数值而损失准确性！

重点总结： 数据分为定性（文字）或定量（数字）。定量数据又分为离散（用数的）或连续（用量的）。

3. 解释变量与反应变量

当我们观察两个变量（双变量数据）时，我们会给它们特殊的称呼：
1. 解释变量（Explanatory Variable / 自变量）： 你认为可能会导致变化的那个变量。在图表中，它总是放在“x”轴（水平轴）上。
2. 反应变量（Response Variable / 因变量）： 对变化作出反应的那个变量。它放在“y”轴（垂直轴）上。

类比：想象一棵植物。你给它的浇水量就是解释变量，而它长多高就是反应变量。

4. 数据从哪里来？

一手数据 vs. 二手数据

• 一手数据（Primary Data）： 由你（或你的团队）为了特定目的而收集。
优点： 你清楚知道它是如何收集的；数据非常及时。
缺点： 耗费大量的时间和金钱。

• 二手数据（Secondary Data）： 由其他人（如政府或网站）收集。
优点： 快速且通常免费。
缺点： 可能已经过时，或者包含你不知道的错误。

你知道吗？ 当使用二手数据时，必须始终注明来源（说明你从哪里取得数据）！

5. 母体与抽样

你通常无法询问世界上每一个人，这就是抽样（Sampling）发挥作用的地方。

• 母体（Population）： 你感兴趣的整个群体（例如：“英国所有的学生”）。
• 抽样框（Sample Frame）： 你实际可以从中挑选的母体名单（例如：“学校的学生名册”）。
• 样本（Sample）： 你实际挑选出来进行研究的小组。

抽样方法

1. 简单随机抽样： 每一个人被抽中的机会均等。你可以使用电脑、抽签或骰子来决定。
2. 系统抽样： 每隔 \( n \) 个人挑选一个（例如：名单上每第 10 个人）。
3. 配额抽样： 从不同群体中挑选一定数量的样本（例如：“我需要 20 名男生和 20 名女生”）。
4. 机会抽样（方便抽样）： 挑选当时在场的人（例如：询问你在公园里遇到的前 10 个人）。风险： 这种抽样通常有偏差，因为它不能代表所有人。

分层抽样

这是一种非常公平的抽样方式。你将母体分为不同群体（层，strata），例如按年级分组，然后从每个群体中抽取与母体比例相同的样本。
例子：如果学校里 60% 是女生，那么你的样本中也应该有 60% 是女生。

重点总结： 一个好的样本必须避免偏差，以便准确反映整个母体。

6. 信度与效度

这两个词对于你的考试至关重要：
• 信度（Reliability）： 如果你再次进行测试，能否得到相同的结果？（思考：测量是否一致？）
• 效度（Validity）： 测试是否真的测量了它应该测量的东西？（思考：它是达成目标的正确工具吗？）

常见错误： 一个坏掉的体重计总是显示你轻了 5 公斤，它具有信度（每次都给出同样错误的答案），但它不具备效度（它显示的不是你真实的体重）。

7. 设计优质问题

在制作问卷时，要避开这些陷阱：
• 诱导性问题： “你不觉得学校午餐很好吃吗？”（这会强迫人们说“是”）。
• 封闭式问题 vs. 开放式问题： 封闭式问题提供选项（勾选框），使数据易于分析。开放式问题让回答者填写任何内容，这能提供更多细节，但难以统计。

专家建议： 务必进行一次先导研究（Pilot study）。这是一个小型的“预演”，在发送给所有人之前，先找几个人看看你的问题是否合理！

8. 清洗数据

在分析数据之前，你必须“清洗”它。这意味着要找出：
• 离群值（Outliers）： 比其余数据大得多或小得多的数值（可能是错误）。
• 缺失数据： 有人跳过了一个问题。
• 错误格式： 有人写了“ten”而不是“10”。

总结： 收集数据的关键在于小心规划、公平抽样，并清洗你的结果，以确保它们具备信度与效度。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。