欢迎来到统计学的世界!统计数据的分类
各位 IGCSE 数学同学们,大家好!欢迎来到统计学 (Statistics)的世界。别担心,这一章还不需要使用复杂的公式,我们主要学习基础知识:如何对收集到的杂乱原始信息进行整理和分类。
把数据想象成散落在房间里的玩具。在拼搭出精美的作品之前,你需要先把它们按类别整理好(积木、小汽车、人偶),并整齐地放进储物盒(表格)里。学习如何正确地对数据进行分类,是进行任何有效统计分析的关键第一步!
第一部分:定量数据的两大基本类型 (C10.3 / E10.3)
当我们处理数值信息(定量数据)时,主要根据其收集或测量的方式将其分为两类:离散型数据 (Discrete) 或 连续型数据 (Continuous)。
1.1 离散型数据 (Discrete Data)
离散型数据是指只能取特定、固定值的数据,通常为整数。它源于“数数”。
- 关键特征:数据必须是可以逐一清点的。固定取值之间不存在中间值。
- 类比/技巧:想象一下数手指的数量(你不可能有 8.5 个手指)。
离散型数据的例子:
- 教室里的学生人数(10, 11, 12 等)。
- 小测验的分数(例如 1/10, 2/10 等)。
- 一小时内经过学校大门的车辆数量。
1.2 连续型数据 (Continuous Data)
连续型数据是指在给定范围内可以取任何值的数据。它源于“测量”。
- 关键特征:数值仅受测量仪器精度的限制。从理论上讲,小数点后可以有无限位。
- 类比:想象测量身高。你可能会说 175 厘米,但精确值可能是 175.3 厘米,或者 175.34 厘米,甚至是 175.3458 厘米……它是一个连续流动的过程。
连续型数据的例子:
- 人的身高或体重。
- 跑 100 米所用的时间。
- 烧杯中水的温度。
快速复习框:离散型 vs. 连续型
离散型:计数得出(例如:孩子人数、进球数、鞋码)。
连续型:测量得出(例如:时间、重量、长度)。
第二部分:通过制表整理数据 (C10.1 / E10.1)
一旦我们知道了数据的类型,就需要使用表格来整理它们。这个过程称为统计制表 (tabulating statistical data)。最常用的方法是使用频数分布表 (frequency distributions)。
2.1 简单计数与频数表
收集原始数据时,它们通常是一长串杂乱无章的列表。计数表 (Tally Table) 可以帮我们有条理地统计每个数值出现的频率。
如何构建简单的计数表:
- 在第一列中列出所有可能的数据值(或类别)。
- 浏览原始数据列表,在对应的值旁边画一个计数符号(竖线)。
- 使用标准的五进制分组法:四条竖线后加一条斜线穿过这四条线(\(H\)),代表 5,这样计数更快。
- 频数 (Frequency) 一列记录每个数值对应的总数。
例子:如果一个班级记录了每人拥有的宠物数量:2, 0, 1, 3, 2, 1, 1, 0, 2。
表格片段:
数值(宠物) | 计数 | 频数
0 | II | 2
1 | III | 3
2 | III | 3
3 | I | 1
2.2 分组频数分布表 (Grouped Frequency Distributions)
如果你处理的是连续型数据(如身高或时间)或者跨度很大的离散型数据(如 100 个人的考试分数),简单的计数表就会变得太长。
在这种情况下,我们使用分组频数分布表,将数据划分为不同的组距 (Class Intervals)。
组距的重要性
定义分组的方式非常关键。组距必须满足:
- 不重叠:一个数据点只能归入一个组。
- 覆盖全面:所有数据点都必须被涵盖在内。
- 组宽一致(通常):为了后续公平比较,各组通常设置相同的宽度(例如:0-10, 10-20, 20-30)。
常见错误提醒!边界处理
在为连续型数据设置边界时,必须明确像 10.0 这样的数值归属于哪一组。
以身高(h,单位 cm)为例的规范表示法:
- \(150 \leq h < 160\):这一组包含 160 cm 之前的数值,但在 160 cm 处截止。
- \(160 \leq h < 170\):这一组包含 160 cm。
这样可以确保不会对精确测量值(如 160 cm)应归入哪一组产生歧义。
2.3 双向表 (Two-Way Tables)
双向表(又称列联表)用于展示涉及两个不同类别的数据。它能让你看到这两组分类之间的联系或交叉情况。
你知道吗?这种表格在现实世界的问卷调查和质量控制检查中非常常见,因为它们允许研究人员同时比较两个因素。
结构:
- 第一种分类列在侧面(行)。
- 第二种分类列在顶部(列)。
- 表格内部的单元格显示符合两个条件的频数(计数)。
- 最后一列和最后一行通常用于记录合计 (Totals)。
例子:调查学生偏好数学还是科学,并按性别(男/女)划分。
问题可能是:“有多少名女生更喜欢科学?” 你只需要找到“女生”行和“科学”列交叉的单元格即可。
关键要点:
分类始于辨别数据是离散型(可数)还是连续型(可测)。然后,我们通过计数表、针对大数据集的分组频数表,或用于同时查看两个分类的双向表来组织它们。掌握制表技巧,后续所有的统计计算都会变得轻松许多!
第三部分:分类与制表术语总结
以下是本章重要词汇的快速参考指南:
- 统计数据 (Statistical Data):收集用于分析的原始事实和数据。
- 定量数据 (Quantitative Data):数值型数据(可分为离散型或连续型)。
- 离散型数据 (Discrete Data):通过数数获得的数据(固定的、特定的数值)。
- 连续型数据 (Continuous Data):通过测量获得的数据(在一定范围内可取任何值)。
- 计数表 (Tally Table):使用符号(如 \(H\))统计各数值出现频数的一种制表方法。
- 频数 (Frequency):某个特定数值或类别在数据集中出现的次数。
- 组距 (Class Interval):在频数表中用于分组连续数据的范围(例如:\(10 \leq x < 20\))。
- 双向表 (Two-Way Table):用于根据两个不同类别对数据进行分类的表格。