欢迎来到统计学的世界!统计数据的分类

各位 IGCSE 数学同学们,大家好!欢迎来到统计学 (Statistics)的世界。别担心,这一章还不需要使用复杂的公式,我们主要学习基础知识:如何对收集到的杂乱原始信息进行整理和分类。

把数据想象成散落在房间里的玩具。在拼搭出精美的作品之前,你需要先把它们按类别整理好(积木、小汽车、人偶),并整齐地放进储物盒(表格)里。学习如何正确地对数据进行分类,是进行任何有效统计分析的关键第一步!

第一部分:定量数据的两大基本类型 (C10.3 / E10.3)

当我们处理数值信息(定量数据)时,主要根据其收集或测量的方式将其分为两类:离散型数据 (Discrete)连续型数据 (Continuous)

1.1 离散型数据 (Discrete Data)

离散型数据是指只能取特定、固定值的数据,通常为整数。它源于“数数”。

  • 关键特征:数据必须是可以逐一清点的。固定取值之间不存在中间值。
  • 类比/技巧:想象一下数手指的数量(你不可能有 8.5 个手指)。

离散型数据的例子:

  • 教室里的学生人数(10, 11, 12 等)。
  • 小测验的分数(例如 1/10, 2/10 等)。
  • 一小时内经过学校大门的车辆数量

1.2 连续型数据 (Continuous Data)

连续型数据是指在给定范围内可以取任何值的数据。它源于“测量”。

  • 关键特征:数值仅受测量仪器精度的限制。从理论上讲,小数点后可以有无限位。
  • 类比:想象测量身高。你可能会说 175 厘米,但精确值可能是 175.3 厘米,或者 175.34 厘米,甚至是 175.3458 厘米……它是一个连续流动的过程。

连续型数据的例子:

  • 人的身高体重
  • 跑 100 米所用的时间
  • 烧杯中水的温度

快速复习框:离散型 vs. 连续型

离散型:计数得出(例如:孩子人数、进球数、鞋码)。
连续型:测量得出(例如:时间、重量、长度)。


第二部分:通过制表整理数据 (C10.1 / E10.1)

一旦我们知道了数据的类型,就需要使用表格来整理它们。这个过程称为统计制表 (tabulating statistical data)。最常用的方法是使用频数分布表 (frequency distributions)

2.1 简单计数与频数表

收集原始数据时,它们通常是一长串杂乱无章的列表。计数表 (Tally Table) 可以帮我们有条理地统计每个数值出现的频率。

如何构建简单的计数表:

  1. 在第一列中列出所有可能的数据值(或类别)。
  2. 浏览原始数据列表,在对应的值旁边画一个计数符号(竖线)。
  3. 使用标准的五进制分组法:四条竖线后加一条斜线穿过这四条线(\(H\)),代表 5,这样计数更快。
  4. 频数 (Frequency) 一列记录每个数值对应的总数。

例子:如果一个班级记录了每人拥有的宠物数量:2, 0, 1, 3, 2, 1, 1, 0, 2。

表格片段:
数值(宠物) | 计数 | 频数
0 | II | 2
1 | III | 3
2 | III | 3
3 | I | 1

2.2 分组频数分布表 (Grouped Frequency Distributions)

如果你处理的是连续型数据(如身高或时间)或者跨度很大的离散型数据(如 100 个人的考试分数),简单的计数表就会变得太长。

在这种情况下,我们使用分组频数分布表,将数据划分为不同的组距 (Class Intervals)

组距的重要性

定义分组的方式非常关键。组距必须满足:

  • 不重叠:一个数据点只能归入一个组。
  • 覆盖全面:所有数据点都必须被涵盖在内。
  • 组宽一致(通常):为了后续公平比较,各组通常设置相同的宽度(例如:0-10, 10-20, 20-30)。

常见错误提醒!边界处理

在为连续型数据设置边界时,必须明确像 10.0 这样的数值归属于哪一组。

以身高(h,单位 cm)为例的规范表示法:

  • \(150 \leq h < 160\):这一组包含 160 cm 之前的数值,但在 160 cm 处截止。
  • \(160 \leq h < 170\):这一组包含 160 cm。

这样可以确保不会对精确测量值(如 160 cm)应归入哪一组产生歧义。

2.3 双向表 (Two-Way Tables)

双向表(又称列联表)用于展示涉及两个不同类别的数据。它能让你看到这两组分类之间的联系或交叉情况。

你知道吗?这种表格在现实世界的问卷调查和质量控制检查中非常常见,因为它们允许研究人员同时比较两个因素。

结构:

  • 第一种分类列在侧面(行)。
  • 第二种分类列在顶部(列)。
  • 表格内部的单元格显示符合两个条件的频数(计数)。
  • 最后一列和最后一行通常用于记录合计 (Totals)

例子:调查学生偏好数学还是科学,并按性别(男/女)划分。

问题可能是:“有多少名女生更喜欢科学?” 你只需要找到“女生”行和“科学”列交叉的单元格即可。

关键要点:

分类始于辨别数据是离散型(可数)还是连续型(可测)。然后,我们通过计数表、针对大数据集的分组频数表,或用于同时查看两个分类的双向表来组织它们。掌握制表技巧,后续所有的统计计算都会变得轻松许多!


第三部分:分类与制表术语总结

以下是本章重要词汇的快速参考指南:

  • 统计数据 (Statistical Data):收集用于分析的原始事实和数据。
  • 定量数据 (Quantitative Data):数值型数据(可分为离散型或连续型)。
  • 离散型数据 (Discrete Data):通过数数获得的数据(固定的、特定的数值)。
  • 连续型数据 (Continuous Data):通过测量获得的数据(在一定范围内可取任何值)。
  • 计数表 (Tally Table):使用符号(如 \(H\))统计各数值出现频数的一种制表方法。
  • 频数 (Frequency):某个特定数值或类别在数据集中出现的次数。
  • 组距 (Class Interval):在频数表中用于分组连续数据的范围(例如:\(10 \leq x < 20\))。
  • 双向表 (Two-Way Table):用于根据两个不同类别对数据进行分类的表格。