欢迎来到数据表示与诠释!

在本章中,我们将学习如何将一堆杂乱无章的数字转化为人人都能读懂的故事。无论是分析篮球队的身高,还是比较冰淇淋销量与天气之间的关系,统计学都能帮助我们洞察规律。如果你刚开始觉得数字很多、很混乱,别担心——我们会把所有内容拆解成简单易懂的小步骤!


1. 单变量数据的表示

当我们只测量一项“事物”(例如苹果的重量)时,这称为单变量数据。我们可以使用几种不同的图表来将这些数据可视化。

图表的主要类型

  • 垂直线图 (Vertical Line Charts): 适用于离散数据(可以计数的事物)。
  • 茎叶图 (Stem-and-Leaf Diagrams): 这类图表非常实用,因为它们既能展示数据的分布形态,又能保留所有原始数值。
  • 盒须图 (Box-and-Whisker Plots): 这些图表展示了“五数概括法”(最小值、下四分位数、中位数、上四分位数和最大值)。对于观察数据的离散程度非常有效。
  • 累积频数图 (Cumulative Frequency Diagrams): 一种“累计总和”图表,用于估算中位数和四分位数。

直方图 (Histograms): “面积”法则

直方图看起来像长条图,但它们用于连续数据(可以测量的事物,例如时间或重量),且长条的宽度通常不同。
关键点: 在直方图中,长条的面积代表频数,而不仅仅是高度!

你需要运用的公式为:
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

比喻:把直方图的一个长条想象成一块面团。如果你把长条拉宽(组距),高度(频数密度)就必须降低,这样面团的总量(频数)才会保持不变!

快速回顾:如何选择图表
  • 想要保留所有原始数据?使用茎叶图
  • 想要比较两组数据的离散程度?使用盒须图
  • 处理连续数据且分组大小不等?使用直方图

重点提示: 在阅读直方图时,一定要检查坐标轴刻度!频数等于面积,所以你必须将高度乘以宽度,才能算出该组中有多少数据。


2. 平均指标(集中趋势)

我们使用“平均指标”来找出数据中的“中间”或“典型”数值。

三大核心指标

1. 平均值 (\(\bar{x}\)): 将所有数值相加,再除以数据总个数。
\( \bar{x} = \frac{\sum x}{n} \)
2. 中位数: 当数据按顺序排列时,位于中间的数值。
3. 众数: 出现次数最多的数值。

从频数分布表中计算平均值

如果数据是在表格中,我们使用:\( \bar{x} = \frac{\sum fx}{\sum f} \)。
重要提示: 如果数据是分组数据(例如“10至20分钟”),我们使用每一组的组中点来计算平均值。由于我们使用的是组中点,计算出来的结果仅是平均值的估算值,而非确切数值。

你知道吗?“中位数”(Median) 这个词就像公路中间的分隔岛,它正好位于中心位置!

重点提示: 平均值容易受极值(离群值)影响,但中位数则更为“稳健”,即便数据集群中出现一个非常怪异的数字,它依然能保持稳定。


3. 离散程度指标(变异)

平均指标告诉我们中间在哪里,而变异则告诉我们数据是紧密聚集在一起,还是分散得很开。

四分位数与百分位数

  • 下四分位数 (\(Q_1\)): 数据排列后处于 25% 位置的数值。
  • 上四分位数 (\(Q_3\)): 数据排列后处于 75% 位置的数值。
  • 四分位距 (IQR): \(Q_3 - Q_1\)。这能告诉我们中间 50% 的数据分散程度如何。

标准差与方差

标准差 (\(\sigma\)) 是一种更精密的衡量离散程度的方法。它告诉我们数据相对于平均值的“平均距离”。方差则是标准差的平方 (\(\sigma^2\))。

标准差的公式为:
\( \sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \) 或频数分布表使用 \( \sigma = \sqrt{\frac{\sum f x^2}{\sum f} - \bar{x}^2} \)。

常见错误: 最后忘了进行开根号。如果你忘了开根号,你算出来的是方差,而不是标准差!

重点提示: 标准差小意味着数据非常一致,且非常接近平均值。标准差大则意味着数据“分布得很广”。


4. 离群值与数据清理

有时数据中会包含一些不符合规律的“怪异”结果。这些称为离群值 (outliers)

如何找出离群值

在 OCR 考试中,通常会提供特定的规则来识别离群值。最常见的规则如下:

  1. 任何大于 \(Q_3 + 1.5 \times \text{IQR}\) 或小于 \(Q_1 - 1.5 \times \text{IQR}\) 的数值。
  2. 任何距离平均值超过 2 个标准差的数值 (\(\bar{x} \pm 2\sigma\))。

数据清理

数据清理是指处理这些离群值、缺失值或明显错误的工程。如果某个离群值是因为输入错误(例如某人的身高被输入为 500 厘米!),你可以选择将其移除,但你必须说明移除它的理由。

重点提示: 不要只是无视奇怪的数字!使用上述公式来证明它们是离群值,然后再决定是否保留它们。


5. 双变量数据(两个变量)

当我们同时观察两件事物(例如“复习时数”与“考试分数”)时,这称为双变量数据

散点图与相关性

我们将这些数据画在散点图上以寻找相关性(一种关系):

  • 正相关: 一个增加,另一个也增加(例如:身高与鞋号)。
  • 负相关: 一个增加,另一个减少(例如:汽车价格与车龄)。
  • 无相关: 没有明显的规律(例如:智商与门牌号码)。

相关性 vs. 因果关系

这是考试的热门考点! 两件事物相关并不代表其中一个导致了另一个。
例子:鲨鱼袭击次数和冰淇淋销量都会在夏天增加。它们是相关的,但吃冰淇淋并不会导致鲨鱼袭击!背后的“隐藏原因”是炎热的天气。

回归线

回归线是一条穿过平均点 \((\bar{x}, \bar{y})\) 的“最佳拟合线”。在 AS Level 中,你不需要计算这条线的方程,但你必须能够诠释它。例如,利用这条线在数据范围内进行预测(内插法,interpolation)通常是可靠的,但在范围外进行预测(外推法,extrapolation)则非常有风险!

重点提示: 相关性关乎“规律”,因果关系关乎“原因”。在讨论预测时,务必使用“内插法”或“外推法”这些术语。


总结检查清单

  • 我会使用计算器的统计模式计算平均值和标准差吗?
  • 我记住了直方图的面积 = 频数吗?
  • 我会使用 \(1.5 \times \text{IQR}\) 规则找出离群值吗?
  • 我明白为什么相关性并不总是代表因果关系吗?

你一定做得到的!多练习这些定义和公式,无论遇到什么数据集,你都能轻松应对并做出诠释。