📊 数据的图形表示:读懂数字的艺术

欢迎来到数据展示这一章!如果统计学有时让你感到头大,别担心——这个主题的核心就是把凌乱的数字列表变成精美、易读的图像。当我们正确地将数据可视化时,数据背后的规律会变得一目了然,从而让分析过程变得轻松简单。
在本节中,我们将学习如何针对不同类型的数据选择合适的统计图,并掌握如何正确解读展示的信息。让我们开始吧!

1. 简单数据与离散数据的图表

离散数据(Discrete data)是指只能取特定值的数据(例如你的兄弟姐妹数量或鞋码)。这类图表通常比较容易绘制。

1.1 条形图(Bar Charts)与垂直线图(Vertical Line Graphs)

条形图使用矩形条来表示不同类别的频数。

关键特征:

  • 条形的高度代表频数(Frequency)(即某项数据出现的次数)。
  • 条形之间通常有间隙。这是它与直方图最关键的区别!间隙强调了数据是离散的或分门别类的。
  • x轴标注类别名称。

给同学的小贴士:

如果数据是纯数值且离散的(比如在某一点经过的车辆数量),有时会使用垂直线图(或频数图),即用细线代替条形,其原理是一样的。

1.2 饼图(Pie Charts)

饼图用于展示总体是如何被划分为不同部分或类别的。它们在展示相对比例方面非常直观。

分步操作:创建饼图

  1. 找出总频数(Total Frequency)(数据集中的项目总数)。
  2. 计算每个类别的圆心角。由于整个圆是 \(360^\circ\),所以圆心角与该类别的频数成正比。
  3. 公式:圆心角 \( = \frac{\text{频数}}{\text{总频数}} \times 360^\circ \)
  4. 画圆,并使用量角器标出计算出的角度。

避免常见错误:别忘了检查所有计算出的角度之和是否正好等于 \(360^\circ\)!如果不是,说明计算出错了。

1.3 茎叶图(Stem and Leaf Diagrams)

茎叶图是一种极好的数据展示方式,因为它不像条形图那样汇总数据,而是保留了所有原始数据,同时又能显示出分布的形状。

结构:

  • 茎(Stem)(左侧)放置较大的数位(如十位或百位)。
  • 叶(Leaf)(右侧)放置最小的数位(通常是个位数)。
  • 叶子必须始终按升序排列(从小到大)。

黄金法则:图例(Key)
必须包含一个图例来解释茎和叶代表什么。 例子:如果 2 | 5 表示 25,你必须写出:图例:2 | 5 = 25

简要回顾:离散数据

条形图清晰显示类别(带间隙)。饼图显示比例。茎叶图则保留了原始数据。

2. 处理连续数据(分组频数)

连续数据(Continuous data)是指在一定范围内可以取任何值的数据(如身高、时间或体重)。当我们有大量连续数据时,会将它们归入组距(Class intervals)中。

2.1 直方图(Histograms)

直方图专门用于展示连续数据(通常是分组数据)。它们看起来和条形图很像,但有一个重大的概念区别。

关键区别:面积 vs 高度
在条形图中,高度即频数。而在直方图中,条形的面积代表频数

由于条形的宽度(组距)可能不同,我们不能直接把“频数”作为纵轴。我们必须计算频数密度(Frequency Density)

直方图公式(记下来!): $$ \text{频数密度} = \frac{\text{频数}}{\text{组宽}} $$

分步操作:绘制直方图
  1. 计算每组的组宽(\( \text{上限} - \text{下限} \))。
  2. 使用上述公式计算每组的频数密度
  3. 将纵轴(y轴)标记为频数密度
  4. 绘制矩形。与条形图不同,直方图的条形之间没有间隙,因为数据是连续的。
常见错误预警!

很多同学容易在直方图的y轴上标“频数”。如果组距不等,千万别这么做。你必须使用频数密度

2.2 频数多边形(Frequency Polygons)

频数多边形不过是展示直方图或分组频数表中所含信息的另一种方式。

分步操作:绘制频数多边形

  1. 找出每个组距的中点(Midpoint)
  2. 以(\(\text{中点}, \text{频数}\))为坐标绘制点。
  3. 直线段连接这些点。

你知道吗?为了让多边形闭合并触及坐标轴,我们通常会在开头和结尾各添加一个额外的组距(频数为0)。这有助于更清晰地展示数据分布的整体形状。

要点总结:直方图

连续数据需要直方图。纵轴是频数密度,条形的面积等于频数。没有间隙!

3. 累积频数与箱线图

这些图表能帮助我们找出分布中的特定值,如中位数或四分位数,尤其是在处理大量分组连续数据时。

3.1 累积频数图(Cumulative Frequency Graphs / Ogive)

累积频数(CF)指的是频数的“滚动总和”。它告诉你数据中有多少项是小于或等于某个特定值的。

分步操作:绘制累积频数图
  1. 通过依次累加频数计算累积频数
  2. 以(\(\text{组上限}, \text{累积频数}\))为坐标绘制点。
  3. 从第一个组距的下限开始(此时累积频数为0)。
  4. 用平滑的曲线(称为累计频数曲线)连接各点。注:它看起来应该像S型。

为什么要用组上限?因为累积频数告诉我们的是直到该点为止的项目总数。

解读图表:估算统计量

如果 \(N\) 是总频数,我们利用y轴(累积频数)来寻找:

  • 中位数(Q2):在y轴上找到对应 \(\frac{N}{2}\) 的值。
  • 下四分位数(Q1):在y轴上找到对应 \(\frac{N}{4}\) 的值。
  • 上四分位数(Q3):在y轴上找到对应 \(\frac{3N}{4}\) 的值。

四分位距(IQR)是衡量数据离散程度的指标,计算公式为: $$ IQR = Q3 - Q1 $$

3.2 箱线图(Box Plots)

箱线图是一种基于五个关键数字来展示数据分布的标准方式。它非常适合并排比较两组数据的分布。

五数概括法(核心要素):

  1. 最小值(最小观测值)
  2. 下四分位数(Q1)(第25百分位)
  3. 中位数(Q2)(第50百分位)
  4. 上四分位数(Q3)(第75百分位)
  5. 最大值(最大观测值)

“箱子”本身从 Q1 延伸到 Q3,中位数在箱内标出。“胡须”延伸到最小值和最大值。

箱线图告诉我们什么?

箱子的长度(IQR)告诉我们中间50%的数据有多分散。箱子越短,说明中间的数据越集中。

简要回顾:离散程度的关键术语

极差(Range): \( \text{最大值} - \text{最小值} \)
四分位距(IQR): \( Q3 - Q1 \)
(IQR 比极差更能代表数据的离散程度,因为它不受极高或极低离群值的影响!)