欢迎来到数据分析!

你有没有想过游戏公司是如何决定开发哪款游戏,或者老师是如何预测你的最终成绩?这一切都归功于数据分析。在本章中,我们要成为“数据侦探”。我们会学习如何将堆积如山且杂乱无章的数字,转化为有助于我们决策的清晰资讯。别担心,如果你觉得面对大堆数据会感到害怕,我们会将它们拆解成简单且易于跟随的步骤。

1. “四大”总结统计量

当我们拥有一系列数据(称为未分组数据)时,我们会使用四种主要工具来理解什么是“常规”,以及这些数字的分布情况。这些就是平均数 (Mean)中位数 (Median)众数 (Mode)极差 (Range)

平均值(集中趋势的度量)

  • 平均数 (Mean): 即“平均分配”的数值。将所有数字相加,然后除以数字的个数。
    例子: 对于数字 3、5 和 10:\( \frac{3 + 5 + 10}{3} = \frac{18}{3} = 6 \)。
  • 中位数 (Median): 中间的数值。你必须先将数字由小到大排列!
    类比: 想象高速公路中间的“中央隔离带”——它就在正中间。
  • 众数 (Mode): 出现次数最多的数值。
    记忆小撇步: MOde = MOst often(出现最多次)。

离散程度

  • 极差 (Range): 这告诉我们数据有多“稳定”。计算方法是最大值 - 最小值
    提示: 极差小代表数据非常相近(稳定);极差大则代表数据分布非常广。

快速复习盒:
1. 平均数: 相加后相除。
2. 中位数: 中间的数(一定要先排列!)。
3. 众数: 最常见的。
4. 极差: 最大值减最小值。

常见错误(要避免): 许多同学在找中位数之前忘记将数字重新排列。如果没有排序,找出来的中间数就会是错的!

2. 处理分组数据

有时数据太多,我们无法列出每一个数字。这时我们会将它们放进“分组”(类别)中。例如:“0 到 10 分钟”、“11 到 20 分钟”等。

为什么我们需要“估算”?

当数据被分组后,我们就不知道确切的原始数值了。我们只知道有多少人落在某个区间内。因此,我们只能计算平均数的估算值,而不是确切答案。

如何估算平均数:

  1. 找出每一组的组中点 (midpoint)(即正好在中间的数字)。
  2. 组中点乘以该组的频数 (frequency)(即该组有多少人/项目)。
  3. 将所有乘积相加。
  4. 除以总频数(所有人/项目的总数)。

众数组 (Modal Class)

分组数据中没有单一的“众数”,我们会找众数组。这就是频数最高的那一组。它是“最热门”的类别。

关键点: 对于分组数据,计算平均数时请务必使用组中点来代表该组。

3. 比较数据集

考试题目经常要求你比较两组数据(例如“A班”对比“B班”)。要获得满分,你必须比较两件事:

  1. 平均值: 使用平均数或中位数来比较谁的表现“更好”或分数“更高”。
  2. 离散程度的度量: 使用极差(或进阶课程的四分位距)来比较谁更“稳定”。

例子句式: “平均而言,A班的得分较高,因为他们的平均数为 75,而 B班为 62;但 B班表现更稳定,因为他们的极差只有 10,而 A班为 25。”

4. 进阶课程:四分位数与箱线图

如果你正在学习进阶课程 (Higher Tier),你需要超越极差,进一步了解四分位数 (Quartiles)。四分位数将数据分成四等份(每份占 25%)。

  • 下四分位数 (LQ): 数据中 25% 位置的数值。
  • 上四分位数 (UQ): 数据中 75% 位置的数值。
  • 四分位距 (IQR): \( UQ - LQ \)。这告诉你中间 50% 数据的离散程度。它比极差更好,因为它不受“极端值”(异常大或小的数字)的影响。

箱线图 (Box-and-Whisker Diagrams)

箱线图是一种以视觉方式呈现“五数概括”的统计图:

  1. 最小值(左边胡须的末端)
  2. 下四分位数(箱子的左侧)
  3. 中位数(箱子内部的线)
  4. 上四分位数(箱子的右侧)
  5. 最大值(右边胡须的末端)

你知道吗? 箱线图非常适合用来即时比较两个分布。如果一个“箱子”越靠右,该组数据通常就有较高的数值!

5. 双变量数据:散点图

双变量数据是指我们同时查看两个不同的变量,看看它们是否相关。例如:“气温”和“雪糕销量”。

相关性 (Correlation)

相关性是用来说明两个变量之间关系的词汇:

  • 正相关: 当一个变量增加,另一个也增加(点的趋势向右上方倾斜)。
  • 负相关: 当一个变量增加,另一个却减少(点的趋势向右下方倾斜)。
  • 无相关: 点分布散乱,没有规律。

最佳拟合线 (Line of Best Fit)

这是一条穿过数据点“中间”的直线。尝试让线条上方和下方的点数大致相等。我们使用这条线来进行预测。

  • 内插法 (Interpolation): 预测数据范围之内的数值。这通常相当可靠。
  • 外推法 (Extrapolation): 预测数据范围之外的数值。要小心! 这通常不可靠,因为趋势可能不会永远持续下去。

核心概念:相关性与因果关系
仅仅因为两件事有关联(相关性),并不代表其中一个导致 (cause) 了另一个。
例子: 太阳眼镜销量与雪糕销量有相关性,但戴太阳眼镜并不会“导致”你想吃雪糕——是因为天气炎热导致了这两者的发生!

6. 极端值与误导性数据

有时候,数据中会包含极端值 (outliers)。这些数值不符合其余数据的模式。它们可能是测量错误,或者仅仅是非常罕见的事件。

图表如何误导我们

统计数据可以用来欺骗大众!务必检查以下事项:

  • 刻度: Y 轴是否从 0 开始?如果从一个较大的数字开始,微小的差异看起来会被放大。
  • 标签: 轴是否有清楚标明单位?
  • 象形图: 图片的比例是否正确?(例如:将图片的高度加倍,实际面积会变为原来的四倍!)。

关键点: 永远要看轴上的数字,而不仅仅是柱状图或线条的“形状”!

最后的鼓励

统计学的本质就是用数字讲故事。只要记住排列数据、在分组时使用组中点,并总是比较平均值和离散程度,你就能轻松掌握这一章。继续练习平均数计算——你一定可以的!