欢迎来到数据分析!
你有没有想过游戏公司是如何决定开发哪款游戏,或者老师是如何预测你的最终成绩?这一切都归功于数据分析。在本章中,我们要成为“数据侦探”。我们会学习如何将堆积如山且杂乱无章的数字,转化为有助于我们决策的清晰资讯。别担心,如果你觉得面对大堆数据会感到害怕,我们会将它们拆解成简单且易于跟随的步骤。
1. “四大”总结统计量
当我们拥有一系列数据(称为未分组数据)时,我们会使用四种主要工具来理解什么是“常规”,以及这些数字的分布情况。这些就是平均数 (Mean)、中位数 (Median)、众数 (Mode) 和 极差 (Range)。
平均值(集中趋势的度量)
- 平均数 (Mean): 即“平均分配”的数值。将所有数字相加,然后除以数字的个数。
例子: 对于数字 3、5 和 10:\( \frac{3 + 5 + 10}{3} = \frac{18}{3} = 6 \)。 - 中位数 (Median): 中间的数值。你必须先将数字由小到大排列!
类比: 想象高速公路中间的“中央隔离带”——它就在正中间。 - 众数 (Mode): 出现次数最多的数值。
记忆小撇步: MOde = MOst often(出现最多次)。
离散程度
- 极差 (Range): 这告诉我们数据有多“稳定”。计算方法是最大值 - 最小值。
提示: 极差小代表数据非常相近(稳定);极差大则代表数据分布非常广。
快速复习盒:
1. 平均数: 相加后相除。
2. 中位数: 中间的数(一定要先排列!)。
3. 众数: 最常见的。
4. 极差: 最大值减最小值。
常见错误(要避免): 许多同学在找中位数之前忘记将数字重新排列。如果没有排序,找出来的中间数就会是错的!
2. 处理分组数据
有时数据太多,我们无法列出每一个数字。这时我们会将它们放进“分组”(类别)中。例如:“0 到 10 分钟”、“11 到 20 分钟”等。
为什么我们需要“估算”?
当数据被分组后,我们就不知道确切的原始数值了。我们只知道有多少人落在某个区间内。因此,我们只能计算平均数的估算值,而不是确切答案。
如何估算平均数:
- 找出每一组的组中点 (midpoint)(即正好在中间的数字)。
- 将组中点乘以该组的频数 (frequency)(即该组有多少人/项目)。
- 将所有乘积相加。
- 除以总频数(所有人/项目的总数)。
众数组 (Modal Class)
分组数据中没有单一的“众数”,我们会找众数组。这就是频数最高的那一组。它是“最热门”的类别。
关键点: 对于分组数据,计算平均数时请务必使用组中点来代表该组。
3. 比较数据集
考试题目经常要求你比较两组数据(例如“A班”对比“B班”)。要获得满分,你必须比较两件事:
- 平均值: 使用平均数或中位数来比较谁的表现“更好”或分数“更高”。
- 离散程度的度量: 使用极差(或进阶课程的四分位距)来比较谁更“稳定”。
例子句式: “平均而言,A班的得分较高,因为他们的平均数为 75,而 B班为 62;但 B班表现更稳定,因为他们的极差只有 10,而 A班为 25。”
4. 进阶课程:四分位数与箱线图
如果你正在学习进阶课程 (Higher Tier),你需要超越极差,进一步了解四分位数 (Quartiles)。四分位数将数据分成四等份(每份占 25%)。
- 下四分位数 (LQ): 数据中 25% 位置的数值。
- 上四分位数 (UQ): 数据中 75% 位置的数值。
- 四分位距 (IQR): \( UQ - LQ \)。这告诉你中间 50% 数据的离散程度。它比极差更好,因为它不受“极端值”(异常大或小的数字)的影响。
箱线图 (Box-and-Whisker Diagrams)
箱线图是一种以视觉方式呈现“五数概括”的统计图:
- 最小值(左边胡须的末端)
- 下四分位数(箱子的左侧)
- 中位数(箱子内部的线)
- 上四分位数(箱子的右侧)
- 最大值(右边胡须的末端)
你知道吗? 箱线图非常适合用来即时比较两个分布。如果一个“箱子”越靠右,该组数据通常就有较高的数值!
5. 双变量数据:散点图
双变量数据是指我们同时查看两个不同的变量,看看它们是否相关。例如:“气温”和“雪糕销量”。
相关性 (Correlation)
相关性是用来说明两个变量之间关系的词汇:
- 正相关: 当一个变量增加,另一个也增加(点的趋势向右上方倾斜)。
- 负相关: 当一个变量增加,另一个却减少(点的趋势向右下方倾斜)。
- 无相关: 点分布散乱,没有规律。
最佳拟合线 (Line of Best Fit)
这是一条穿过数据点“中间”的直线。尝试让线条上方和下方的点数大致相等。我们使用这条线来进行预测。
- 内插法 (Interpolation): 预测数据范围之内的数值。这通常相当可靠。
- 外推法 (Extrapolation): 预测数据范围之外的数值。要小心! 这通常不可靠,因为趋势可能不会永远持续下去。
核心概念:相关性与因果关系
仅仅因为两件事有关联(相关性),并不代表其中一个导致 (cause) 了另一个。
例子: 太阳眼镜销量与雪糕销量有相关性,但戴太阳眼镜并不会“导致”你想吃雪糕——是因为天气炎热导致了这两者的发生!
6. 极端值与误导性数据
有时候,数据中会包含极端值 (outliers)。这些数值不符合其余数据的模式。它们可能是测量错误,或者仅仅是非常罕见的事件。
图表如何误导我们
统计数据可以用来欺骗大众!务必检查以下事项:
- 刻度: Y 轴是否从 0 开始?如果从一个较大的数字开始,微小的差异看起来会被放大。
- 标签: 轴是否有清楚标明单位?
- 象形图: 图片的比例是否正确?(例如:将图片的高度加倍,实际面积会变为原来的四倍!)。
关键点: 永远要看轴上的数字,而不仅仅是柱状图或线条的“形状”!
最后的鼓励
统计学的本质就是用数字讲故事。只要记住排列数据、在分组时使用组中点,并总是比较平均值和离散程度,你就能轻松掌握这一章。继续练习平均数计算——你一定可以的!