Analysing data

欢迎来到数据分析！

你有没有想过游戏公司是如何决定开发哪款游戏，或者老师是如何预测你的最终成绩？这一切都归功于数据分析。在本章中，我们要成为“数据侦探”。我们会学习如何将堆积如山且杂乱无章的数字，转化为有助于我们决策的清晰资讯。别担心，如果你觉得面对大堆数据会感到害怕，我们会将它们拆解成简单且易于跟随的步骤。

1. “四大”总结统计量

当我们拥有一系列数据（称为未分组数据）时，我们会使用四种主要工具来理解什么是“常规”，以及这些数字的分布情况。这些就是平均数 (Mean)、中位数 (Median)、众数 (Mode) 和 极差 (Range)。

平均值（集中趋势的度量）

平均数 (Mean)： 即“平均分配”的数值。将所有数字相加，然后除以数字的个数。
例子： 对于数字 3、5 和 10：\( \frac{3 + 5 + 10}{3} = \frac{18}{3} = 6 \)。
中位数 (Median)： 中间的数值。你必须先将数字由小到大排列！
类比： 想象高速公路中间的“中央隔离带”——它就在正中间。
众数 (Mode)： 出现次数最多的数值。
记忆小撇步： MOde = MOst often（出现最多次）。

离散程度

极差 (Range)： 这告诉我们数据有多“稳定”。计算方法是最大值 - 最小值。
提示： 极差小代表数据非常相近（稳定）；极差大则代表数据分布非常广。

快速复习盒：
1. 平均数： 相加后相除。
2. 中位数： 中间的数（一定要先排列！）。
3. 众数： 最常见的。
4. 极差： 最大值减最小值。

常见错误（要避免）： 许多同学在找中位数之前忘记将数字重新排列。如果没有排序，找出来的中间数就会是错的！

2. 处理分组数据

有时数据太多，我们无法列出每一个数字。这时我们会将它们放进“分组”（类别）中。例如：“0 到 10 分钟”、“11 到 20 分钟”等。

为什么我们需要“估算”？

当数据被分组后，我们就不知道确切的原始数值了。我们只知道有多少人落在某个区间内。因此，我们只能计算平均数的估算值，而不是确切答案。

如何估算平均数：

找出每一组的组中点 (midpoint)（即正好在中间的数字）。
将组中点乘以该组的频数 (frequency)（即该组有多少人/项目）。
将所有乘积相加。
除以总频数（所有人/项目的总数）。

众数组 (Modal Class)

分组数据中没有单一的“众数”，我们会找众数组。这就是频数最高的那一组。它是“最热门”的类别。

关键点： 对于分组数据，计算平均数时请务必使用组中点来代表该组。

3. 比较数据集

考试题目经常要求你比较两组数据（例如“A班”对比“B班”）。要获得满分，你必须比较两件事：

平均值： 使用平均数或中位数来比较谁的表现“更好”或分数“更高”。
离散程度的度量： 使用极差（或进阶课程的四分位距）来比较谁更“稳定”。

例子句式： “平均而言，A班的得分较高，因为他们的平均数为 75，而 B班为 62；但 B班表现更稳定，因为他们的极差只有 10，而 A班为 25。”

4. 进阶课程：四分位数与箱线图

如果你正在学习进阶课程 (Higher Tier)，你需要超越极差，进一步了解四分位数 (Quartiles)。四分位数将数据分成四等份（每份占 25%）。

下四分位数 (LQ)： 数据中 25% 位置的数值。
上四分位数 (UQ)： 数据中 75% 位置的数值。
四分位距 (IQR)： \( UQ - LQ \)。这告诉你中间 50% 数据的离散程度。它比极差更好，因为它不受“极端值”（异常大或小的数字）的影响。

箱线图 (Box-and-Whisker Diagrams)

箱线图是一种以视觉方式呈现“五数概括”的统计图：

最小值（左边胡须的末端）
下四分位数（箱子的左侧）
中位数（箱子内部的线）
上四分位数（箱子的右侧）
最大值（右边胡须的末端）

你知道吗？ 箱线图非常适合用来即时比较两个分布。如果一个“箱子”越靠右，该组数据通常就有较高的数值！

5. 双变量数据：散点图

双变量数据是指我们同时查看两个不同的变量，看看它们是否相关。例如：“气温”和“雪糕销量”。

最佳拟合线 (Line of Best Fit)

这是一条穿过数据点“中间”的直线。尝试让线条上方和下方的点数大致相等。我们使用这条线来进行预测。

内插法 (Interpolation)： 预测数据范围之内的数值。这通常相当可靠。
外推法 (Extrapolation)： 预测数据范围之外的数值。要小心！ 这通常不可靠，因为趋势可能不会永远持续下去。

核心概念：相关性与因果关系
仅仅因为两件事有关联（相关性），并不代表其中一个导致 (cause) 了另一个。
例子： 太阳眼镜销量与雪糕销量有相关性，但戴太阳眼镜并不会“导致”你想吃雪糕——是因为天气炎热导致了这两者的发生！

6. 极端值与误导性数据

有时候，数据中会包含极端值 (outliers)。这些数值不符合其余数据的模式。它们可能是测量错误，或者仅仅是非常罕见的事件。

图表如何误导我们

统计数据可以用来欺骗大众！务必检查以下事项：

刻度： Y 轴是否从 0 开始？如果从一个较大的数字开始，微小的差异看起来会被放大。
标签： 轴是否有清楚标明单位？
象形图： 图片的比例是否正确？（例如：将图片的高度加倍，实际面积会变为原来的四倍！）。

关键点： 永远要看轴上的数字，而不仅仅是柱状图或线条的“形状”！

最后的鼓励

统计学的本质就是用数字讲故事。只要记住排列数据、在分组时使用组中点，并总是比较平均值和离散程度，你就能轻松掌握这一章。继续练习平均数计算——你一定可以的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。