欢迎来到平均数与离差的世界!

你有没有想过,老师是如何判断全班同学是否「表现良好」,或者天气应用程序如何预测「典型」气温呢?他们并非只看单一数据,而是综合所有数据进行总结。在本章中,我们将学习如何找出数据集的「中心点」(集中趋势的测量值),以及数据的「分布程度」(离差的测量值)。

如果统计学初看之下有很多公式,请不用担心。我们会一步步拆解,你会发现这其实就是用数字来说故事!

1. 寻找中心点:平均值的测量

当我们提到「平均」时,我们是在寻找一个能代表整个群体的数值。主要有三种方法:

众数 (Mode)

众数是出现次数最频繁的数值。 例子:在数集 {2, 3, 3, 5, 8} 中,众数是 3。 记忆小撇步:MOde(众数)= MOst(最多)。

中位数 (Median)

中位数是将数据按从小到大排列后,位于正中间的数值。 如果数据个数是奇数,中位数就是最中间的那一个;如果是偶数,则是中间两个数的平均值。 记忆小撇步:Median 就像道路中间的「中央分隔岛」(median strip)!

平均数 (Mean)

平均数(通常记作 \(\bar{x}\))就是一般人说的「平均值」。将所有数值加总,然后除以数据的总个数。 公式:\(\bar{x} = \frac{\sum x}{n}\) 其中 \(\sum x\) 代表「所有数值的总和」,\(n\) 代表数据的个数。

快速回顾:该选哪一个? - 众数:最适合非数值数据(例如「最喜欢的颜色」)。 - 中位数:当有极端数值(离群值)时非常好用,因为它不会被这些极端值「拉动」。 - 平均数:最强大的测量工具,但可能会被一个非常大或非常小的数字所扭曲。

2. 处理分组数据 (Grouped Data)

有时候数据会以组别形式呈现(例如「身高:150cm - 160cm」)。由于我们不知道确切的身高,我们计算出的平均数和标准差都只能是估算值

分组平均数计算步骤: 1. 找出每一组的组中点(\(x\))。 2. 将每个组中点乘以该组的频数(\(f\)),得到 \(fx\)。 3. 将所有 \(fx\) 相加得到总和(\(\sum fx\))。 4. 除以总频数(\(\sum f\))。 公式:\(\bar{x} \approx \frac{\sum fx}{\sum f}\)

3. 测量「分布程度」:离差的测量

想像两位射箭选手。平均而言,他们都能射中靶心附近。但选手 A 的箭都紧密集中在一起,而选手 B 的箭则散落在整个靶面上。我们需要用数字来描述这种差异!

四分位数与四分位距 (IQR)

就像中位数将数据分成两半,四分位数将数据分成四份。 - 下四分位数 (\(Q_1\)): 25% 的位置。 - 中位数 (\(Q_2\)): 50% 的位置。 - 上四分位数 (\(Q_3\)): 75% 的位置。 - 四分位距 (IQR): \(Q_3 - Q_1\)。

IQR 非常有用,因为它忽略了两端各 25% 的极端数据,专注于数据的「中间 50%」。

百分位数 (Percentiles)

百分位数就像四分位数,只是将数据分成了 100 等份。如果你在某次考试中处于第 90 百分位,代表你的分数比 90% 的人都要高!

4. 方差与标准差

标准差 (Standard Deviation) 是 AS Level 数学中最重要的一项离差测量。它告诉我们数据点与平均值的平均距离。课程大纲将其描述为与平均值之离差平方的平均值的平方根

你需要知道的公式: 对于一列数据: \(\sigma = \sqrt{\frac{\sum(x-\bar{x})^2}{n}} = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

对于频数分布(分组数据): \(\sigma = \sqrt{\frac{\sum f(x-\bar{x})^2}{\sum f}} = \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2}\)

常见错误:学生经常忘记最后要将平均数平方(\(\bar{x}^2\)),或者忘记开根号。 提示:方差 (Variance) 就是标准差的平方(\(\sigma^2\))。如果题目问的是方差,千万别开根号!

你知道吗?大多数现代科学计算器都有「统计模式」,可以即时为你计算这些数值。记得学会使用你那款计算器的功能(通常标记为 '1-Variable Stats')!

5. 揪出「怪胎」:离群值 (Outliers)

离群值是远高于或远低于其余数据的数据点。OCR 课程大纲给出了两个具体的「规则」来识别它们:

规则 1:IQR 规则 若数值符合以下情况,则为离群值: - 高于上四分位数超过 \(1.5 \times \text{IQR}\) (\(Q_3 + 1.5 \times \text{IQR}\))。 - 低于下四分位数超过 \(1.5 \times \text{IQR}\) (\(Q_1 - 1.5 \times \text{IQR}\))。

规则 2:标准差规则 若数值符合以下情况,则为离群值: - 距离平均值超过 2 个标准差 (\(\bar{x} \pm 2\sigma\))。

数据清理:一旦发现离群值,你必须决定如何处理它。如果是错误(例如有人把 200cm 打成 2000cm),你需要透过删除或更正来「清理」数据。

6. 比较两个分布

如果考题要求你「比较两组数据」,你必须评论两件事: 1. 平均值的测量:(使用平均数或中位数)。「平均而言,A 组的得分高于 B 组。」 2. 离差的测量:(使用标准差或 IQR)。「A 组的得分比 B 组更稳定(标准差较小)。」

重点提示:一定要结合题目的背景(例如提及「得分」、「时间」或「重量」),而不仅仅是说「这些数字」。

快速回顾区

- 平均数 (\(\bar{x}\)): 全部相加,除以 \(n\)。
- 标准差 (\(\sigma\)): 与平均值的平均距离。
- IQR: \(Q_3 - Q_1\)。
- 离群值: \(1.5 \times \text{IQR}\) 或 \(2 \times \sigma\)。
- 分组数据: 计算结果永远只是估算值

如果标准差公式看起来很吓人,不用担心!多练习使用「\(x^2\) 的总和」版本(\(\sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)),因为这通常计算起来快得多。你可以做到的!