Statistical skills

欢迎来到地理数据的时间！

在地理学中，我们不只是看看山川风景或城市地图的精美图片，我们更是“数据侦探”。我们会收集资料，并运用统计技巧来找出规律，从而剖析世界正在发生的变化。别担心自己不是“数学能手”——只要稍加练习，这些技巧其实很容易掌握，而且能助你在三份 AQA GCSE 考卷中夺得高分！

1. 寻找“中间值”：集中趋势测量

有时候我们手头会有一长串数字，例如一个城市 30 天内的降雨量。为了理解这些数据，我们需要找出“平均值”或中心点。

平均数 (Mean)

这就是大多数人平时所说的“平均值”。你需要将所有数值加起来，然后除以数据的总数量。

公式： \(\text{Mean} = \frac{\text{Total Sum of All Values}}{\text{Number of Values}}\)

中位数 (Median)

如果你将所有数据点从小到大排列，中位数就是正中间的那一个。

小撇步：把“中位数 (Median)”想象成高速公路中间的中央分隔带。它永远都在中心位置！

注意：如果数据数量的总数是双数，中位数就是最中间两个数值的平均值。

众数与众数组 (Mode and Modal Class)

众数 (Mode) 是出现次数最多的数值。如果你的数据已分组（例如“0-10mm 降雨量”和“11-20mm 降雨量”），出现次数最多的那一组就称为众数组 (Modal Class)。

快速回顾：
- 平均数 (Mean)： 加总后除以数量。
- 中位数 (Median)： 排列后找中间。
- 众数 (Mode)： 最受欢迎（最常出现）的数值。

2. 测量“离散程度”：全距与四分位数

了解中间值固然很好，但我们也需要知道数据的“分散程度”。例如，两个城市的平均气温可能都是 \(15^\circ C\)，但其中一个城市全年气温稳定，另一个城市却有着寒冷的冬天和炎热的夏天。

全距 (Range)

全距是最大值与最小值之间的差。

公式： \(\text{Range} = \text{Highest Value} - \text{Lowest Value}\)

四分位数与四分位距 (IQR)

有时候，全距可能会产生误导，因为一个“异常”的结果（极端值/离群值，outlier）会让分散程度看起来比实际情况大得多。为了解决这个问题，我们会使用四分位数 (Quartiles)。

想象你排序好的数据是一块巧克力棒。你将它对半折断（这是中位数），然后将两半各对折。现在你有了四个部分（四分位）：

- 下四分位数 (LQ)： 处于 25% 的位置。
- 上四分位数 (UQ)： 处于 75% 的位置。
- 四分位距 (IQR)： 下四分位数与上四分位数之间的距离。

公式： \(\text{IQR} = \text{UQ} - \text{LQ}\)

为什么要用它？因为它只关注中间 50% 的数据，所以会忽略那些“古怪”的极端值！

重点总结：全距展示了整体的离散程度；而四分位距 (IQR) 则展示了“典型”数据的分散情况。

3. 百分比与百分位数

地理学家使用百分比来比较不同规模的事物，例如比较小村庄与大城市的人口增长率。

百分比增加与减少

这是考试中非常常见的问题。请使用这个简单公式：

公式： \(\text{Percentage Change} = \frac{\text{New Value} - \text{Old Value}}{\text{Old Value}} \times 100\)

例子：如果一片森林原本是 50 \(km^2\)，现在变成了 40 \(km^2\)，变化量就是 \( -10 \)。计算如下：\(\frac{-10}{50} \times 100 = -20\%\)。这代表减少了 20%！

百分位数 (Percentiles)

百分位数告诉你某个数值在整体中的排位。如果一个城市的污染程度处于第 90 个百分位，意味着它比其他 90% 的城市污染更严重。第 50 个百分位数与中位数是一样的。

4. 累计频率 (Cumulative Frequency)

累计频率其实就是“累加总数”的专业说法。

想象你在海滩上数小石子。第一公尺内你找到了 5 颗。第二公尺内你找到了 8 颗。
- 第二公尺的频率是 8。
- 但累计频率是 13（之前的 5 颗 + 新找到的 8 颗）。

我们会将这些数据绘制成图表，通常看起来像一个长长的“S”型曲线。这能帮助我们透过观察纵轴上的 50%、25% 和 75% 点，轻松找出中位数和四分位数。

5. 双变量数据：观察关联性

双变量数据 (Bivariate data) 是指包含两个变量的数据（例如“气温”与“冰淇淋销量”）。我们使用散点图 (Scatter Plots) 来观察它们是否相关。

趋势线与相关性

观察散点图时，数据点是否有呈现出某种趋势？

- 正相关 (Positive Correlation)： 一个数值上升，另一个也上升（例如：降雨量越多 = 河流水位越高）。
- 负相关 (Negative Correlation)： 一个数值上升，另一个则下降（例如：海拔越高 = 气温越低）。
- 无相关 (No Correlation)： 数据点杂乱无章！没有任何关联。

最佳拟合线 (Line of Best Fit)

这是一条穿过散点图中间的直线。如果它没有经过每一个点，请不要担心！这条线上下方应该要有大致相同数量的点。

内插法与外推法

- 内插法 (Interpolation)： 在现有数据范围“之内”预测数值。这种做法通常相当准确。
- 外推法 (Extrapolation)： 延长最佳拟合线来预测数据范围“之外”的数值。请小心！这是有风险的，因为趋势未来可能会改变。

快速回顾区：
- 双变量： 比较两组数据。
- 最佳拟合线： 显示总体趋势。
- 外推法： 预测未知数值（有风险！）。

6. 批判性的地理学家：选择性数据

你知道吗？统计数据有时会被用来误导大众！有时候，人们只会展示支持他们论点的数据。这称为选择性呈现 (selective presentation)。

在考试中看到图表时，请自我提问：

- 图表的刻度是从零开始吗？（如果不是，这可能会让微小的变化看起来非常巨大！）
- 是否有数据缺失？
- 提供数据的人是否有偏见？

重点总结：在相信图表所显示的信息前，请务必仔细检查轴线和数据来源！

你已经完成了统计技巧的笔记！记住，学习这些技巧的最佳方法就是拿起计算器，多做几道练习题。你一定可以做到的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。