Processing, representing and analysing data - Statistics (1ST0) - Pearson Edexcel GCSE (9-1)

欢迎来到数据分析的世界！

在本章中，我们不只是单纯地收集数字，而是要学习如何处理、可视化这些数据，并读懂它们背后真正的含义。你可以把统计学家想象成侦探：数据就是证据，而本章所学的工具就是你破解谜团的关键！

由于这是高阶（Higher Tier）内容，我们将探讨一些进阶技巧，帮助你比较不同的数据集并做出极为精准的预测。如果一开始觉得某些公式看起来很复杂，别担心，我们会一步步将它们拆解。

1. 数据呈现：超越简单图表

你已经熟悉条形图和象形图了，但在高阶课程中，我们需要比较不同的数据集，并观察数据的“分布形态”。

比较圆形图（Comparative Pie Charts）

当我们使用圆形图比较两个规模不同的群体（例如：小型学校对比大型学校）时，不能只将它们画成一样大。我们必须让圆形的面积代表总频数（total frequency）。

小撇步：要计算新圆形图的半径，请使用这个关系式：
\( \frac{\text{Area}_1}{\text{Area}_2} = \frac{\text{Total Frequency}_1}{\text{Total Frequency}_2} \)

由于面积与半径的平方（\( r^2 \)）有关，因此半径的比率即为频数比率的平方根。
范例：如果图表 B 的数据量是图表 A 的 4 倍，那么它的半径应该是图表 A 的 2 倍（\( \sqrt{4} = 2 \)）。

直方图（不等宽组距）

在直方图中，长条的面积代表频数，而非高度。当你的分组（组距）大小不一，这一点至关重要。

关键公式：
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

快速复习：除非组距相等，否则请务必将 y 轴标记为“频数密度（Frequency Density）”！

理解偏态（Skewness）

偏态能告诉我们数据是否“偏向”某一侧。
正偏态（Positive Skew）：大部分数据集中在数值较小的一端（右侧有一条长尾）。
负偏态（Negative Skew）：大部分数据集中在数值较大的一端（左侧有一条长尾）。

你可以使用以下公式计算偏态（考卷会提供此公式）：
\( \text{Skew} = \frac{3(\text{mean} - \text{median})}{\text{standard deviation}} \)

关键结论：如果 平均值（mean） > 中位数（median），数据通常呈正偏态。如果 中位数 > 平均值，则通常呈负偏态。

2. 进阶平均数（集中趋势）

我们通常讨论“三大统计量”（平均数、中位数、众数），但对于高阶学生来说，还需要更多工具。

加权平均数（Weighted Mean）

当某些数字比其他数字更重要时使用。
类比：你的最终成绩可能由 20% 平时作业和 80% 期末考试组成，考试的“权重”就更高！
\( \text{Weighted Mean} = \frac{\sum (value \times weight)}{\sum weights} \)

几何平均数（Geometric Mean）

这主要用于增长率或百分比。如果你想找出五年的平均利率，就要用这个。
\( \text{Geometric Mean} = \sqrt[n]{x_1 \times x_2 \times ... \times x_n} \)

该用哪种平均数？

平均数（Mean）：最适合没有离群值（outliers）且对称的数据。
中位数（Median）：最适合数据偏斜或含有离群值的情况（它对极端数值有“抗干扰性”）。
众数（Mode）：最适合非数值（质性）数据，例如“最喜欢的颜色”。

关键结论：平均数最敏感——如果房间里进来了一位亿万富翁，平均财富会飙升，但中位数却保持不变！

3. 测量离散程度（离差）

光知道平均值是不够的，我们需要知道数据是聚在一起还是分散开来。

标准差（Standard Deviation, \( \sigma \)）

这是衡量离散程度的“黄金标准”。它告诉我们数据点与平均值之间的平均距离。

别慌：公式会提供给你！你只需记住：
1. 大 \( \sigma \) = 数据非常分散。
2. 小 \( \sigma \) = 数据很稳定且靠近平均值。

识别离群值（Outliers）

离群值是不符合规律的数据点。我们使用数学方法来“正式”判定一个数值是否为离群值：
1. 四分位距法则（IQR Rule）：若数值符合以下情况，即为离群值：
小于 \( LQ - (1.5 \times IQR) \) 或大于 \( UQ + (1.5 \times IQR) \)

2. 标准差法则：任何落在 \( \mu \pm 3\sigma \) 范围之外（距离平均值超过 3 个标准差）的数值通常被视为离群值。

标准分数（Z-Scores）

如何比较艰深数学考卷的分数与简单英文考卷的分数？这时就要用 Z-分数！它告诉你一个数值距离平均值有多少个标准差。
\( \text{Standardized Score} = \frac{x - \mu}{\sigma} \)

关键结论：正值的 Z-分数高于平均值；负值的 Z-分数低于平均值。Z-分数为 0 代表刚好位于平均值。

4. 相关性与回归

这部分主要探讨两个变量之间的关系（双变量数据）。

Spearman 等级相关系数 vs. 皮尔逊相关系数 (PMCC)

PMCC (Pearson’s)：衡量线性（直线）关系的强度。数值介于 -1 到 +1 之间。
Spearman 等级相关系数：衡量排序之间的匹配程度。如果数据不是直线，但仍呈现单一方向的趋势（非线性），请使用此方法。

回归线（Regression Line）

“最佳拟合线”的方程式为：\( y = a + bx \)。
- \( a \) 是截距（线与 y 轴的交点）。
- \( b \) 是斜率（每增加 1 个单位的 \( x \)，\( y \) 会改变多少）。

常见错误：外推法（Extrapolation）。这是在你测量范围之外进行预测。这是非常危险的，因为趋势可能会改变！

关键结论：相关不代表因果！冰淇淋销量和鲨鱼攻击事件在夏天同时增加，并不代表冰淇淋导致了鲨鱼攻击。它们两者都是由第三个因素造成的：温暖的天气。

5. 时间序列与质量保证

统计不仅仅是快照，它往往像电影一样，展示随时间发生的变化。

移动平均数（Moving Averages）

像“每日气温”这类数据会大幅波动（这称为“噪声”）。4 点移动平均数可以平滑这些波动，从而显示潜在的趋势。

质量管制图（Quality Control Charts）

工厂使用这些图表来确保机器没有故障。
- 警戒线（Warning Lines）：通常设在 \( \pm 2\sigma \)。如果数据点触及此线，你需要密切关注。
- 行动线（Action Lines）：通常设在 \( \pm 3\sigma \)。如果数据点触及此线，立刻停机！肯定出了问题。

你知道吗？在正常的作业流程中，仅凭概率，每 20 个点中只有 1 个会落在警戒线之外。

6. 估算：彼得森标记重捕法（Petersen Capture-Recapture）

如何在不把湖里的鱼全部捕获的情况下计算数量？
1. 捕获一组鱼，标记它们 (\( M \))，然后放回。
2. 之后，捕获第二组鱼 (\( n \))。
3. 计算第二组中有多少是被标记过的 (\( m \))。

公式：
\( \text{Total Population (N)} = \frac{M \times n}{m} \)

必须了解的假设：
- 标记没有掉落。
- 两次捕获之间没有生物出生或死亡。
- 标记过的生物已完全混入族群中。

最后鼓励：统计学是用数字说故事。别让符号吓到你——它们只是简单概念的速记法。你一定没问题的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。