Representation and summary of data

单元 S1：数据的表示与汇总

欢迎来到迷人的统计学世界！本章是你的基石。我们将学习如何利用图表和核心统计计算，将杂乱无章的原始数据转化为清晰且具有洞察力的信息。

为什么这很重要？ 因为仅仅盯着一长串数字几乎看不出什么门道。通过有效地表示和汇总数据，我们可以发现趋势、对比不同组别并做出明智的决策——这些技能不仅对你的考试至关重要，在日常生活中也同样受用！如果方差（Variance）等概念看起来有些抽象，别担心，我们会一步步拆解。让我们开始吧！

第 1 节：数据类型（基础构建块）

在分析数据之前，我们必须了解所拥有的数据类型。数据通常分为两大类：

1. 定性数据与定量数据

定性数据 (Qualitative Data)：描述特征或类别。它是非数值型的。
示例： 眼睛颜色、车型、最喜欢的口味。
定量数据 (Quantitative Data)：由数字组成且可以测量或计数的数据。这是 S1 大部分内容的研究重点。

2. 离散数据与连续数据（重点针对定量数据）

离散数据 (Discrete Data)：只能取特定、固定值（通常为整数）的数据。它通常来自计数。
类比： 离散数据就像房间里的人数——你不可能有 3.5 个人。
示例： 路过某点的车辆数、鞋码（英国码是特定的步进值）。
连续数据 (Continuous Data)：在给定范围内可以取任意值的数据。它通常来自测量。
类比： 连续数据就像沙子——你总能在两个值之间找到另一个值。
示例： 身高、体重、温度、赛跑用时。

小贴士： 为连续变量（如身高）收集的数据通常使用组距 (class intervals) 来记录（例如 170cm 到 180cm）。一定要检查区间的边界！

第 1 节核心要点： 弄清楚离散数据（可计数、固定值）与连续数据（可测量、范围内任意值）的区别。这种差异决定了你可以使用哪些图表（如直方图）和计算方法。

第 2 节：数据的可视化表示

图表可以帮助我们直观地看到数据的整体形状（即分布）。

1. 茎叶图 (Stem and Leaf Diagrams)

这些图表在保持原始数据的同时，将其呈现为有序的格式。它们非常适合中小型数据集。

茎 (Stem) 显示较高位的值（如十位、百位）。
叶 (Leaf) 显示最低位的值（如个位、十分位）。
叶子必须始终按数值大小排序，从靠近茎的一侧开始。
关键步骤： 你必须包含一个图例 (Key)！没有图例，茎叶图就毫无意义。
示例图例： 2 | 5 表示 25。

你知道吗？ 我们使用背靠背茎叶图 (back-to-back stem and leaf plots) 来轻松比较两个相关的数据集（例如男生与女生的考试成绩）。

2. 直方图 (Histograms)（针对连续数据）

直方图用于连续的分组数据。这是考试中的常见考点，请务必仔细阅读！

直方图的黄金法则： 矩形的面积必须与该组的频数 (frequency)（即观察值的数量）成正比。

由于组距往往不相等，我们不能简单地将频数对组距作图（就像条形图那样）。我们必须计算 y 轴的频数密度 (Frequency Density)。

频数密度 $ = \frac{\text{频数}}{\text{组距}} $

作图步骤：

确定每组的组距（$ \text{上边界} - \text{下边界} $）。
计算每组的频数密度。
在横轴 (x) 上标出组距区间。
在纵轴 (y) 上标出频数密度。
画出矩形，使矩形面积与频数成比例。

常见错误： 处理分组连续数据（例如 10-19, 20-29）时，务必使用真实的类边界（例如 9.5 到 19.5，19.5 到 29.5）来计算正确的组距（在此例中组距为 10）。

3. 累积频数图 (Cumulative Frequency Diagrams / Ogive)

累积频数图显示了频数的累计总量。它对于从分组数据中估算中位数和四分位数至关重要。

作图步骤：

通过依次相加频数计算累积频数 (CF)。
将累积频数与每个区间的上边界对应作图。
图表应从（第一组的下边界，0）开始。
用平滑曲线（而非折线）连接各点。

小贴士： y 轴上的最高点（最终累积频数）应该等于观察值的总数 $n$。

第 2 节核心要点： 使用茎叶图查看细节，使用直方图查看分布形状（面积即频数），使用累积频数图寻找定位值（如中位数）。

第 3 节：集中趋势的度量（位置）

这些统计量告诉我们数据集的“中心”或典型值。

1. 平均值 (Mean, $ \bar{x} $)

平均值是算术平均数。它利用了每一个数据点，因此对极端值（离群点）很敏感。

原始数据平均值： $$ \bar{x} = \frac{\sum x}{n} $$ 其中 $ \sum x $ 是所有数据点的总和，$n$ 是数据点的个数。
频数表平均值： $$ \bar{x} = \frac{\sum fx}{\sum f} $$ 其中 $f$ 是频数，$x$ 是数据值。
分组数据平均值（估算）： 我们假设某组中的所有值都集中在该组的组中值 (midpoint, $m$) 上。 $$ \bar{x} \approx \frac{\sum fm}{\sum f} $$

2. 中位数 (Median)

中位数是将数据按顺序排列后的中间值。它不受离群点的影响。

原始数据中位数：
首先，对数据排序。中位数的位置通常由 $ \frac{n+1}{2} $ 给出。
分组连续数据中位数（内插法）：
我们使用累积频数分布来估计中位数，通常位于 $ \frac{n}{2} $ 的位置。
过程： 在纵轴 (CF) 上找到中位数位置 ($ \frac{n}{2} $)。画一条水平线到曲线上，然后垂直向下画线至横轴（数据值轴），读取估算的中位数。

类比： 中位数是一个“安全”的衡量指标。如果有人往你的数据集中扔进一个极大的数（离群点），平均值会被显著拉向那个数，但中位数保持相对稳定。

3. 众数 (Mode) 或众数类 (Modal Class)

众数是出现频率最高的值。

对于原始数据或离散数据，它是出现次数最多的具体数值。
对于分组数据，我们确定众数类（频数密度最高的区间）。

第 3 节核心要点： 平均值使用了所有数据，但对离群点敏感。中位数是中间值，对离群点有抵御能力。记得分组计算平均值时使用组中值，估计中位数时使用内插法（或 CF 曲线）。

第 4 节：离散程度的度量（变异度）

这些统计量告诉我们数据分布得有多分散。

1. 极差 (Range) 与四分位距 (IQR)

极差： $ \text{最大值} - \text{最小值} $。简单，但受离群点影响很大。
四分位数： 将数据分为相等的四部分。
- $Q_1$（下四分位数）：25% 的数据低于此点。
- $Q_2$（中位数）：50% 的数据低于此点。
- $Q_3$（上四分位数）：75% 的数据低于此点。
四分位距 (IQR)： $ \text{IQR} = Q_3 - Q_1 $。它衡量中间 50% 数据的离散程度，对离群点有抵御能力。

寻找分组数据的四分位数： 与中位数类似，使用累积频数曲线。

$Q_1$ 位于 $ \frac{n}{4} $ 的位置。
$Q_3$ 位于 $ \frac{3n}{4} $ 的位置。

2. 方差 (Variance) 与标准差 (Standard Deviation)

方差 ($ \sigma^2 $) 和 标准差 ($ \sigma $) 是最稳健的离散程度度量指标，因为它们使用了所有数据点来衡量与平均值的偏差。

标准差 ($ \sigma $) 就是方差的平方根。由于它与原始数据单位一致，因此更常用。

计算公式：（你应该熟悉定义公式和计算公式。）

A. 原始数据公式（n 个观察值）：

定义公式（方差）： $$ \sigma^2 = \frac{\sum (x - \bar{x})^2}{n} $$ （含义：找到与平均值的偏差，平方，求和，最后除以 $n$。）

计算公式（方差）：（计算更方便，尤其在没有计算器“统计模式”时。） $$ \sigma^2 = \frac{\sum x^2}{n} - (\bar{x})^2 $$

B. 频数表公式（分组或未分组）：

计算公式（方差）： $$ \sigma^2 = \frac{\sum fx^2}{\sum f} - (\bar{x})^2 $$ （其中 $ \sum f $ 即总频数，即 $n$。）

记忆口诀： 对于标准差计算公式，记住：“平方的平均值减去平均值的平方。”

$ \sigma = \sqrt{\frac{\sum x^2}{n} - (\bar{x})^2} $

第 4 节核心要点： 极差简单但准确度低。IQR 衡量中间 50% 数据且抗离群点干扰。标准差 ($ \sigma $) 衡量相对于平均值的离散度，是方差 ($ \sigma^2 $) 的平方根。

第 5 节：汇总图表与离群点

1. 箱线图 (Box Plots / Box and Whisker Diagrams)

箱线图提供了五个关键统计量（五数概括）的快速视觉总结：

最小值
下四分位数 ($Q_1$)
中位数 ($Q_2$)
上四分位数 ($Q_3$)
最大值

箱线图对于直观地对比两个或多个数据集的离散度和位置非常有用。

2. 识别离群点 (Identifying Outliers)

离群点是远离其他数据点的极端值。我们需要一种严谨的方法来判定一个值是否真的是离群点。

在 S1 中，我们使用四分位距 (IQR) 方法。如果一个数据点 $x$ 落在了以下范围之外，则被视为离群点：

下限： $ Q_1 - 1.5 \times \text{IQR} $
上限： $ Q_3 + 1.5 \times \text{IQR} $

示例： 如果一个值小于下限或大于上限，它就被标记为离群点（通常在箱线图上用叉号或星号表示）。

记住： 在绘制包含离群点的箱线图时，“胡须”仅延伸至非离群点的最大值和最小值。

3. 数据编码的影响 (Effect of Coding Data)

有时为了简化计算，我们使用线性变换对数据进行“编码”：$ y = \frac{x - a}{b} $，其中 $a$ 和 $b$ 为常数。

位置度量（$\bar{x}, Q_2, Q_1, Q_3$）： 同时受到加减法 ($a$) 和乘除法 ($b$) 的影响。如果 $ x \to y $，则 $ \bar{x}_y = \frac{\bar{x}_x - a}{b} $。
离散程度度量（极差, IQR, $\sigma$）： 仅受到乘除法 ($b$) 的影响。加减 $a$ 只是平移了数据，不会改变其分布宽度。
如果 $ y = \frac{x - a}{b} $，则 $ \sigma_y = \frac{\sigma_x}{|b|} $ 或 $ \text{IQR}_y = \frac{\text{IQR}_x}{|b|} $。

编码的类比： 如果考试中每个人的分数都加了 10 分 ($x+10$)，平均分会增加 10 分，但分布情况（标准差）保持不变，因为每个人都平移了同样的距离。

最后快速回顾：

直方图：使用频数密度。
位置度量（平均值/中位数）：告诉你数据的平均水平。
离散度度量（SD/IQR）：告诉你数据的一致性。
离群点：由 $Q_1$ 和 $Q_3$ 之外 $ 1.5 \times \text{IQR} $ 的规则定义。

继续练习这些计算——你一定行的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

单元 S1：数据的表示与汇总

第 1 节：数据类型（基础构建块）

1. 定性数据与定量数据

2. 离散数据与连续数据（重点针对定量数据）

第 2 节：数据的可视化表示

1. 茎叶图 (Stem and Leaf Diagrams)

2. 直方图 (Histograms)（针对连续数据）

3. 累积频数图 (Cumulative Frequency Diagrams / Ogive)

第 3 节：集中趋势的度量（位置）

1. 平均值 (Mean, \( \bar{x} \))

2. 中位数 (Median)

3. 众数 (Mode) 或众数类 (Modal Class)

第 4 节：离散程度的度量（变异度）

1. 极差 (Range) 与四分位距 (IQR)

2. 方差 (Variance) 与标准差 (Standard Deviation)

A. 原始数据公式（n 个观察值）：

B. 频数表公式（分组或未分组）：

第 5 节：汇总图表与离群点

1. 箱线图 (Box Plots / Box and Whisker Diagrams)

2. 识别离群点 (Identifying Outliers)

3. 数据编码的影响 (Effect of Coding Data)

准备好测试自己了吗？

更多Mathematics (YMA01)章节

立即实践所学

单元 S1：数据的表示与汇总

第 1 节：数据类型（基础构建块）

1. 定性数据与定量数据

2. 离散数据与连续数据（重点针对定量数据）

第 2 节：数据的可视化表示

1. 茎叶图 (Stem and Leaf Diagrams)

2. 直方图 (Histograms)（针对连续数据）

3. 累积频数图 (Cumulative Frequency Diagrams / Ogive)

第 3 节：集中趋势的度量（位置）

1. 平均值 (Mean, \( \bar{x} \))

2. 中位数 (Median)

3. 众数 (Mode) 或 众数类 (Modal Class)

第 4 节：离散程度的度量（变异度）

1. 极差 (Range) 与 四分位距 (IQR)

2. 方差 (Variance) 与 标准差 (Standard Deviation)

A. 原始数据公式（n 个观察值）：

B. 频数表公式（分组或未分组）：

第 5 节：汇总图表与离群点

1. 箱线图 (Box Plots / Box and Whisker Diagrams)

2. 识别离群点 (Identifying Outliers)

3. 数据编码的影响 (Effect of Coding Data)

准备好测试自己了吗？

更多Mathematics (YMA01)章节

立即实践所学

3. 众数 (Mode) 或众数类 (Modal Class)

1. 极差 (Range) 与四分位距 (IQR)

2. 方差 (Variance) 与标准差 (Standard Deviation)