单元 S1:数据的表示与汇总

欢迎来到迷人的统计学世界!本章是你的基石。我们将学习如何利用图表和核心统计计算,将杂乱无章的原始数据转化为清晰且具有洞察力的信息。

为什么这很重要? 因为仅仅盯着一长串数字几乎看不出什么门道。通过有效地表示和汇总数据,我们可以发现趋势、对比不同组别并做出明智的决策——这些技能不仅对你的考试至关重要,在日常生活中也同样受用!如果方差(Variance)等概念看起来有些抽象,别担心,我们会一步步拆解。让我们开始吧!

第 1 节:数据类型(基础构建块)

在分析数据之前,我们必须了解所拥有的数据类型。数据通常分为两大类:

1. 定性数据与定量数据
  • 定性数据 (Qualitative Data):描述特征或类别。它是非数值型的。
    示例: 眼睛颜色、车型、最喜欢的口味。
  • 定量数据 (Quantitative Data):由数字组成且可以测量或计数的数据。这是 S1 大部分内容的研究重点。
2. 离散数据与连续数据(重点针对定量数据)
  • 离散数据 (Discrete Data):只能取特定、固定值(通常为整数)的数据。它通常来自计数。
    类比: 离散数据就像房间里的人数——你不可能有 3.5 个人。
    示例: 路过某点的车辆数、鞋码(英国码是特定的步进值)。
  • 连续数据 (Continuous Data):在给定范围内可以取任意值的数据。它通常来自测量。
    类比: 连续数据就像沙子——你总能在两个值之间找到另一个值。
    示例: 身高、体重、温度、赛跑用时。

小贴士: 为连续变量(如身高)收集的数据通常使用组距 (class intervals) 来记录(例如 170cm 到 180cm)。一定要检查区间的边界!

第 1 节核心要点: 弄清楚离散数据(可计数、固定值)与连续数据(可测量、范围内任意值)的区别。这种差异决定了你可以使用哪些图表(如直方图)和计算方法。

第 2 节:数据的可视化表示

图表可以帮助我们直观地看到数据的整体形状(即分布)。

1. 茎叶图 (Stem and Leaf Diagrams)

这些图表在保持原始数据的同时,将其呈现为有序的格式。它们非常适合中小型数据集。

  • 茎 (Stem) 显示较高位的值(如十位、百位)。
  • 叶 (Leaf) 显示最低位的值(如个位、十分位)。
  • 叶子必须始终按数值大小排序,从靠近茎的一侧开始。
  • 关键步骤: 你必须包含一个图例 (Key)!没有图例,茎叶图就毫无意义。
    示例图例: 2 | 5 表示 25。

你知道吗? 我们使用背靠背茎叶图 (back-to-back stem and leaf plots) 来轻松比较两个相关的数据集(例如男生与女生的考试成绩)。

2. 直方图 (Histograms)(针对连续数据)

直方图用于连续的分组数据。这是考试中的常见考点,请务必仔细阅读!

直方图的黄金法则: 矩形的面积必须与该组的频数 (frequency)(即观察值的数量)成正比。

由于组距往往不相等,我们不能简单地将频数对组距作图(就像条形图那样)。我们必须计算 y 轴的频数密度 (Frequency Density)

频数密度 \( = \frac{\text{频数}}{\text{组距}} \)

作图步骤:

  1. 确定每组的组距(\( \text{上边界} - \text{下边界} \))。
  2. 计算每组的频数密度
  3. 在横轴 (x) 上标出组距区间。
  4. 在纵轴 (y) 上标出频数密度。
  5. 画出矩形,使矩形面积与频数成比例。

常见错误: 处理分组连续数据(例如 10-19, 20-29)时,务必使用真实的类边界(例如 9.5 到 19.5,19.5 到 29.5)来计算正确的组距(在此例中组距为 10)。

3. 累积频数图 (Cumulative Frequency Diagrams / Ogive)

累积频数图显示了频数的累计总量。它对于从分组数据中估算中位数和四分位数至关重要。

作图步骤:

  1. 通过依次相加频数计算累积频数 (CF)
  2. 将累积频数与每个区间的上边界对应作图。
  3. 图表应从(第一组的下边界,0)开始。
  4. 用平滑曲线(而非折线)连接各点。

小贴士: y 轴上的最高点(最终累积频数)应该等于观察值的总数 \(n\)。

第 2 节核心要点: 使用茎叶图查看细节,使用直方图查看分布形状(面积即频数),使用累积频数图寻找定位值(如中位数)。

第 3 节:集中趋势的度量(位置)

这些统计量告诉我们数据集的“中心”或典型值。

1. 平均值 (Mean, \( \bar{x} \))

平均值是算术平均数。它利用了每一个数据点,因此对极端值(离群点)很敏感。

  • 原始数据平均值: $$ \bar{x} = \frac{\sum x}{n} $$ 其中 \( \sum x \) 是所有数据点的总和,\(n\) 是数据点的个数。
  • 频数表平均值: $$ \bar{x} = \frac{\sum fx}{\sum f} $$ 其中 \(f\) 是频数,\(x\) 是数据值。
  • 分组数据平均值(估算): 我们假设某组中的所有值都集中在该组的组中值 (midpoint, \(m\)) 上。 $$ \bar{x} \approx \frac{\sum fm}{\sum f} $$
2. 中位数 (Median)

中位数是将数据按顺序排列后的中间值。它不受离群点的影响。

  • 原始数据中位数:
    首先,对数据排序。中位数的位置通常由 \( \frac{n+1}{2} \) 给出。
  • 分组连续数据中位数(内插法):
    我们使用累积频数分布来估计中位数,通常位于 \( \frac{n}{2} \) 的位置。
    过程: 在纵轴 (CF) 上找到中位数位置 (\( \frac{n}{2} \))。画一条水平线到曲线上,然后垂直向下画线至横轴(数据值轴),读取估算的中位数。

类比: 中位数是一个“安全”的衡量指标。如果有人往你的数据集中扔进一个极大的数(离群点),平均值会被显著拉向那个数,但中位数保持相对稳定。

3. 众数 (Mode) 或 众数类 (Modal Class)

众数是出现频率最高的值。

  • 对于原始数据或离散数据,它是出现次数最多的具体数值。
  • 对于分组数据,我们确定众数类(频数密度最高的区间)。
第 3 节核心要点: 平均值使用了所有数据,但对离群点敏感。中位数是中间值,对离群点有抵御能力。记得分组计算平均值时使用组中值,估计中位数时使用内插法(或 CF 曲线)。

第 4 节:离散程度的度量(变异度)

这些统计量告诉我们数据分布得有多分散。

1. 极差 (Range) 与 四分位距 (IQR)
  • 极差: \( \text{最大值} - \text{最小值} \)。简单,但受离群点影响很大。
  • 四分位数: 将数据分为相等的四部分。
    • \(Q_1\)(下四分位数):25% 的数据低于此点。
    • \(Q_2\)(中位数):50% 的数据低于此点。
    • \(Q_3\)(上四分位数):75% 的数据低于此点。
  • 四分位距 (IQR): \( \text{IQR} = Q_3 - Q_1 \)。它衡量中间 50% 数据的离散程度,对离群点有抵御能力。

寻找分组数据的四分位数: 与中位数类似,使用累积频数曲线。

  • \(Q_1\) 位于 \( \frac{n}{4} \) 的位置。
  • \(Q_3\) 位于 \( \frac{3n}{4} \) 的位置。

2. 方差 (Variance) 与 标准差 (Standard Deviation)

方差 (\( \sigma^2 \)) 和 标准差 (\( \sigma \)) 是最稳健的离散程度度量指标,因为它们使用了所有数据点来衡量与平均值的偏差。

标准差 (\( \sigma \)) 就是方差的平方根。由于它与原始数据单位一致,因此更常用。

计算公式:(你应该熟悉定义公式和计算公式。)

A. 原始数据公式(n 个观察值):

定义公式(方差): $$ \sigma^2 = \frac{\sum (x - \bar{x})^2}{n} $$ (含义:找到与平均值的偏差,平方,求和,最后除以 \(n\)。)

计算公式(方差):(计算更方便,尤其在没有计算器“统计模式”时。) $$ \sigma^2 = \frac{\sum x^2}{n} - (\bar{x})^2 $$

B. 频数表公式(分组或未分组):

计算公式(方差): $$ \sigma^2 = \frac{\sum fx^2}{\sum f} - (\bar{x})^2 $$ (其中 \( \sum f \) 即总频数,即 \(n\)。)

记忆口诀: 对于标准差计算公式,记住:“平方的平均值减去平均值的平方。”

\( \sigma = \sqrt{\frac{\sum x^2}{n} - (\bar{x})^2} \)

第 4 节核心要点: 极差简单但准确度低。IQR 衡量中间 50% 数据且抗离群点干扰。标准差 (\( \sigma \)) 衡量相对于平均值的离散度,是方差 (\( \sigma^2 \)) 的平方根。

第 5 节:汇总图表与离群点

1. 箱线图 (Box Plots / Box and Whisker Diagrams)

箱线图提供了五个关键统计量(五数概括)的快速视觉总结:

  1. 最小值
  2. 下四分位数 (\(Q_1\))
  3. 中位数 (\(Q_2\))
  4. 上四分位数 (\(Q_3\))
  5. 最大值

箱线图对于直观地对比两个或多个数据集的离散度和位置非常有用。

2. 识别离群点 (Identifying Outliers)

离群点是远离其他数据点的极端值。我们需要一种严谨的方法来判定一个值是否真的是离群点。

在 S1 中,我们使用四分位距 (IQR) 方法。如果一个数据点 \(x\) 落在了以下范围之外,则被视为离群点:

  • 下限: \( Q_1 - 1.5 \times \text{IQR} \)
  • 上限: \( Q_3 + 1.5 \times \text{IQR} \)

示例: 如果一个值小于下限或大于上限,它就被标记为离群点(通常在箱线图上用叉号或星号表示)。

记住: 在绘制包含离群点的箱线图时,“胡须”仅延伸至非离群点的最大值和最小值。

3. 数据编码的影响 (Effect of Coding Data)

有时为了简化计算,我们使用线性变换对数据进行“编码”:\( y = \frac{x - a}{b} \),其中 \(a\) 和 \(b\) 为常数。

  • 位置度量(\(\bar{x}, Q_2, Q_1, Q_3\)): 同时受到加减法 (\(a\)) 和乘除法 (\(b\)) 的影响。如果 \( x \to y \),则 \( \bar{x}_y = \frac{\bar{x}_x - a}{b} \)。
  • 离散程度度量(极差, IQR, \(\sigma\)): 受到乘除法 (\(b\)) 的影响。加减 \(a\) 只是平移了数据,不会改变其分布宽度。
    如果 \( y = \frac{x - a}{b} \),则 \( \sigma_y = \frac{\sigma_x}{|b|} \) 或 \( \text{IQR}_y = \frac{\text{IQR}_x}{|b|} \)。

编码的类比: 如果考试中每个人的分数都加了 10 分 (\(x+10\)),平均分会增加 10 分,但分布情况(标准差)保持不变,因为每个人都平移了同样的距离。

最后快速回顾:
  • 直方图:使用频数密度。
  • 位置度量(平均值/中位数):告诉你数据的平均水平。
  • 离散度度量(SD/IQR):告诉你数据的一致性。
  • 离群点:由 \(Q_1\) 和 \(Q_3\) 之外 \( 1.5 \times \text{IQR} \) 的规则定义。
继续练习这些计算——你一定行的!