欢迎来到 S1 单元:数据的表示与汇总!

你好,未来的统计学家!本章是你学习统计学所有内容的基石。我们不再仅仅是观察数字,而是要学习如何组织、可视化和汇总庞大的数据集,从而得出有意义的结论。把自己想象成一名“数据侦探”吧!

如果一开始有些术语让你觉得棘手,请不要担心。我们将通过简单的步骤和真实的例子,逐一拆解每一个概念——从绘制复杂的直方图到计算标准差。让我们开始吧!

1. 理解数据:类型与收集

1.1 变量的类型

在收集数据时,我们需要对其进行分类。变量就是我们所测量的特征。

定量数据 (Quantitative Data):涉及数值(数量)的数据。

  • 离散数据 (Discrete Data):只能取特定、固定值的数据,通常为整数。它通常涉及“计数”。
    例子:经过学校的汽车数量(你不可能有 2.5 辆车)。
  • 连续数据 (Continuous Data):在给定范围内可以取任何值的数据。它通常涉及“测量”。
    例子:身高、体重或温度。

定性数据 (Qualitative Data / Categorical):描述性质或类别的数据,而非数值测量的数据。

  • 例子:头发颜色、汽车品牌或最喜欢的冰淇淋口味。(虽然很重要,但 S1 重点关注定量数据。)
✅ 小贴士:离散与连续的区别

如果你需要数 (count) 出来,它就是离散的。如果你需要用工具测量 (measure) 出来(并且理论上可以更精确到小数点后更多位),它就是连续的

1.2 数据收集方法:普查与抽样

我们如何获取需要的数据呢?

  • 普查 (Census):普查是对总体的每一个成员进行观察或测量。
    优点:结果完全准确(得到真实的总体参数)。
    缺点:耗时、昂贵,且通常不切实际或根本无法实现。
  • 抽样 (Sample):抽样是对总体的一个子集进行观察或测量。
    优点:速度快、成本低,且更容易执行。
    缺点:可能无法完美反映总体情况(结果仅为估计值)。

核心要点:理解数据类型(离散/连续)至关重要,因为它决定了你必须使用哪种图表(如直方图)或计算方法。

2. 数据的可视化表示

数据收集后,需要清晰地展示出来。我们将重点介绍 S1 中使用的三种主要图表。

2.1 茎叶图 (Stem and Leaf Diagrams)

这对于快速查看小数据集的分布形态同时保留原始值非常有用。

  • 结构:“茎”包含较大的位值(如十位或百位),而“叶”包含最后一位数字。
  • 规则:叶必须按数值顺序排列,并且必须包含一个图例 (Key)
    例图例:4 | 7 表示 47。
  • 背靠背茎叶图 (Back-to-Back):用于并排比较两个数据集,共享一个中心茎。

2.2 箱线图 (Box Plots / Box and Whisker Diagrams)

箱线图显示了数据的离散程度,并有助于识别离群值。它是通过五数概括 (Five-Number Summary) 构建的。

五数概括包括:

  1. 最小值(左侧胡须的末端)
  2. 下四分位数 (\(Q_1\))(箱子的起始端——25% 的数据低于此值)
  3. 中位数 (\(Q_2\))(箱子中间的线——50% 的数据低于此值)
  4. 上四分位数 (\(Q_3\))(箱子的末端——75% 的数据低于此值)
  5. 最大值(右侧胡须的末端)

每一部分(胡须或箱子片段)代表 25% 的数据,无论它看起来有多宽。

2.3 直方图:面积规则 (The Area Rule)

这通常是最棘手的表示方式。直方图用于连续数据,特别是当组距(类宽)不相等时。

关键区别:不同于条形图(其高度代表频数),在直方图中,长方形的面积代表频数。

这意味着我们不能简单地以频数对组距作图,我们必须为纵轴计算频数密度 (Frequency Density)

公式预警!

$$ \text{频数密度} = \frac{\text{频数}}{\text{组距}} $$

绘制直方图的逐步指南:
  1. 在频数表中添加一列组距(上限 – 下限)。
  2. 使用上述公式添加一列频数密度
  3. 在纵轴(y轴)上绘制频数密度。
  4. 在横轴(x轴)上绘制组边界。
  5. 画出长方形。请记住,长方形之间不应有间隙(因为数据是连续的)。

要避免的常见错误:混淆频数密度与频数。如果题目要求你从直方图中求频数,你必须计算:
$$ \text{频数} = \text{频数密度} \times \text{组距} $$

你知道吗?如果所有组距都相等,那么直方图的形状看起来将与简单的频数分布图完全相同。统计学家通常只有在组距不等时才使用直方图。

核心要点:对于直方图,面积 = 频数。纵轴始终使用频数密度,特别是在组距不等时。

3. 集中趋势的度量(平均值)

集中趋势用于衡量数据集的“中间”或“典型”值位于何处。

3.1 众数、中位数和均值

我们使用三种主要的平均值:

  1. 众数 (Mode):出现最频繁的值。
    最适用于:定性(分类)数据或描述最受欢迎的项目。
  2. 中位数 (Median, \(Q_2\)):将数据按升序排列后的中间值
    中位数的位置:如果 \(n\) 是数据点的个数,中位数位于第 \((\frac{n+1}{2})\) 个位置。
    最适用于:含有极端值(离群值)的数据,因为它受均值的影响较小。
  3. 均值 (Mean, \(\bar{x}\)):所有值的总和除以值的个数。这是最常用的平均值。
    原始数据公式: $$ \bar{x} = \frac{\sum x}{n} $$
    最适用于:没有极端离群值的对称数据。

3.2 分组数据的估算

当数据以分组频数表呈现时(例如 10-20, 20-30),我们不知道精确值,因此必须估算均值和中位数。

估算均值

为了计算分组数据的均值,我们假设组距内的所有值都由该组的组中值 (\(m\)) 代表。

$$ \bar{x} \approx \frac{\sum (m \times f)}{\sum f} $$ 其中 \(m\) 是组中值,\(f\) 是频数。

估算中位数(线性插值法)

对于分组的连续数据,我们使用线性插值 (linear interpolation) 来估算中位数 (\(Q_2\)) 和其他四分位数 (\(Q_1, Q_3\))。

插值概念:我们假设数据在中位数所在的组内是均匀分布的。我们定位中位数的位置(根据教材习惯可能为 \(\frac{n}{2}\) 或 \(\frac{n+1}{2}\),分组连续数据通常用 \(\frac{n}{2}\)),并利用比例关系找到对应的数值。

比喻:如果你知道有 50 个人身高在 10m 到 20m 之间,而中位数是第 25 个人,那么中位数就在 10 到 20 的正中间(即 15m)。插值法就是将这个过程形式化。

核心要点:均值利用了每个数据点,但对离群值敏感。中位数忽略离群值,但需要排列数据。对于分组数据,结果是使用组中值(针对均值)或插值法(针对四分位数)得出的估算值。

4. 离散程度的度量(变异度)

离散程度衡量数据的分散程度。两个数据集的均值可能相同,但分散程度却大相径庭!

4.1 极差与四分位距 (IQR)

  • 极差 (Range):最大值与最小值之差。 $$ \text{极差} = \text{最大值} - \text{最小值} $$
    问题:极易受离群值影响。
  • 四分位距 (IQR):上四分位数 (\(Q_3\)) 与下四分位数 (\(Q_1\)) 之差。 $$ \text{IQR} = Q_3 - Q_1 $$
    优点:描述了中间 50% 数据的分散程度,且对离群值具有鲁棒性。

4.2 方差与标准差

这是衡量分散程度最有力的工具,因为它们考虑了每一个数据点到均值的距离。

方差 (\(\sigma^2\)):偏离均值的平方距离的平均值。

标准差 (\(\sigma\)):方差的平方根。因为它与原始数据使用相同的单位,所以更受青睐。

小标准差意味着数据紧密聚集在均值附近。
大标准差意味着数据分布得很广。

计算公式(考试关键!)

计算通常使用由离差平方和 \(S_{xx}\) 导出的计算公式。

1. 离差平方和 (\(S_{xx}\)): $$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ (注意:如果是从频数表计算,\(\sum x^2\) 变为 \(\sum f x^2\),\(n\) 变为 \(\sum f\))。

2. 方差 (\(\sigma^2\)): $$ \sigma^2 = \frac{S_{xx}}{n} $$

3. 标准差 (\(\sigma\)): $$ \sigma = \sqrt{\frac{S_{xx}}{n}} $$

⚠️ 记忆辅助:方差公式

记住 \(S_{xx}\) 的结构:它是平方之和,减去和的平方(再除以 \(n\))。

\(S_{xx}\) 通常被称为方差计算的“分子”。请始终先计算 \(S_{xx}\)!

核心要点:标准差是衡量分散程度的金标准。使用计算器的统计模式来快速验证这些值,但一定要准备好展示 \(S_{xx}\) 的计算步骤。

5. 数据解释:偏度与离群值

5.1 偏度 (Skewness)

偏度描述了分布的对称性(或不对称性)。它告诉我们数据是向左还是向右拖尾。

  • 正偏态 (右偏,Positive Skew):尾部向右延伸。
    关系:众数 < 中位数 < 均值。(均值被拉向尾部的方向)。
    比喻:大部分人得分都很高的考试,但少数低分考生把平均分拉低了。
  • 负偏态 (左偏,Negative Skew):尾部向左延伸。
    关系:均值 < 中位数 < 众数。(均值被拉向尾部的方向)。
    比喻:房价分布,大部分房屋便宜,但几栋超级豪宅把平均价格拉高了。
  • 对称分布 (Symmetrical Distribution):数据是平衡的。
    关系:均值 \(\approx\) 中位数 \(\approx\) 众数

5.2 识别与处理离群值

离群值 (Outlier) 是指偏离数据集中其他值异常远的一个观测值。它们可能是真实的极端值,也可能是记录错误。

在 S1 中,我们有一个基于 IQR 的正式规则来识别潜在的离群值:

如果一个值 \(x\) 满足以下条件,则为离群值:

  1. \(x < Q_1 - 1.5 \times \text{IQR}\) (下界)
  2. \(x > Q_3 + 1.5 \times \text{IQR}\) (上界)

离群值的影响:离群值对均值极差有显著影响,但对中位数IQR影响极小。

绘制箱线图时:如果发现离群值,通常用星号 (\( * \)) 或叉 (\( \times \)) 标记。此时胡须仅延伸到不是离群值的最大/最小值。

核心要点:偏度告诉我们形状(使用均值-中位数-众数关系)。离群值通过 \(1.5 \times \text{IQR}\) 规则数学定义,在计算箱线图边界时必须小心处理。