欢迎来到数据和统计的世界!

欢迎阅读你的 S1:统计学 1 (Statistics 1) 复习笔记!在本章“数据的呈现与摘要”中,我们将学习如何将一堆杂乱无章的数字,转化为清晰且具意义的故事。无论是分析考试成绩还是体育统计数据,这些工具都能帮助我们了解什么是“常态”,以及数据的变异程度。

如果起初觉得某些公式有些深奥,请不用担心。我们会将它们拆解为简单的步骤,并运用大量日常生活中的类比,让你轻松记住!

1. 集中趋势度量:寻找“中心”

当我们查看数据时,通常会想知道“中间”位置在哪里。我们主要使用三个工具来找出这一点:平均值 (Mean)中位数 (Median)众数 (Mode)

平均值 (\(\bar{x}\))

这就是大众口中的“平均数”。你只需将所有数值加起来,再除以数据的总个数即可。

原始数据的公式: \( \bar{x} = \frac{\sum x}{n} \)
频数分布表的公式: \( \bar{x} = \frac{\sum fx}{\sum f} \)

中位数与众数

中位数是将数字按顺序排列后,处于正中间的数值。你可以想象它是马路中间的“分隔带”!众数则是出现次数最多的数值(即频数最高的数值)。

编码 (Coding):数学的“捷径”

有时候数据值非常大(例如 1,001, 1,005, 1,010)。为了让计算更轻松,我们可以透过减去一个常数或进行除法来对数据进行“编码”。
重要法则: 如果你对所有数据点进行加/减一个数值,平均值也会随之加/减该数值。如果你进行乘/除,平均值亦会随之乘/除。

重点重温:
平均值: “公平分配”的平均数。
中位数: 精确的正中间值。
众数: 最受欢迎的选项。

2. 离散程度度量:数据的分布程度如何?

仅仅知道中间值是不够的。想象一下,某个地区的平均气温是 20°C。这可能意味着每天都是 20°C,也可能是白天 50°C 而晚上 -10°C!离散程度 (Dispersion) 能告诉我们实际情况。

极差 (Range) 与 四分位距 (IQR)

极差: 最大值减去最小值。它计算简单,但容易受到极端偏大或偏小数值的影响。
四分位距 (IQR): \( Q_3 - Q_1 \)。它观察的是中间 50% 的数据,因此排除了两端的“极端值”。

方差 (Variance) 与 标准差 (Standard Deviation, \(\sigma\))

这些工具用来衡量每个数据点与平均值的平均偏离程度。
标准差 = \( \sqrt{\text{Variance}} \)
记忆小贴士: 较低的标准差代表数据非常集中;较高的标准差代表数据非常分散。

插值法 (Interpolation):在分组数据中寻找中位数

当数据以分组形式出现(例如“10-20 分钟”)时,我们不知道确切数值。我们使用线性插值法 (Linear Interpolation) 来估算中位数的位置。
步骤:
1. 找出中位数所在的组别(即 \( \frac{n}{2} \) 的位置)。
2. 计算你需要向该组内推进多少距离。
3. 利用组距找出具体的数值。

关键点: 离散程度衡量的是“稳定性”。分散程度越小,稳定性越高!

3. 可视化呈现数据

图表能帮助我们看见数字背后隐藏的规律。虽然考试通常不会要求你从零开始绘制这些图表,但你必须学会如何解读它们。

茎叶图 (Stem and Leaf Diagrams)

这些图表展示了每一个原始数据,并按其“首位”数字进行分组。背对背茎叶图 (Back-to-back stem and leaf) 是比较两组数据(例如甲班 vs 乙班)的绝佳工具。

箱线图 (Box Plots / Box and Whisker)

箱线图使用了五个关键数字:最小值、\(Q_1\)、中位数、\(Q_3\) 和最大值
• “箱子”代表中间 50% 的数据(即 IQR)。
• “胡须”代表极差。

直方图 (Histograms)

关键规则: 在直方图中,面积代表频数,而不是高度!
要计算高度(频数密度 Frequency Density),请使用: \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

你知道吗? 直方图适用于连续数据(即需要测量的数据,如身高或时间),在这类图表中柱条之间是没有空隙的。

4. 偏态与离群值

有时候数据并不是对称的,它可能会向某一边“倾斜”。

偏态 (Skewness)

正偏态 (Positive Skew): “尾巴”在右边,大部分数据集中在左边。(平均值 > 中位数 > 众数)。
负偏态 (Negative Skew): “尾巴”在左边,大部分数据集中在右边。(众数 > 中位数 > 平均值)。
对称 (Symmetrical): 左右两边看起来像镜像一样。

离群值 (Outliers)

离群值是指那些远高于或远低于其余数据的“异常”点。
如何识别: 考试会给你一条规则,通常如下:
离群值 > \( Q_3 + 1.5 \times \text{IQR} \)

离群值 < \( Q_1 - 1.5 \times \text{IQR} \)

常见错误: 不要仅仅因为一个数字“看起来很大”就猜测它是离群值。务必始终使用题目提供的特定数学规则!

第 4 节总结:
偏态描述了数据的形状和“倾斜”方向。
离群值是不符合规律的极端数值。

最后的鼓励

统计学与其说是背诵,不如说是分析。当你查看图表或平均值时,请随时问自己:“这些数据实际上向我揭示了现实世界中的什么情况?”你一定做得到!