Representation and summary of data

欢迎来到数据和统计的世界！

欢迎阅读你的 S1：统计学 1 (Statistics 1) 复习笔记！在本章“数据的呈现与摘要”中，我们将学习如何将一堆杂乱无章的数字，转化为清晰且具意义的故事。无论是分析考试成绩还是体育统计数据，这些工具都能帮助我们了解什么是“常态”，以及数据的变异程度。

如果起初觉得某些公式有些深奥，请不用担心。我们会将它们拆解为简单的步骤，并运用大量日常生活中的类比，让你轻松记住！

1. 集中趋势度量：寻找“中心”

当我们查看数据时，通常会想知道“中间”位置在哪里。我们主要使用三个工具来找出这一点：平均值 (Mean)、中位数 (Median) 和 众数 (Mode)。

平均值 (\(\bar{x}\))

这就是大众口中的“平均数”。你只需将所有数值加起来，再除以数据的总个数即可。

原始数据的公式： \( \bar{x} = \frac{\sum x}{n} \)
频数分布表的公式： \( \bar{x} = \frac{\sum fx}{\sum f} \)

中位数与众数

中位数是将数字按顺序排列后，处于正中间的数值。你可以想象它是马路中间的“分隔带”！众数则是出现次数最多的数值（即频数最高的数值）。

编码 (Coding)：数学的“捷径”

有时候数据值非常大（例如 1,001, 1,005, 1,010）。为了让计算更轻松，我们可以透过减去一个常数或进行除法来对数据进行“编码”。
重要法则： 如果你对所有数据点进行加/减一个数值，平均值也会随之加/减该数值。如果你进行乘/除，平均值亦会随之乘/除。

重点重温：
• 平均值： “公平分配”的平均数。
• 中位数： 精确的正中间值。
• 众数： 最受欢迎的选项。

2. 离散程度度量：数据的分布程度如何？

仅仅知道中间值是不够的。想象一下，某个地区的平均气温是 20°C。这可能意味着每天都是 20°C，也可能是白天 50°C 而晚上 -10°C！离散程度 (Dispersion) 能告诉我们实际情况。

极差 (Range) 与四分位距 (IQR)

• 极差： 最大值减去最小值。它计算简单，但容易受到极端偏大或偏小数值的影响。
• 四分位距 (IQR)： \( Q_3 - Q_1 \)。它观察的是中间 50% 的数据，因此排除了两端的“极端值”。

方差 (Variance) 与标准差 (Standard Deviation, \(\sigma\))

这些工具用来衡量每个数据点与平均值的平均偏离程度。
• 标准差 = \( \sqrt{\text{Variance}} \)
记忆小贴士： 较低的标准差代表数据非常集中；较高的标准差代表数据非常分散。

插值法 (Interpolation)：在分组数据中寻找中位数

当数据以分组形式出现（例如“10-20 分钟”）时，我们不知道确切数值。我们使用线性插值法 (Linear Interpolation) 来估算中位数的位置。
步骤：
1. 找出中位数所在的组别（即 \( \frac{n}{2} \) 的位置）。
2. 计算你需要向该组内推进多少距离。
3. 利用组距找出具体的数值。

关键点： 离散程度衡量的是“稳定性”。分散程度越小，稳定性越高！

3. 可视化呈现数据

图表能帮助我们看见数字背后隐藏的规律。虽然考试通常不会要求你从零开始绘制这些图表，但你必须学会如何解读它们。

茎叶图 (Stem and Leaf Diagrams)

这些图表展示了每一个原始数据，并按其“首位”数字进行分组。背对背茎叶图 (Back-to-back stem and leaf) 是比较两组数据（例如甲班 vs 乙班）的绝佳工具。

箱线图 (Box Plots / Box and Whisker)

箱线图使用了五个关键数字：最小值、\(Q_1\)、中位数、\(Q_3\) 和最大值。
• “箱子”代表中间 50% 的数据（即 IQR）。
• “胡须”代表极差。

直方图 (Histograms)

关键规则： 在直方图中，面积代表频数，而不是高度！
要计算高度（频数密度 Frequency Density），请使用： \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

你知道吗？ 直方图适用于连续数据（即需要测量的数据，如身高或时间），在这类图表中柱条之间是没有空隙的。

4. 偏态与离群值

有时候数据并不是对称的，它可能会向某一边“倾斜”。

偏态 (Skewness)

• 正偏态 (Positive Skew)： “尾巴”在右边，大部分数据集中在左边。（平均值 > 中位数 > 众数）。
• 负偏态 (Negative Skew)： “尾巴”在左边，大部分数据集中在右边。（众数 > 中位数 > 平均值）。
• 对称 (Symmetrical)： 左右两边看起来像镜像一样。

离群值 (Outliers)

离群值是指那些远高于或远低于其余数据的“异常”点。
如何识别： 考试会给你一条规则，通常如下：
离群值 > \( Q_3 + 1.5 \times \text{IQR} \)
或
离群值 < \( Q_1 - 1.5 \times \text{IQR} \)

常见错误： 不要仅仅因为一个数字“看起来很大”就猜测它是离群值。务必始终使用题目提供的特定数学规则！

第 4 节总结：
• 偏态描述了数据的形状和“倾斜”方向。
• 离群值是不符合规律的极端数值。

最后的鼓励

统计学与其说是背诵，不如说是分析。当你查看图表或平均值时，请随时问自己：“这些数据实际上向我揭示了现实世界中的什么情况？”你一定做得到！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

Representation and summary of data

欢迎来到数据和统计的世界！

1. 集中趋势度量：寻找“中心”

平均值 (\(\bar{x}\))

中位数与众数

编码 (Coding)：数学的“捷径”

2. 离散程度度量：数据的分布程度如何？

极差 (Range) 与四分位距 (IQR)

方差 (Variance) 与标准差 (Standard Deviation, \(\sigma\))

插值法 (Interpolation)：在分组数据中寻找中位数

3. 可视化呈现数据

茎叶图 (Stem and Leaf Diagrams)

箱线图 (Box Plots / Box and Whisker)

直方图 (Histograms)

4. 偏态与离群值

偏态 (Skewness)

离群值 (Outliers)

最后的鼓励

准备好测试自己了吗？

更多Mathematics (XMA01)章节

立即实践所学

欢迎来到数据和统计的世界！

1. 集中趋势度量：寻找“中心”

平均值 (\(\bar{x}\))

中位数与众数

编码 (Coding)：数学的“捷径”

2. 离散程度度量：数据的分布程度如何？

极差 (Range) 与 四分位距 (IQR)

方差 (Variance) 与 标准差 (Standard Deviation, \(\sigma\))

插值法 (Interpolation)：在分组数据中寻找中位数

3. 可视化呈现数据

茎叶图 (Stem and Leaf Diagrams)

箱线图 (Box Plots / Box and Whisker)

直方图 (Histograms)

4. 偏态与离群值

偏态 (Skewness)

离群值 (Outliers)

最后的鼓励

准备好测试自己了吗？

更多Mathematics (XMA01)章节

立即实践所学

极差 (Range) 与四分位距 (IQR)

方差 (Variance) 与标准差 (Standard Deviation, \(\sigma\))