AS & A Level 数学 9709 (P5) 学习笔记:数据表示 (5.1)
欢迎来到“概率与统计 1”的第一章!本章的核心内容是将原始、杂乱的数据转化为清晰、有见地的结论。统计学从这里开始:如果你不能将数据可视化并理解其关键特征,就无法进行正确的分析。
别担心,本章主要使用直观的图表和直接的计算。这是后续所有内容必不可少的基石!
第 1 节:数据分布的可视化
1.1 茎叶图 (Stem-and-Leaf Diagrams)
茎叶图是一种简单且强大的数据整理方式,特别适合处理较小的数据集。
- 优点: 它保留了原始数据值(这一点不同于直方图或箱线图)。
- 结构: 数据被拆分为“茎”(通常是首位或前几位数字)和“叶”(通常是末位数字)。
- 关键要求: 务必包含一个图例 (Key),以解释茎和叶如何代表实际数值。(例如,Key: 3 | 2 表示 32)。
背靠背茎叶图 (Back-to-Back Stem-and-Leaf Diagrams)
这类图表专门用于比较两组相关的数据集(例如,男生与女生的考试成绩,或某项改变前后的表现)。
- 共同的“茎”位于中间。
- 一组数据的“叶”向右延伸,另一组数据的“叶”向左延伸。
- 重要提示: 在排列左侧的叶时,数字必须从茎部开始向外递增。
核心要点: 茎叶图最适合用于比较,以及在需要保留原始数据细节的场景下使用。
1.2 箱线图 (Box-and-Whisker Plots)
箱线图展示了数据集的五数概括,能让你一眼看出数据的离散程度和偏斜度。它们非常适合比较不同的分布。
五数概括包括:
- 最小值(最下方的须端)
- 下四分位数 (\(Q_1\))(箱体的起点)
- 中位数 (\(Q_2\))(箱体内的线)
- 上四分位数 (\(Q_3\))(箱体的终点)
- 最大值(最上方的须端)
解读图表:
- 箱体代表四分位距 (IQR),它包含了中间 50% 的数据。(IQR = \(Q_3 - Q_1\))
- 图表的每一个四分位区域(每一小段)包含 25% 的观测值。
- 如果中位数线更靠近 \(Q_1\),则数据呈正偏态(尾巴在右侧);如果更靠近 \(Q_3\),则呈负偏态(尾巴在左侧)。
快速记忆: 箱线图告诉你关于四分位数的一切,但无法显示确切的原始数据值。
1.3 直方图(面积法则)
直方图用于连续型数据(或分组后的离散型数据)。这可以说是学生最容易出错的地方。
直方图的黄金法则:
条形的面积代表频率(或观测值的总数)。
当组距(宽度)不相等时,你必须使用频数密度 (Frequency Density) 来确定条形的高度。
公式:
\( \text{频数密度} = \frac{\text{频数}}{\text{组距}} \)
示例: 如果一组数据的区间为 10-20(宽度为 10),且频数为 50,则频数密度为 \( \frac{50}{10} = 5 \)。如果下一组数据的区间为 20-25(宽度为 5),且频数为 30,则频数密度为 \( \frac{30}{5} = 6 \)。
你知道吗? 如果所有组距都相等,频数密度就直接与频数成正比,因此在这种情况下你可以直接在纵轴上绘制频数(但始终使用频数密度是更稳妥的做法!)。
核心要点: 对于直方图,请牢记:面积 = 频数。如果组距不统一,一定要计算频数密度。
1.4 累积频数图 (Ogive)
累积频数图(通常称为“累积频数多边形”或 Ogive)绘制的是频数的逐项累加。它对于估计位置度量至关重要。
- 计算: 计算并累加每个组距末尾之前的总频数。
- 绘图: 将组上限作为横坐标,将累积频数作为纵坐标。(使用上限确保包含了该点之前的所有数据)。
估计位置度量:
总频数 \(n\) 决定了估计值的位置:
- 中位数 (\(Q_2\)): 在累积频数轴上找到 \( \frac{n}{2} \) 的位置,向右读取对应的横坐标。
- 下四分位数 (\(Q_1\)): 找到 \( \frac{n}{4} \)(或总数的 25%)。
- 上四分位数 (\(Q_3\)): 找到 \( \frac{3n}{4} \)(或总数的 75%)。
- 百分位数: 第 \(P\) 百分位数位于 \( \frac{P \times n}{100} \) 处。
- 比例: 你可以估计数值 \(x\) 以上或以下的数据量或比例。(例如,要找出得分超过 60 分的人数,先找到累积频数图在 60 处的值,然后用总频数 \(n\) 减去该值。)
核心要点: 累积频数图用于位置估计,而非直接查看原始数据。绘图时请务必使用组上限。
第 2 节:集中趋势的度量(平均值)
集中趋势衡量的是数据的“中心”位置。选择哪种指标取决于数据的性质以及是否存在极端值(离群点)。
2.1 众数 (Mode)
众数是出现频率最高的数值。
- 最佳适用场景: 定性数据或分类数据(如:最喜欢的颜色)。
- 缺点: 一组数据可能没有众数,也可能有多个众数(双众数、多众数)。
2.2 中位数 (Median)
中位数是将数据按升序排列后的中间值。
- 位置: 如果有 \(n\) 个数据点,中位数的位置为 \( \frac{n+1}{2} \)。
- 最佳适用场景: 当数据包含离群点或呈偏态分布时,中位数受极端值影响较小。
2.3 平均值 (\(\bar{x}\))
平均值是算术平均数。它是最常用的集中趋势度量,因为它使用了每一个数据点。
计算公式:
a) 未分组数据:
\( \bar{x} = \frac{\sum x}{n} \)
b) 分组数据:(使用组中值 \(m\),或者按照 MF19 公式表中的 \(x\),以及频数 \(f\))
\( \bar{x} = \frac{\sum fx}{\sum f} \)
最佳适用场景: 适用于对称分布且没有严重离群点的情况。
核心要点: 平均值对离群点敏感;中位数对离群点具有稳健性。选择平均指标时,务必考虑数据类型。
第 3 节:离散程度的度量(变异度)
离散程度的度量告诉我们数据分布得有多“散”。离散程度高意味着数据不稳定。
3.1 极差 (Range) 和四分位距 (IQR)
- 极差: 最大值 - 最小值。(计算简单,但极易受离群点影响。)
- 四分位距 (IQR): \( Q_3 - Q_1 \)。(比极差更稳健,因为它仅测量中间 50% 数据的离散程度,忽略了极端值。)
类比: 将 IQR 想象成“安全区”,即数据最集中、最可预测的部分。
3.2 标准差 (\(\sigma\) 或 \(s\)) 与方差
标准差 (SD) 衡量的是数据点距离平均值的平均距离。它是方差的平方根。
在考试中,你主要会使用通过 \(\sum x\)、\(\sum x^2\) 或编码等价项导出的计算公式。
方差公式 (MF19):
a) 未分组数据:
\( \text{方差} = \frac{\sum x^2}{n} - \bar{x}^2 \)
\( \text{标准差} = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \)
b) 分组数据:
\( \text{方差} = \frac{\sum fx^2}{\sum f} - \bar{x}^2 \)
\( \text{标准差} = \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2} \)
(注意:对于分组数据,\(x\) 代表组中值。)
重要提示: 考官通常会给出 \(\sum x\) 和 \(\sum x^2\),或者要求你自己计算。注意千万不要混淆 \((\sum x)^2\)(先求和再平方)与 \(\sum x^2\)(先平方再求和)。
常见错误警示: 处理分组连续数据时,务必使用真实的组界(例如,如果数据给出为 10-19,真实的组界是 9.5 到 19.5,对应的组中值为 14.5)。
3.3 数据编码的威力
有时数据值非常大或数值极其不便计算。我们可以使用线性变换(编码)来简化计算。
设原始变量为 \(X\),编码后的变量为 \(Y\),定义如下:
\( Y = \frac{X - a}{b} \) 或 \( X = a + bY \)
其中 \(a\) 是假设平均值(减法),\(b\) 是缩放因子(除法)。
编码对平均值和标准差的影响:
1. 对平均值 (\(\bar{x}\)) 的影响:
- 平均值同时受减法 (a) 和除法 (b) 的影响。
- 还原平均值:\( \bar{x} = a + b\bar{y} \)
2. 对标准差 (SD) 和方差的影响:
- 减法 (a) 对离散程度没有影响。 平移整组数据并不会改变各点之间的间距。
- 除法 (b) 会影响离散程度。 如果数据值减半,离散程度也会减半。
- 还原标准差:\( SD_x = b \times SD_y \)
- 还原方差:\( \text{Var}(X) = b^2 \times \text{Var}(Y) \)
记忆技巧:
平均值: 受加、减、乘、除所有运算的影响。
离散程度 (SD/方差): 仅受乘、除运算的影响。(记住:MAD - Multiply and Divide)。
核心要点: 编码能简化计算。记得最后一定要将计算结果还原(Un-code)回原始背景下,还原公式为 \( X = a + bY \)。
章节复习:必备清单
为了在“数据表示”部分取得高分,请确保你能够做到以下几点:
- 绘制并解读四种主要图表:茎叶图、箱线图、直方图(使用频数密度)、累积频数图。
- 从累积频数图中估计四分位数和百分位数。
- 利用涉及 \(\sum x^2\) 的高效公式,计算分组和未分组数据的平均值及标准差。
- 处理并解读使用编码的数据,并能准确将编码后的结果还原回原始单位。
多练习直方图的计算——它们是本章最考验技术的部分!你一定没问题的!