欢迎来到单变量数据的世界!
在这个章节中,我们将学习如何将一堆杂乱无章的数字,转化为有意义的信息。无论是班上同学的身高,还是剑桥每天的降雨量,统计学都能帮助我们洞察其中的规律。我们将探讨如何绘制数据图表、如何找出数据的“中间值”,以及如何测量数据的“分散程度”。别担心如果你之前觉得统计学很难,我们会一步一步来带你掌握!
1. 数据可视化表达
比起一长串的数字,图表通常更容易理解。根据你的数据性质,选择合适的图表会让结果更清晰。
茎叶图 (Stem-and-Leaf Diagrams)
你可以把它想象成一种整理数据的方式,同时还能保留原始数值。“茎”是前面的位数,“叶”是最后一位数。
例子:如果你有数字 21、23 和 35:
茎是 2,叶是 1 和 3。
茎是 3,叶是 5。
记忆小撇步:就像真的植物一样,叶子从茎长出来。记得一定要加上图例 (key)(例如:2 | 1 代表 21),这样大家才会知道你的单位是什么!
盒须图 (Box-and-Whisker Plots)
这类图表非常适合展示数据的“分散程度”。它们运用了五个关键数字:
1. 最小值 (minimum)(最低数值)
2. 下四分位数 (Q1)(位于数据 25% 的位置)
3. 中位数 (Q2)(位于中间的位置)
4. 上四分位数 (Q3)(位于数据 75% 的位置)
5. 最大值 (maximum)(最高数值)
类比:想象一把尺。盒子代表了排队人群中间 50% 的人。如果盒子很宽,代表中间这群人的差异很大;如果盒子很窄,代表他们非常相似。
直方图 (Histograms)
直方图看起来像柱状图,但有一个非常重要的规则:面积代表频数 (Frequency)。
这对于组距 (class width) 不同的数据至关重要。我们不再单纯在纵轴绘制“频数”,而是绘制频数密度 (Frequency Density)。
\( \text{频数密度} = \frac{\text{频数}}{\text{组距}} \)
常见错误:如果组距不同,千万不要只根据频数来画高度。一定要先计算密度!
重点总结:根据你想呈现的重点来选择图表。使用盒须图来比较数据的分散程度,使用直方图来展示数据分布的“形状”。
2. 集中趋势测量(即“平均值”)
当我们想用一个数字来描述整个群体时,我们会使用平均值。
算术平均数 (Mean, \( \bar{x} \))
这是最“公平”的平均值。将所有数值加总,然后除以数据的总个数。
\( \bar{x} = \frac{\sum x}{n} \)
你知道吗?平均数非常容易受极值 (outliers)(异常数值)影响。如果一个亿万富翁走进一间教室,即使其他人都身无分文,整间教室的“平均”财富也会瞬间变成数百万!
中位数 (Median)
真正的中间值。将数字由小到大排列,找出最中间的那个点。
简单技巧:如果数据个数是奇数,中位数就是最中间那个;如果是偶数,则取中间两个数的平均值。
众数 (Mode)
出现次数最多的数值。这是唯一可以用于非数值数据(如“最喜欢的颜色”)的平均值。
关键总结:如果数据中含有极值,请使用中位数,因为它不会被那些突兀的极大或极小数值给“拉走”。
3. 离散程度测量(即“分散程度”)
只知道平均值是不够的。我们还需要知道数据是聚在一起,还是四散分布。
全距与四分位距 (Range and Inter-quartile Range, IQR)
全距:最大值 - 最小值。(极易受极值影响)。
四分位距 (IQR): \( Q_3 - Q_1 \)。这代表了中间 50% 数据的分散情况,因为忽略了两端的极值,所以它更可靠。
方差与标准差 (Variance and Standard Deviation, \( \sigma \))
标准差是“平均距离平均值的距离”。如果标准差很小,代表数据都非常接近平均值。
课程定义标准差为与平均值偏差的平方根平均值 (root mean square deviation from the mean)。你可以使用以下公式:
\( \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \) 或计算用公式: \( \sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \)
方差 (Variance) 则是标准差的平方 (\( \sigma^2 \))。
如果这看起来很复杂,别担心!你的计算器有“统计模式 (Statistics mode)”可以帮你完成大部分繁重的计算。多练习使用 \(\sum x\) 和 \(\sum x^2\) 按钮吧!
关键总结:标准差运用了每一个数据点,因此非常强大;但如果数据非常“混乱”且包含大量极值,四分位距 (IQR) 会是更好的选择。
4. 极值与数据清理
有时数据本身就是错的——也许有人打错了字,或者传感器坏了。我们称这些为极值 (outliers)。
如何找出极值
在考试中,你通常会使用以下两种数学“栅栏”来找出极值:
1. IQR 规则:任何高于 \( Q_3 + 1.5 \times IQR \) 或低于 \( Q_1 - 1.5 \times IQR \) 的数值。
2. 标准差规则:任何距离平均值超过 \( 2 \times \sigma \) 的数值。
类比:把这些规则想成“保安”。如果某个数据点离群体太远,保安就会把它标记出来进行检查!
数据清理 (Cleaning Data)
当你找到一个极值时,必须做出判断:它是真实存在(但很奇怪)的数据,还是一个错误?清理数据的过程就是识别这些错误,并决定在开始计算前应该删除还是修正它们。
快速回顾:
• 检查有无输入错误。
• 计算使用 \( 1.5 \times IQR \) 的“栅栏”。
• 决定根据实际情境,该极值是保留还是删除。
关键词汇总结
总体 (Population):你所感兴趣的完整群体。
样本 (Sample):你实际测量的一小部分总体。
频数密度 (Frequency Density):直方图中柱状的高度。
集中趋势 (Central Tendency):“平均值”的专业说法(算术平均数、中位数、众数)。
离散程度 (Variation):“分散程度”的专业说法(四分位距、标准差)。
估计值 (Estimates):当数据被分组时(例如“10-20 分钟”),我们不知道确切数值,因此计算出的平均值只能是基于组中点的估计值。