温习笔记:离差度量
您好!欢迎来到关于离差度量的温习笔记。别担心这听起来很复杂——它只不过是用一种更专业的方式来问:“数据分布得有多广?”
在本章中,我们将学习如何描述和度量一组数字的“分布”或“一致性”。这在现实生活中非常实用,从比较学生成绩到分析篮球运动员的表现,都能派上用场。让我们开始深入探讨吧!
究竟什么是离差?
想象一下有两位学生,Alex 和 Ben,他们参加了五次数学测验。他们的成绩如下:
Alex:70、72、75、73、70
Ben:50、95、60、100、55
如果你计算他们的平均分(平均值),你会发现两者都是 72 分。但他们的表现真的相同吗?完全不是!
Alex 的表现非常稳定。他的分数都集中在一起。而 Ben 的分数则很不稳定——有时很高,有时又不那么好。它们非常分散。
离差是用来度量一组数据分散或散布程度的指标。低离差表示数据点彼此接近(像 Alex 的分数);高离差则表示它们相距很远(像 Ben 的分数)。
重点摘要
离差告诉我们数据的一致性或变异性。它让我们比单纯看平均值,更能对数据有一个全面的了解。
1. 简单的离差度量方法:全距和四分位距
让我们从两种最简单的离差度量方法开始。
全距
全距是最简单的离差度量方法。它就是数据集中最大值与最小值之间的差。
公式:全距 = 最大值 - 最小值
逐步示例:
找出以下分数的全距:12、15、7、22、18、9
- 找出最大值:22
- 找出最小值:7
- 相减:全距 = 22 - 7 = 15
优点:计算非常简单!
缺点:它可能会产生误导,因为它只受两个极端值(异常值)的影响。例如,在 Ben 的分数(50、95、60、100、55)中,全距是 100 - 50 = 50,非常大。
四分位距 (IQR)
四分位距 (IQR) 通常是衡量离差的更好方法,因为它不受极端异常值的影响。它告诉你数据中间 50% 的分布范围。
要找出 IQR,我们首先需要找到四分位数。
快速回顾:中位数
中位数是数据集按顺序排列后的中间值。它将数据分成两等份。
四分位数的工作方式类似,但它们将数据分成四等份。
- 下四分位数 (Q1):下半部分数据的中位数。(25% 的数据低于它)
- 中位数 (Q2):整个数据集的中位数。(50% 的数据低于它)
- 上四分位数 (Q3):上半部分数据的中位数。(75% 的数据低于它)
公式:IQR = 上四分位数 (Q3) - 下四分位数 (Q1)
逐步示例(奇数个数据点):
找出以下数据的 IQR:3、6、7、10、12、15、16
- 排列数据:它已经是排列好的了!3、6、7、10、12、15、16
- 找出中位数 (Q2):中间的数字是 10。
- 找出 Q1:查看数据的下半部分(中位数之前的数字):3、6、7。这里的中间数字是 6。所以,Q1 = 6。
- 找出 Q3:查看数据的上半部分(中位数之后的数字):12、15、16。这里的中间数字是 15。所以,Q3 = 15。
- 计算 IQR:IQR = Q3 - Q1 = 15 - 6 = 9。
逐步示例(偶数个数据点):
找出以下数据的 IQR:2、5、6、8、11、14、16、19
- 排列数据:已经是排列好的了。2、5、6、8、11、14、16、19
- 找出中位数 (Q2):中间位于 8 和 11 之间。中位数 = (8 + 11) / 2 = 9.5。
- 找出 Q1:查看下半部分:2、5、6、8。中间位于 5 和 6 之间。Q1 = (5 + 6) / 2 = 5.5。
- 找出 Q3:查看上半部分:11、14、16、19。中间位于 14 和 16 之间。Q3 = (14 + 16) / 2 = 15。
- 计算 IQR:IQR = Q3 - Q1 = 15 - 5.5 = 9.5。
重点摘要
全距能让你快速了解整体的分布,但容易受到异常值的影响而扭曲。四分位距 (IQR) 则度量数据中间 50% 的分布,在有极端值的情况下更为可靠。
2. 离差的可视化:箱形图
箱形图(或称盒须图)是一种一目了然地显示数据离差的绝佳方式。它是五个关键数字的视觉化呈现:
“五数概括”:
- 最小值
- 下四分位数 (Q1)
- 中位数 (Q2)
- 上四分位数 (Q3)
- 最大值
如何解读箱形图:
- “箱形部分”代表数据中间的 50%(即 IQR)。
- 箱形内部的那条线是中位数 (Q2)。
- “须”从箱形部分延伸至最小值和最大值。
- 箱形部分越宽,表示 IQR 越大,数据中间部分的离散程度越高。
- 须越短,表示该四分区间的数据分布越集中。
利用箱形图比较分布
这就是箱形图真正大显身手的地方!让我们比较一下甲班和乙班的测验成绩。
想象有两张箱形图,一张代表甲班,一张代表乙班,并以相同的刻度绘制。
- 比较中位数:如果乙班的中位数线比甲班的更靠右(数值更高),这意味着平均而言,乙班的表现更好。
- 比较离差:如果甲班的箱形部分比乙班的窄得多,这表示甲班的成绩更稳定(IQR 更小)。如果乙班的总须长度(全距)长得多,则意味着他们的成绩整体分布更广。
重点摘要
箱形图是一个强大的视觉工具。它将中位数、四分位数和全距都呈现在一张图中,使你能够轻松比较不同数据集的分布。
3. 最强大的度量方法:标准差 (σ)
别被它的名字或公式吓倒!这个概念其实很简单。标准差 (SD) 告诉我们,平均而言,每个数据点与数据的平均值(均值)相距多远。
小标准差意味着数据点紧密地聚集在平均值附近(高一致性)。
大标准差意味着数据点分布在更广的范围内(低一致性)。
非分组数据的标准差
总体标准差的公式是:
$$ \sigma = \sqrt{\frac{\sum (x_i - \mu)^2}{N}} $$让我们来分解一下:
- $$ \sigma $$ (sigma,西格玛) 是标准差的符号。
- $$ \mu $$ (mu,缪) 是总体平均值的符号。
- $$ x_i $$ 代表每个单独的数据值。
- $$ N $$ 是数据值的总数。
- $$ \sum $$ (同样是 sigma!) 意思是“将所有后续部分加起来”。
还有一个术语:方差就是标准差的平方 ($$\sigma^2$$)。它是你在最后取平方根之前所得到的数值。
逐步计算(非分组数据):
找出以下数据的标准差:2、4、7、8、9
- 步骤 1:找出平均值 ($$\mu$$)。
$$ \mu = \frac{2+4+7+8+9}{5} = \frac{30}{5} = 6 $$ - 步骤 2:对于每个数据点,减去平均值并将结果平方。
$$(2 - 6)^2 = (-4)^2 = 16$$
$$(4 - 6)^2 = (-2)^2 = 4$$
$$(7 - 6)^2 = (1)^2 = 1$$
$$(8 - 6)^2 = (2)^2 = 4$$
$$(9 - 6)^2 = (3)^2 = 9$$ - 步骤 3:找出这些平方差的平均值(这就是方差,$$\sigma^2$$)。
$$ \text{Variance} = \sigma^2 = \frac{16+4+1+4+9}{5} = \frac{34}{5} = 6.8 $$ - 步骤 4:取平方根以找出标准差 ($$\sigma$$)。
$$ \sigma = \sqrt{6.8} \approx 2.61 $$
分组数据的标准差
当数据以频数分布表呈现时,我们使用稍微不同的公式。我们将每组的组中值作为我们的 'x' 值。
公式是: $$ \sigma = \sqrt{\frac{\sum f_i(x_i - \mu)^2}{\sum f_i}} $$ 其中 $$f_i$$ 是每组的频数。
步骤相似,但你需要在适当的阶段乘以频数。通常,你可以使用计算器的统计模式来更快地找出这个数值!
重点摘要
标准差是最详细的离差度量方法。它告诉你数据点与平均值的平均距离。如果你追求一致性,则低标准差是“好”的;高标准差则意味着更大的变异。
4. 进阶课题 (非基础部分)
这些概念是我们所学知识的延伸,对于在更复杂的情况下比较数据非常有用。
标准分数 (z分数)
你如何比较苹果和橙子?或者,更贴切地说,如何在简单测验中取得高分和在困难测验中取得好分之间进行比较?答案就是使用标准分数!
z分数能精确地告诉你一个数据点与平均值相差多少个标准差。
公式: $$ z = \frac{x - \mu}{\sigma} $$
例子:你在一个平均值($$\mu$$)为 75、标准差($$\sigma$$)为 5 的测验中得了 85 分。你的 z分数是:
$$ z = \frac{85 - 75}{5} = \frac{10}{5} = 2 $$
这表示你的分数恰好比平均值高出 2 个标准差。正 z分数表示高于平均值,负 z分数表示低于平均值,而 z分数为 0 则表示恰好等于平均值。
正态分布
现实世界中的许多事物,例如人的身高或考试成绩,往往会遵循一种称为正态分布的模式。它看起来像一个对称的钟形,通常被称为“钟形曲线”。
在正态分布中:
- 平均值、中位数和众数都位于中心。
- 大部分数据都聚集在平均值附近。
- 离平均值越远,数据就越少。
标准差是理解这一点的关键。例如,非常大比例的数据落在平均值的一个、两个或三个标准差范围内。(你不需要记住确切的百分比!)
数据变化的影响
如果我们以相同的方式改变每个数据点,我们的离差度量会发生什么变化?
情况 1:为每个数据值加上一个常数 'c'。
- 例子:将数据集中的每个分数都加上 10。
- 整个数据集只是向上平移。离差不会改变!
- 影响:全距、四分位距 (IQR) 和标准差都不变。
情况 2:将每个数据值乘以一个常数 'k'。
- 例子:将数据集中的每个分数都加倍 (k=2)。
- 数据不仅平移,而且还会被拉伸开来。离差增加。
- 影响:原始的离差度量也会乘以 |k|。
- 新全距 = |k| × 旧全距
- 新四分位距 (IQR) = |k| × 旧四分位距 (IQR)
- 新标准差 = |k| × 旧标准差
重点摘要
标准分数帮助我们在不同数据集之间进行公平的比较。数据转换有可预测的影响:加上一个常数不会改变离差,而乘以一个常数会将离差按相同常数进行比例缩放。
你知道吗?
在金融领域,标准差是衡量风险的关键指标。股票价格标准差高的,被认为波动性大、风险高;而标准差低的,则被视为更稳定。理解离差可以帮助你做出更明智的决定!