欢迎来到“总结度量”!
你有没有试过看着一大堆密密麻麻的数字表格,看到头昏眼花?这时候就是总结度量 (summary measures) 大显身手的时候了!在本章中,我们将学习如何将海量数据进行提炼,透过几个关键数字来解读数据背后的意义。我们主要集中于两大重点:数据的“中心”在哪里(集中趋势 central tendency),以及数据的离散程度(离散程度/变异度 variation)。
如果觉得统计学比起纯数 (Pure Maths) 显得“文字感”较重,不用担心——统计学核心在于诠释。读完这些笔记,你将能像专家一样描述任何数据集。
1. 集中趋势度量:寻找“中心”
我们利用这些指标来寻找一个能代表数据集“典型”结果的数值。课程大纲主要涵盖四种:
平均数 (Mean, \(\bar{x}\))
算术平均数就是一般大众所称的“平均值”。计算方法是将所有数据加总,再除以数据的个数。
公式: \(\bar{x} = \frac{\sum x}{n}\)
例子:若五位学生的测试成绩分别为 10, 12, 15, 18, 20,则平均数为 \(\frac{75}{5} = 15\)。
加权平均数 (Weighted Mean):有时某些数据比其他数据更重要。例如,若要计算两个不同城市的人口平均身高,你必须根据每个城市的人口数量对平均值进行“加权”。
中位数 (Median)
中位数是将数据按顺序排列后,位于最中间的数值。若数据个数为偶数,则取中间两个数值的平均值。
类比:想象高速公路上的分隔岛——它正好位于路中间,将道路一分为二!
众数 (Mode)
众数是出现频率最高的数值。一个数据集可能有一个众数、没有众数,或呈现双众数 (bimodal)(有两个众数)。
全距中值 (Midrange)
这是一个简单直接的度量,透过取最大值和最小值的平均值获得:\(\frac{\text{max} + \text{min}}{2}\)。它非常简单,但极易受极端值影响。
快速回顾:我该用哪一个?
• 平均数:最适合没有极端值的对称数据。
• 中位数:最适合“偏态 (skewed)”数据(即含有少数极高或极低值的情况),因为它不会被极端值拉偏。
• 众数:最适合类别数据 (categorical data)(例如:“最受欢迎的汽车颜色是什么?”)。
2. 离散程度度量:数据有多“散”?
两个数据集可能拥有相同的平均数,但看起来却截然不同。想象两位射手:射手 A 射中靶心 5 次。射手 B 两次射偏在左侧 1 米处,三次射偏在右侧 1 米处。他们的“平均”表现相同,但射手 A 明显稳定得多!
全距 (Range)
最简单的度量:\(\text{最大值} - \text{最小值}\)。
常见错误:全距是一个单一数字(例如:“15”),而不是两个数字(例如:“10 到 25”)。
四分位数与四分位距 (IQR)
我们可以将数据分成四个等份:
• 下四分位数 (\(Q_1\)):第 25 百分位数(数据排列后的四分之一位置)。
• 中位数 (\(Q_2\)):第 50 百分位数(一半的位置)。
• 上四分位数 (\(Q_3\)):第 75 百分位数(数据排列后四分之三的位置)。
• 四分位距 (IQR):即 \(Q_3 - Q_1\)。它告诉我们中间 50% 数据的离散程度。
你知道吗?IQR 非常好用,因为它忽略了双端那些“怪异”的极端值,专注于描述中间稳定的数据。
标准差 (Standard Deviation, \(s\)) 与方差 (Variance, \(s^2\))
标准差是最强大的离散程度度量。它告诉我们数据点距离平均值的“平均距离”。
OCR MEI H640 重要提醒:我们计算的是样本 (sample) 标准差。这意味着在计算平方距离的“平均值”时,我们除以的是 \(n-1\) 而不是 \(n\)。这是因为使用 \(n-1\) 对总体数据能提供更准确的估计。
公式:
1. 平方和 (\(S_{xx}\)): \(S_{xx} = \sum (x_i - \bar{x})^2\)
2. 样本方差 (\(s^2\)): \(s^2 = \frac{S_{xx}}{n-1}\)
3. 样本标准差 (\(s\)): \(s = \sqrt{\frac{S_{xx}}{n-1}}\)
计算器小撇步:别被长公式吓倒!你的科学计算器或绘图计算器都有统计模式 (Statistics Mode)。只需输入数据,它就会自动算出 \(\bar{x}\) 和 \(s\)。留意屏幕上的 \(s_x\) 或 \(\sigma_{n-1}\) 符号。
3. 识别离群值与清理数据
离群值 (outlier) 是指一个与其余数据集“格格不入”的数据点——就像小学班级里出现了一位 7 呎高的学生。
如何找出离群值(规则)
在 MEI 课程大纲中,有两种定义离群值的标准数学方法。题目通常会说明要使用哪一种:
规则 1 (1.5 × IQR 规则):
小于 \(Q_1 - (1.5 \times \text{IQR})\)
或者
大于 \(Q_3 + (1.5 \times \text{IQR})\)
规则 2 (2倍标准差规则):
任何距离平均值超过 2 个标准差的数据。
公式:\(\text{离群值} > \bar{x} + 2s\) 或 \(\text{离群值} < \bar{x} - 2s\)
清理数据
当你发现离群值时,不要直接删除!你必须清理数据 (clean the data)。这意味着要调查该离群值是否为:
1. 错误:(例如:有人把“15”误输入成“150”)。这种情况,请修正或删除它。
2. 真实存在的极端值:(例如:财富调查中出现了亿万富翁)。这种情况,应保留它,但改用中位数而非平均数来描述数据,以免结果失真。
重点总结:总结度量让我们能轻松比较两个群组。如果 A 组的平均数高于 B 组且标准差小于 B 组,意味着 A 组平均表现“较好”且更“稳定”。
总结清单
• 我知道如何计算平均数、中位数和众数吗?
• 我会使用计算器找出标准差 (\(s\)) 吗?
• 记得样本方差要除以 \(n-1\)!
• 我会应用 \(1.5 \times \text{IQR}\) 规则找出离群值吗?
• 我了解对于偏态数据,中位数/IQR 是更好的选择吗?
如果初看标准差公式觉得很复杂,别担心。多练习将数据输入计算器——这将是你本章最好的伙伴!