欢迎来到数据摘要!

在本章中,我们将学习如何将一大堆数据浓缩成两个非常重要的数值:平均数 (mean)标准差 (standard deviation)。平均数告诉我们数据的“中心”在哪里,而标准差则告诉我们数据有多“分散”或多“稳定”。想象一下天气预报——平均数是该月的平均温度,但标准差会告诉你每天的气温是否都维持在这个水平,还是说气温会在冰点与沸点之间剧烈波动!

如果公式起初看起来有点吓人,不用担心。 我们会一步一步拆解它们,你会发现它们就像制作蛋糕的食谱一样简单。


1. 算术平均数 \(\bar{x}\)

平均数(符号为 \(\bar{x}\),读作 "x-bar")就是大多数人所说的“平均值”。如果你把所有东西平均分配,每人分得的数值就是平均数。

从数列计算

要计算一组简单数列的平均数,只需将它们全部加起来,然后除以数据的个数即可。

\(\bar{x} = \frac{\sum x}{n}\)

其中:
\(\sum x\) 代表“所有数值的总和”。
\(n\) 是数列中数值的个数。

从频数分布表计算

如果你有一个数值出现多次的表格,你需要先将每个数值 (\(x\)) 乘以它的频数 (\(f\))。

\(\bar{x} = \frac{\sum fx}{\sum f}\)

例子:如果有 3 个人各有 2 只宠物,而 5 个人各有 1 只宠物,你不能只做 2 + 1。你需要计算 \((3 \times 2) + (5 \times 1)\),然后除以总人数 (8)。

快速检视: 平均数是一个“公平分配”的数值。请务必检查你的答案是否合理——它必须介于数据中的最大值和最小值之间!


2. 理解变异:方差与标准差

平均数固然很好,但它无法说明全貌。想象两名射箭选手。两人的命中点“平均”都在靶心。选手 A 的所有箭都集中在靶心的紧密区域内;选手 B 的箭则散落在整个靶盘上,但它们的“平均”位置也在中心。我们需要一种方法来衡量这种“散布”程度。

关键术语

1. 方差 (\(\sigma^2\)): 与平均数差值的平方的平均值。
2. 标准差 (\(\sigma\)): 方差的平方根。这能将测量单位还原为原始数据的单位。

你知道吗? 我们将与平均数的差值平方,是因为有些差值是正的,有些是负的。如果我们只是将它们相加,它们会互相抵消变成零!平方能确保所有数值都变为正数。


3. 标准差的公式

在 OCR H240 考试中,你需要熟悉两种形式的公式。它们看起来不同,但计算出的答案完全相同。

形式 A:“定义”公式

\(\sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}}\)

这清楚地告诉你什么是标准差:即与平均数的差值平方平均数平方根

形式 B:“计算”公式(又称“运算”公式)

这个版本在计算器上使用时通常快得多:

\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

记忆小撇步: 一个简单的记忆方法是“平方的平均值减去平均值的平方(然后全部开根号!)”。

常见错误: 学生经常忘记在最后一步开平方根。如果你的“离散度”数值看起来比原始数据值大得多,请检查一下是否不小心留下了方差,而不是标准差


4. 分组频数分布

有时数据会被分成组别(例如:身高:\(150 \le h < 160\))。因为我们不知道该组内每个人的确切身高,我们会使用该组的组中点 (midpoint) 作为 \(x\) 值。

分组数据的标准差公式为:
\(\sigma = \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2}\)

重点: 因为我们使用的是组中点,所以从分组数据计算出的平均数和标准差永远是估算值,而不是确切值。

要点: 如果题目问为什么你的答案是估算值,答案是:“因为各组内的确切数值未知,所以使用了组中点。”


5. 使用你的计算器

对于 OCR H240 课程,你应该学会使用计算器上的统计功能来快速得出这些数值。

操作步骤:
1. 进入 "Stat" 或 "Data" 模式。
2. 输入你的数据列(或频数表)。
3. 查找 "Variable" 或 "Results" 按钮。
4. 找到 \(\bar{x}\) 作为平均数,\(\sigma x\) 作为标准差。

注意:你的计算器可能会显示 \(s_x\)(样本标准差)和 \(\sigma x\)(总体标准差)。对于此课程,你应该专注于 \(\sigma x\) 版本(即除以 \(n\) 的那个)。


6. 比较数据集

一个非常常见的考题是给你两组不同的数据(例如:A 班和 B 班的考试成绩),并要求你进行比较。你必须针对平均数离散程度两方面进行评论。

如何写出答案:
1. 比较平均数: “平均而言,A 班的成绩优于 B 班,因为他们的平均数较高 (\(65 > 58\))。”
2. 比较标准差: “A 班比 B 班更稳定,因为他们的标准差较低 (\(5 < 12\))。”

关键法则: 标准差越小,代表数据越稳定越集中。标准差越大,代表数据越分散差异越大


最终总结清单

快速检视表:
平均数 (\(\bar{x}\)): 数据的平均值 /“中心”。
标准差 (\(\sigma\)): 衡量离散度 /“稳定性”的指标。
方差 (\(\sigma^2\)): 标准差的平方。
分组数据: 使用组中点;结果为估算值
比较: 平均数高 = 平均水平较高;标准差低 = 更稳定。