常态分布简介

欢迎来到统计学中最重要的章节之一!你有没有发现,在人群中,大多数人的身高都在平均值左右,而极高或极矮的人非常少?或者,大多数学生在考试中的得分都接近平均分?这种“中间高、两边低”的规律在自然界和社会科学中非常普遍,因此数学家为其建立了一个模型,称为常态分布(Normal Distribution)

如果起初觉得这些概念有点抽象,请不用担心。学完这些笔记后,你将能够描述这个著名的“钟形曲线”,并学会使用计算器来解决以往需要耗费数小时人工计算的问题!

1. 什么是常态分布?

常态分布是一种连续型概率分布。这意味着它处理的数据可以是任何数值,例如时间、重量或身高(这与处理“成功次数”如 1、2 或 3 的二项分布不同)。

记法

我们将随机变量 \(X\) 服从常态分布写作:
\(X \sim N(\mu, \sigma^2)\)

拆解如下:
1. \(\mu\) (mu): 这是平均值(mean)。它告诉你钟形曲线的中心位置在哪里。
2. \(\sigma^2\) (sigma squared): 这是方差(variance)
3. \(\sigma\) (sigma): 这是标准差(standard deviation)。它告诉你曲线有多“宽”或有多“窄”。

快速复习: 在考试中,务必确认题目给出的是方差 (\(\sigma^2\)) 还是标准差 (\(\sigma\))。如果题目给出 \(\sigma^2 = 16\),那么 \(\sigma = 4\)。

钟形曲线的关键特征

  • 对称性: 曲线关于平均值 (\(\mu\)) 完全对称。左侧是右侧的镜像。
  • 平均值 = 中位数 = 众数: 这三个集中趋势指标都位于曲线的正中央。
  • 总面积 = 1: 因为曲线下的面积代表所有可能结果的总概率,所以它必须等于 1。
  • 反曲点: 这是曲线从“凹”转为“凸”的点。这些点精确地位于 \(x = \mu + \sigma\)\(x = \mu - \sigma\) 的位置。

你知道吗? 因为曲线是对称的,所以正好有 50% 的数据高于平均值,50% 的数据低于平均值。这是在检查答案时非常实用的“救命”小技巧!

重点总结: 常态分布描述了围绕中心平均值聚集,并呈钟形向两侧对称散布的数据。

2. “68-95-99.7”法则

这是一个非常有用的经验法则,可以帮助你直观地理解数据在常态分布中是如何分布的。对于任何常态分布:

  • 约有 68%(大约三分之二)的数据落在距离平均值 1 个标准差的范围内 (\(\mu \pm \sigma\))。
  • 约有 95% 的数据落在距离平均值 2 个标准差的范围内 (\(\mu \pm 2\sigma\))。
  • 几乎所有 (99.7%) 的数据都落在距离平均值 3 个标准差的范围内 (\(\mu \pm 3\sigma\))。

记忆小帮手: 将其视为 1-2-3 法则。跨越 1 个单位 = 68%,2 个单位 = 95%,3 个单位 = 涵盖几乎所有人!

重点总结: 如果一个数值距离平均值超过 3 个标准差,它就非常罕见(即异常值)!

3. 标准常态分布 (\(Z\))

试想一下,如果要把以厘米为单位的高度和以公斤为单位的重量进行比较,这是不可能的!为了克服这一点,我们使用标准常态分布,其平均值为 0标准差为 1

我们使用字母 \(Z\) 来表示: \(Z \sim N(0, 1)\)

Z-转换公式

你可以使用这个“万能转换器”公式,将任何常态分布的数值 (\(X\)) 转换为标准分数 (\(Z\)):
\(Z = \frac{X - \mu}{\sigma}\)

范例:如果智商分数为 \(N(100, 15^2)\),那么智商为 130 的人的 Z-score 是多少?
\(Z = \frac{130 - 100}{15} = 2\)。
这意味着该人的智商比平均水平高出正好 2 个标准差。

常见错误: 忘记对方差开平方根!如果分布是 \(N(50, 25)\),\(\sigma\) 是 5 而不是 25。在 Z 分数公式的分母中,始终使用 \(\sigma\)

重点总结: Z-score 告诉你一个数值距离平均值有多少个标准差。

4. 使用计算器

在 OCR A Level 课程中,你需要使用计算器的统计功能,而不是查阅旧式的统计表。

A. 求概率 (Normal CD)

当你有一个数值范围(例如 \(P(X < 55)\) 或 \(P(40 < X < 60)\))并想求概率(曲线下的面积)时使用此功能。

  • 下限 (Lower Bound): 范围内的最小值。如果没有下限(例如 \(X < 55\)),请输入一个极小的数,如 \(-9999\)。
  • 上限 (Upper Bound): 范围内最大值。如果没有上限(例如 \(X > 70\)),请输入一个极大的数,如 \(9999\)。

B. 求数值 (Inverse Normal)

当你知道概率(即“面积”)并想找出对应的数值 (\(x\)) 时使用此功能。
范例:“找出最高 10% 的人所对应的身高临界值。”

提示: 大多数计算器要求“Area”必须是该数值左侧的面积。如果你想计算前 10%(即右侧 10%),你必须输入 0.90 的面积(左侧 90%)。

重点总结: 概率用 "Normal CD",求数值用 "Inverse Normal"。

5. 选择正确的模型

有时你需要判断常态分布是否适用于现实情境。

常态模型的适用条件:

  • 数据是连续的。
  • 数据是对称且呈钟形的。
  • 大多数数据点都靠近中间。

近似二项分布:

如果你有一个二项分布 \(X \sim B(n, p)\),其中 \(n\) 很大(通常 \(n > 50\))且 \(p\) 接近 0.5,那么二项分布的条形图看起来会非常像一个平滑的常态曲线!

在这种情况下,我们可以使用:
平均值:\(\mu = np\)
方差:\(\sigma^2 = np(1-p)\)

注意: 在本卷中,你不会被要求进行繁琐的近似计算,但你必须理解“何时可以用一种分布来建模另一种分布”的逻辑。

快速总结复习:
1. 记法: \(X \sim N(\mu, \sigma^2)\)。
2. 形状: 对称,总面积 = 1,平均值位于中心。
3. Z-score: \(Z = (X - \mu) / \sigma\)。
4. 68-95-99.7: 数据在 1、2 和 3 个标准差内的散布情况。
5. 计算器: 用 'Normal CD' 求面积/概率,用 'Inverse Normal' 求数值。