The normal distribution - Mathematics A - H240 - Cambridge OCR A Level

常态分布简介

欢迎来到统计学中最重要的章节之一！你有没有发现，在人群中，大多数人的身高都在平均值左右，而极高或极矮的人非常少？或者，大多数学生在考试中的得分都接近平均分？这种“中间高、两边低”的规律在自然界和社会科学中非常普遍，因此数学家为其建立了一个模型，称为常态分布（Normal Distribution）。

如果起初觉得这些概念有点抽象，请不用担心。学完这些笔记后，你将能够描述这个著名的“钟形曲线”，并学会使用计算器来解决以往需要耗费数小时人工计算的问题！

1. 什么是常态分布？

常态分布是一种连续型概率分布。这意味着它处理的数据可以是任何数值，例如时间、重量或身高（这与处理“成功次数”如 1、2 或 3 的二项分布不同）。

记法

我们将随机变量 \(X\) 服从常态分布写作：
\(X \sim N(\mu, \sigma^2)\)

拆解如下：
1. \(\mu\) (mu)： 这是平均值（mean）。它告诉你钟形曲线的中心位置在哪里。
2. \(\sigma^2\) (sigma squared)： 这是方差（variance）。
3. \(\sigma\) (sigma)： 这是标准差（standard deviation）。它告诉你曲线有多“宽”或有多“窄”。

快速复习： 在考试中，务必确认题目给出的是方差 (\(\sigma^2\)) 还是标准差 (\(\sigma\))。如果题目给出 \(\sigma^2 = 16\)，那么 \(\sigma = 4\)。

钟形曲线的关键特征

对称性： 曲线关于平均值 (\(\mu\)) 完全对称。左侧是右侧的镜像。
平均值 = 中位数 = 众数： 这三个集中趋势指标都位于曲线的正中央。
总面积 = 1： 因为曲线下的面积代表所有可能结果的总概率，所以它必须等于 1。
反曲点： 这是曲线从“凹”转为“凸”的点。这些点精确地位于 \(x = \mu + \sigma\) 和 \(x = \mu - \sigma\) 的位置。

你知道吗？ 因为曲线是对称的，所以正好有 50% 的数据高于平均值，50% 的数据低于平均值。这是在检查答案时非常实用的“救命”小技巧！

重点总结： 常态分布描述了围绕中心平均值聚集，并呈钟形向两侧对称散布的数据。

2. “68-95-99.7”法则

这是一个非常有用的经验法则，可以帮助你直观地理解数据在常态分布中是如何分布的。对于任何常态分布：

约有 68%（大约三分之二）的数据落在距离平均值 1 个标准差的范围内 (\(\mu \pm \sigma\))。
约有 95% 的数据落在距离平均值 2 个标准差的范围内 (\(\mu \pm 2\sigma\))。
几乎所有 (99.7%) 的数据都落在距离平均值 3 个标准差的范围内 (\(\mu \pm 3\sigma\))。

记忆小帮手： 将其视为 1-2-3 法则。跨越 1 个单位 = 68%，2 个单位 = 95%，3 个单位 = 涵盖几乎所有人！

重点总结： 如果一个数值距离平均值超过 3 个标准差，它就非常罕见（即异常值）！

3. 标准常态分布 (\(Z\))

试想一下，如果要把以厘米为单位的高度和以公斤为单位的重量进行比较，这是不可能的！为了克服这一点，我们使用标准常态分布，其平均值为 0，标准差为 1。

我们使用字母 \(Z\) 来表示： \(Z \sim N(0, 1)\)。

Z-转换公式

你可以使用这个“万能转换器”公式，将任何常态分布的数值 (\(X\)) 转换为标准分数 (\(Z\))：
\(Z = \frac{X - \mu}{\sigma}\)

范例：如果智商分数为 \(N(100, 15^2)\)，那么智商为 130 的人的 Z-score 是多少？
\(Z = \frac{130 - 100}{15} = 2\)。
这意味着该人的智商比平均水平高出正好 2 个标准差。

常见错误： 忘记对方差开平方根！如果分布是 \(N(50, 25)\)，\(\sigma\) 是 5 而不是 25。在 Z 分数公式的分母中，始终使用 \(\sigma\)。

重点总结： Z-score 告诉你一个数值距离平均值有多少个标准差。

4. 使用计算器

在 OCR A Level 课程中，你需要使用计算器的统计功能，而不是查阅旧式的统计表。

A. 求概率 (Normal CD)

当你有一个数值范围（例如 \(P(X < 55)\) 或 \(P(40 < X < 60)\)）并想求概率（曲线下的面积）时使用此功能。

下限 (Lower Bound)： 范围内的最小值。如果没有下限（例如 \(X < 55\)），请输入一个极小的数，如 \(-9999\)。
上限 (Upper Bound)： 范围内最大值。如果没有上限（例如 \(X > 70\)），请输入一个极大的数，如 \(9999\)。

B. 求数值 (Inverse Normal)

当你知道概率（即“面积”）并想找出对应的数值 (\(x\)) 时使用此功能。
范例：“找出最高 10% 的人所对应的身高临界值。”

提示： 大多数计算器要求“Area”必须是该数值左侧的面积。如果你想计算前 10%（即右侧 10%），你必须输入 0.90 的面积（左侧 90%）。

重点总结： 概率用 "Normal CD"，求数值用 "Inverse Normal"。

5. 选择正确的模型

有时你需要判断常态分布是否适用于现实情境。

常态模型的适用条件：

数据是连续的。
数据是对称且呈钟形的。
大多数数据点都靠近中间。

近似二项分布：

如果你有一个二项分布 \(X \sim B(n, p)\)，其中 \(n\) 很大（通常 \(n > 50\)）且 \(p\) 接近 0.5，那么二项分布的条形图看起来会非常像一个平滑的常态曲线！

在这种情况下，我们可以使用：
平均值：\(\mu = np\)
方差：\(\sigma^2 = np(1-p)\)

注意： 在本卷中，你不会被要求进行繁琐的近似计算，但你必须理解“何时可以用一种分布来建模另一种分布”的逻辑。

快速总结复习：
1. 记法： \(X \sim N(\mu, \sigma^2)\)。
2. 形状： 对称，总面积 = 1，平均值位于中心。
3. Z-score： \(Z = (X - \mu) / \sigma\)。
4. 68-95-99.7： 数据在 1、2 和 3 个标准差内的散布情况。
5. 计算器： 用 'Normal CD' 求面积/概率，用 'Inverse Normal' 求数值。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。