The normal distribution

学习笔记：5.5 正态分布

你好！欢迎来到“概率与统计 1”的最后一章。正态分布（Normal Distribution）或许是整个统计学中最重要的一种连续型分布。为什么呢？因为现实世界中太多的事物——从人的身高到测量误差——都遵循这种模式。掌握了这个主题，你就能解决关于这些现实变量的复杂问题。如果一开始觉得有些棘手，别担心；我们将一步步拆解它！

1. 理解正态分布 $X \sim N(\mu, \sigma^2)$

正态分布用于模拟连续型随机变量（CRV）。连续型随机变量是指可以在给定范围内取任何值的变量（例如身高、温度、时间）。

钟形曲线

由于正态分布图形的独特形状，它常被称为钟形曲线（bell curve）。

它关于均值 $\mu$ 完全对称。
均值（$\mu$）、中位数和众数都位于同一个中心点。
曲线下的总面积始终为 1（代表 100% 的概率）。

符号与参数

我们使用两个关键参数来描述正态分布：

服从正态分布的随机变量 $X$ 的符号表示为：
$$X \sim N(\mu, \sigma^2)$$

$\mu$ (Mu)： 这是均值（或期望）。它确定了曲线的中心位置。
$\sigma^2$ (Sigma squared)： 这是方差。它衡量数据的离散程度。
$\sigma$ (Sigma)： 这是标准差。它是方差的平方根，在解释离散程度时通常比方差更直观。

重点总结： 均值 $\mu$ 告诉你钟形曲线的中心在哪里，而标准差 $\sigma$ 告诉你曲线有多宽或多窄。

2. 标准正态分布 ($Z$)

由于 $\mu$ 和 $\sigma$ 的不同，每个正态分布看起来都略有差异。为了避免查阅无穷无尽的表格，我们将任何正态变量 $X$ 转换成一种标准形式，即标准正态分布（Standard Normal Distribution）。

标准正态随机变量用 $Z$ 表示。

$$Z \sim N(0, 1)$$

该分布的均值 $\mu = 0$，方差 $\sigma^2 = 1$。

使用正态分布表 ($\Phi(z)$)

MF19 手册中提供的表格给出了标准正态分布的值，记作 $\Phi(z)$。

$\Phi(z) = P(Z < z)$

这意味着表格给出的总是给定 $Z$ 值左侧的面积（概率）。

记忆小贴士： 把 $\Phi$ (Phi) 想象成累积概率——它汇集了直到该点为止的所有概率。

3. 标准化：$Z$ 公式

为了将任何正态分布 $N(\mu, \sigma^2)$ 中的变量 $X$ 转换为标准变量 $Z$，我们使用标准化（Standardisation）过程：

$$Z = \frac{X - \mu}{\sigma}$$

$(X - \mu)$ 计算了 $X$ 距离均值的偏差。
除以 $\sigma$ 则是以标准差为单位来衡量这个偏差。

示例类比： 想象一次考试得了 70 分。这算好吗？这取决于情况！
如果均值 ($\mu$) 是 50，标准差 ($\sigma$) 是 10：
$Z = \frac{70 - 50}{10} = 2$。该分数比平均分高出 2 个标准差——非常优秀！
$Z$ 分数（Z-score）能精确告诉你任何分数高出或低于平均分多少。

标准化的分步过程：

确定 $\mu$ 和 $\sigma$（记住：$\sigma$ 是方差 $\sigma^2$ 的平方根）。
确定你感兴趣的 $x$ 值。
使用公式 $Z = \frac{X - \mu}{\sigma}$ 将 $X$ 转换为 $Z$。
画出曲线！这对于确定需要计算哪一部分面积至关重要。

快速复习：重要性质

由于正态分布是连续的：
$$P(X < x) = P(X \leq x)$$
取某一个特定数值的概率始终为零。

4. 使用 Z 表求解概率问题

解决问题时，你必须始终将原始 $X$ 曲线上的所需区域转换到 $Z$ 曲线上的对应区域，以便在 $\Phi(z)$ 表中查找。

情况 1：$P(Z < a)$，其中 $a > 0$（左侧区域）

这是直接查表：
$$P(Z < a) = \Phi(a)$$

情况 2：$P(Z > a)$，其中 $a > 0$（右侧区域）

因为总面积为 1，右侧面积等于 1 减去左侧面积：
$$P(Z > a) = 1 - P(Z < a) = 1 - \Phi(a)$$

情况 3：$P(Z < -a)$，其中 $-a < 0$（负值左侧区域）

表格只显示正 $Z$ 值。由于对称性，$-a$ 左侧的面积等于 $a$ 右侧的面积。
$$P(Z < -a) = P(Z > a) = 1 - \Phi(a)$$

（考纲提示：表格指明了这一关系：$ \Phi(-z) = 1 - \Phi(z) $）

情况 4：$P(Z > -a)$，其中 $-a < 0$（负值右侧区域）

由于对称性，$-a$ 右侧的面积覆盖了整个正半轴加上 $P(0 < Z < a)$ 的面积。这等同于整个面积 $P(Z < a)$：
$$P(Z > -a) = P(Z < a) = \Phi(a)$$

情况 5：$P(a < Z < b)$（两个值之间的区域）

用较大值的累积概率减去较小值的累积概率。
$$P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a)$$

给同学的关键建议： 一定要画出钟形曲线并标出所需区域。这能直观地确认你需要使用哪个公式（$1 - \Phi$ 还是直接使用 $\Phi$）。

重点总结： 所有的正态分布概率问题都依赖于对所需区域进行变换，直到能用基本累积函数 $\Phi(z)$ 表示出来为止。

5. 反向正态分布问题

有时题目会给出概率（面积），并要求你求出对应的 $X$ 值或参数 $\mu$ 或 $\sigma$。这称为反向标准化（Reverse Standardisation）。

反向操作的分步过程：

求 $Z$ 分数： 使用给定的概率（面积）和 Z 表（反向查找）找到对应的 $z$ 值。
确定符号：
- 如果给定的概率面积小于 0.5，则 $z$ 值必须为负。
- 如果给定的概率面积大于 0.5，则 $z$ 值必须为正。
使用标准化公式： 将已知值代入 $Z = \frac{X - \mu}{\sigma}$ 并解出未知参数（$X$、$\mu$ 或 $\sigma$）。

示例： 若 $P(X < x_1) = 0.1587$。因为 0.1587 小于 0.5，所以 $x_1$ 必须在均值左侧，其对应的 $Z$ 分数 $z_1$ 必须是负数。
我们在表中查找面积 $1 - 0.1587 = 0.8413$，查得 $z = 1.00$。
因此，$x_1$ 实际的 $Z$ 分数为 $\mathbf{z_1 = -1.00}$。

应避免的常见错误： 当概率小于 0.5 时，在反向问题中忘记调整 $Z$ 分数的符号。

6. 二项分布的正态近似

正态分布作为连续分布，有时可用于估算离散的二项分布的概率。当试验次数 $n$ 非常大，导致直接计算极其困难时，这种方法非常有用。

近似条件

当满足以下条件时，使用正态分布近似二项分布 $X \sim B(n, p)$ 是合理的：

试验次数 $n$ 很大。
$\mathbf{np > 5}$ 且 $\mathbf{nq > 5}$（其中 $q = 1 - p$）。

近似参数

如果满足条件，我们使用正态分布 $N(\mu, \sigma^2)$ 来近似 $X$，其中：
$$ \mu = np $$ $$ \sigma^2 = npq $$

连续性修正 (CC) - 这至关重要！

因为我们要从离散分布（二项分布，结果为整数）切换到连续分布（正态分布），所以必须应用连续性修正（Continuity Correction）。

连续性修正涉及将整数边界调整 0.5。可以将每个整数 $x$ 视为在连续尺度上覆盖从 $(x - 0.5)$ 到 $(x + 0.5)$ 的区间。

连续性修正总结：

离散二项概率	连续正态近似
$P(X = x)$	$P(x - 0.5 < X < x + 0.5)$
$P(X \leq x)$	$P(X < x + 0.5)$
$P(X < x)$	$P(X < x - 0.5)$
$P(X \geq x)$	$P(X > x - 0.5)$
$P(X > x)$	$P(X > x + 0.5)$

示例： 假设你想求恰好 10 次成功的概率，即 $P(X=10)$。
在连续尺度上，“恰好 10”由从 9.5 到 10.5 的区间表示。
近似计算：$P(9.5 < X < 10.5)$。

示例： 如果题目要求“小于 15”，即 $X \leq 14$。
允许的最大整数是 14。连续边界必须延伸到 14.5。
近似计算：$P(X < 14.5)$。

分步近似过程：

检查条件：$np > 5$ 且 $nq > 5$。
计算 $\mu = np$ 和 $\sigma^2 = npq$。
对所需的整数边界应用连续性修正（加或减 0.5）。
使用 $Z = \frac{X - \mu}{\sigma}$ 进行标准化。
按照第 4 节的方法使用 $Z$ 表求解。

你知道吗？ 正态分布之所以如此频繁出现，是因为中心极限定理（Central Limit Theorem）（这是 Paper 6/S2 的课题）。该定理基本说明：无论单个变量的原始分布如何，许多独立随机变量的总和或平均值倾向于服从正态分布！

重点总结： 当用正态分布近似二项分布时，请记住两个关键步骤：从二项分布参数计算出正确的 $\mu$ 和 $\sigma^2$，并且务必应用连续性修正（加减 0.5）。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

离散二项概率	连续正态近似
\(P(X = x)\)	\(P(x - 0.5 < X < x + 0.5)\)
\(P(X \leq x)\)	\(P(X < x + 0.5)\)
\(P(X < x)\)	\(P(X < x - 0.5)\)
\(P(X \geq x)\)	\(P(X > x - 0.5)\)
\(P(X > x)\)	\(P(X > x + 0.5)\)

学习笔记：5.5 正态分布

1. 理解正态分布 \(X \sim N(\mu, \sigma^2)\)

钟形曲线

符号与参数

2. 标准正态分布 (\(Z\))

使用正态分布表 (\(\Phi(z)\))

3. 标准化：\(Z\) 公式

快速复习：重要性质

4. 使用 Z 表求解概率问题

情况 1：\(P(Z < a)\)，其中 \(a > 0\)（左侧区域）

情况 2：\(P(Z > a)\)，其中 \(a > 0\)（右侧区域）

情况 3：\(P(Z < -a)\)，其中 \(-a < 0\)（负值左侧区域）

情况 4：\(P(Z > -a)\)，其中 \(-a < 0\)（负值右侧区域）

情况 5：\(P(a < Z < b)\)（两个值之间的区域）

5. 反向正态分布问题

反向操作的分步过程：

6. 二项分布的正态近似

近似条件

近似参数

连续性修正 (CC) - 这至关重要！

准备好测试自己了吗？

更多Mathematics (9709)章节

立即实践所学