学习笔记:5.5 正态分布
你好!欢迎来到“概率与统计 1”的最后一章。正态分布(Normal Distribution)或许是整个统计学中最重要的一种连续型分布。为什么呢?因为现实世界中太多的事物——从人的身高到测量误差——都遵循这种模式。掌握了这个主题,你就能解决关于这些现实变量的复杂问题。如果一开始觉得有些棘手,别担心;我们将一步步拆解它!
1. 理解正态分布 \(X \sim N(\mu, \sigma^2)\)
正态分布用于模拟连续型随机变量(CRV)。连续型随机变量是指可以在给定范围内取任何值的变量(例如身高、温度、时间)。
钟形曲线
由于正态分布图形的独特形状,它常被称为钟形曲线(bell curve)。
- 它关于均值 \(\mu\) 完全对称。
- 均值(\(\mu\))、中位数和众数都位于同一个中心点。
- 曲线下的总面积始终为 1(代表 100% 的概率)。
符号与参数
我们使用两个关键参数来描述正态分布:
服从正态分布的随机变量 \(X\) 的符号表示为:
$$X \sim N(\mu, \sigma^2)$$
- \(\mu\) (Mu): 这是均值(或期望)。它确定了曲线的中心位置。
- \(\sigma^2\) (Sigma squared): 这是方差。它衡量数据的离散程度。
- \(\sigma\) (Sigma): 这是标准差。它是方差的平方根,在解释离散程度时通常比方差更直观。
重点总结: 均值 \(\mu\) 告诉你钟形曲线的中心在哪里,而标准差 \(\sigma\) 告诉你曲线有多宽或多窄。
2. 标准正态分布 (\(Z\))
由于 \(\mu\) 和 \(\sigma\) 的不同,每个正态分布看起来都略有差异。为了避免查阅无穷无尽的表格,我们将任何正态变量 \(X\) 转换成一种标准形式,即标准正态分布(Standard Normal Distribution)。
标准正态随机变量用 \(Z\) 表示。
$$Z \sim N(0, 1)$$该分布的均值 \(\mu = 0\),方差 \(\sigma^2 = 1\)。
使用正态分布表 (\(\Phi(z)\))
MF19 手册中提供的表格给出了标准正态分布的值,记作 \(\Phi(z)\)。
\(\Phi(z) = P(Z < z)\)
这意味着表格给出的总是给定 \(Z\) 值左侧的面积(概率)。
记忆小贴士: 把 \(\Phi\) (Phi) 想象成累积概率——它汇集了直到该点为止的所有概率。
3. 标准化:\(Z\) 公式
为了将任何正态分布 \(N(\mu, \sigma^2)\) 中的变量 \(X\) 转换为标准变量 \(Z\),我们使用标准化(Standardisation)过程:
$$Z = \frac{X - \mu}{\sigma}$$- \((X - \mu)\) 计算了 \(X\) 距离均值的偏差。
- 除以 \(\sigma\) 则是以标准差为单位来衡量这个偏差。
示例类比: 想象一次考试得了 70 分。这算好吗?这取决于情况!
如果均值 (\(\mu\)) 是 50,标准差 (\(\sigma\)) 是 10:
\(Z = \frac{70 - 50}{10} = 2\)。该分数比平均分高出 2 个标准差——非常优秀!
\(Z\) 分数(Z-score)能精确告诉你任何分数高出或低于平均分多少。
标准化的分步过程:
- 确定 \(\mu\) 和 \(\sigma\)(记住:\(\sigma\) 是方差 \(\sigma^2\) 的平方根)。
- 确定你感兴趣的 \(x\) 值。
- 使用公式 \(Z = \frac{X - \mu}{\sigma}\) 将 \(X\) 转换为 \(Z\)。
- 画出曲线!这对于确定需要计算哪一部分面积至关重要。
快速复习:重要性质
由于正态分布是连续的:
$$P(X < x) = P(X \leq x)$$
取某一个特定数值的概率始终为零。
4. 使用 Z 表求解概率问题
解决问题时,你必须始终将原始 \(X\) 曲线上的所需区域转换到 \(Z\) 曲线上的对应区域,以便在 \(\Phi(z)\) 表中查找。
情况 1:\(P(Z < a)\),其中 \(a > 0\)(左侧区域)
这是直接查表:
$$P(Z < a) = \Phi(a)$$
情况 2:\(P(Z > a)\),其中 \(a > 0\)(右侧区域)
因为总面积为 1,右侧面积等于 1 减去左侧面积:
$$P(Z > a) = 1 - P(Z < a) = 1 - \Phi(a)$$
情况 3:\(P(Z < -a)\),其中 \(-a < 0\)(负值左侧区域)
表格只显示正 \(Z\) 值。由于对称性,\(-a\) 左侧的面积等于 \(a\) 右侧的面积。
$$P(Z < -a) = P(Z > a) = 1 - \Phi(a)$$
(考纲提示:表格指明了这一关系:\( \Phi(-z) = 1 - \Phi(z) \))
情况 4:\(P(Z > -a)\),其中 \(-a < 0\)(负值右侧区域)
由于对称性,\(-a\) 右侧的面积覆盖了整个正半轴加上 \(P(0 < Z < a)\) 的面积。这等同于整个面积 \(P(Z < a)\):
$$P(Z > -a) = P(Z < a) = \Phi(a)$$
情况 5:\(P(a < Z < b)\)(两个值之间的区域)
用较大值的累积概率减去较小值的累积概率。
$$P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a)$$
给同学的关键建议: 一定要画出钟形曲线并标出所需区域。这能直观地确认你需要使用哪个公式(\(1 - \Phi\) 还是直接使用 \(\Phi\))。
重点总结: 所有的正态分布概率问题都依赖于对所需区域进行变换,直到能用基本累积函数 \(\Phi(z)\) 表示出来为止。
5. 反向正态分布问题
有时题目会给出概率(面积),并要求你求出对应的 \(X\) 值或参数 \(\mu\) 或 \(\sigma\)。这称为反向标准化(Reverse Standardisation)。
反向操作的分步过程:
- 求 \(Z\) 分数: 使用给定的概率(面积)和 Z 表(反向查找)找到对应的 \(z\) 值。
- 确定符号:
- 如果给定的概率面积小于 0.5,则 \(z\) 值必须为负。
- 如果给定的概率面积大于 0.5,则 \(z\) 值必须为正。
- 使用标准化公式: 将已知值代入 \(Z = \frac{X - \mu}{\sigma}\) 并解出未知参数(\(X\)、\(\mu\) 或 \(\sigma\))。
示例: 若 \(P(X < x_1) = 0.1587\)。因为 0.1587 小于 0.5,所以 \(x_1\) 必须在均值左侧,其对应的 \(Z\) 分数 \(z_1\) 必须是负数。
我们在表中查找面积 \(1 - 0.1587 = 0.8413\),查得 \(z = 1.00\)。
因此,\(x_1\) 实际的 \(Z\) 分数为 \(\mathbf{z_1 = -1.00}\)。
应避免的常见错误: 当概率小于 0.5 时,在反向问题中忘记调整 \(Z\) 分数的符号。
6. 二项分布的正态近似
正态分布作为连续分布,有时可用于估算离散的二项分布的概率。当试验次数 \(n\) 非常大,导致直接计算极其困难时,这种方法非常有用。
近似条件
当满足以下条件时,使用正态分布近似二项分布 \(X \sim B(n, p)\) 是合理的:
- 试验次数 \(n\) 很大。
- \(\mathbf{np > 5}\) 且 \(\mathbf{nq > 5}\)(其中 \(q = 1 - p\))。
近似参数
如果满足条件,我们使用正态分布 \(N(\mu, \sigma^2)\) 来近似 \(X\),其中:
$$ \mu = np $$
$$ \sigma^2 = npq $$
连续性修正 (CC) - 这至关重要!
因为我们要从离散分布(二项分布,结果为整数)切换到连续分布(正态分布),所以必须应用连续性修正(Continuity Correction)。
连续性修正涉及将整数边界调整 0.5。可以将每个整数 \(x\) 视为在连续尺度上覆盖从 \((x - 0.5)\) 到 \((x + 0.5)\) 的区间。
连续性修正总结:
| 离散二项概率 | 连续正态近似 |
|---|---|
| \(P(X = x)\) | \(P(x - 0.5 < X < x + 0.5)\) |
| \(P(X \leq x)\) | \(P(X < x + 0.5)\) |
| \(P(X < x)\) | \(P(X < x - 0.5)\) |
| \(P(X \geq x)\) | \(P(X > x - 0.5)\) |
| \(P(X > x)\) | \(P(X > x + 0.5)\) |
示例: 假设你想求恰好 10 次成功的概率,即 \(P(X=10)\)。
在连续尺度上,“恰好 10”由从 9.5 到 10.5 的区间表示。
近似计算:\(P(9.5 < X < 10.5)\)。
示例: 如果题目要求“小于 15”,即 \(X \leq 14\)。
允许的最大整数是 14。连续边界必须延伸到 14.5。
近似计算:\(P(X < 14.5)\)。
分步近似过程:
- 检查条件:\(np > 5\) 且 \(nq > 5\)。
- 计算 \(\mu = np\) 和 \(\sigma^2 = npq\)。
- 对所需的整数边界应用连续性修正(加或减 0.5)。
- 使用 \(Z = \frac{X - \mu}{\sigma}\) 进行标准化。
- 按照第 4 节的方法使用 \(Z\) 表求解。
你知道吗? 正态分布之所以如此频繁出现,是因为中心极限定理(Central Limit Theorem)(这是 Paper 6/S2 的课题)。该定理基本说明:无论单个变量的原始分布如何,许多独立随机变量的总和或平均值倾向于服从正态分布!
重点总结: 当用正态分布近似二项分布时,请记住两个关键步骤:从二项分布参数计算出正确的 \(\mu\) 和 \(\sigma^2\),并且务必应用连续性修正(加减 0.5)。