Normal distribution

学习笔记：S2.4 正态分布

你好！欢迎进入正态分布的世界。如果你想了解现实生活中诸如身高、考试成绩或生产误差等现象是如何自然分布的，这一章正是为你准备的。它是统计学中最核心的概念之一，因为它能模拟大量现实世界中的现象。

如果一开始看到表格和公式感到有些压力，别担心。我们将把每一步拆解开来，重点掌握对称性和标准化这两个核心思想。一旦你掌握了 Z 分数，其他问题都会迎刃而解！

1. 定义正态分布

1.1 关键特征与记号

正态分布用于描述连续型随机变量。与离散型变量（如计数）不同，连续型变量可以在一定范围内取任何值（例如身高或时间）。

分布的形状是一条独特的、对称的钟形曲线。
它完全由两个参数定义：均值（\(\mu\)）和方差（\(\sigma^2\)）。
它关于均值对称，即均值 = 中位数 = 众数。
曲线的两尾无限延伸，但概率会迅速趋于零。

核心记号：

如果随机变量 \(X\) 服从均值为 \(\mu\)、方差为 \(\sigma^2\) 的正态分布，我们记作：

\( X \sim N(\mu, \sigma^2) \)

常见错误警示！
永远记住，记号 \( N(\mu, \sigma^2) \) 中的第二个数字是方差（\(\sigma^2\)）。如果题目给出的是标准差（\(\sigma\)），你必须先将其平方才能带入记号或特定公式中；而在计算 Z 分数时，则必须使用标准差（\(\sigma\)）。

1.2 性质与经验法则

曲线下方的总面积为 1（或 100%），代表总概率。

教学大纲要求掌握数据相对于标准差（\(\sigma\)）的分布情况：

大约 \(\frac{2}{3}\) 的观测值（约 68%）分布在均值的一个标准差范围内：\( \mu \pm \sigma \)。
大约 95% 的观测值分布在两个标准差范围内：\( \mu \pm 2\sigma \)。
几乎所有（约 99.7%）的观测值都分布在三个标准差范围内：\( \mu \pm 3\sigma \)。

冷知识：正态分布常被称为“高斯分布”，以数学家卡尔·弗里德里希·高斯的名字命名。

快速回顾：正态曲线

形状：钟形且对称。
定义参数：均值（\(\mu\)）和方差（\(\sigma^2\)）。
面积：曲线下的总面积 = 1。

2. 标准化：Z-变换

由于正态分布可以有任意的均值和标准差，我们不可能为每一种情况都制作表格。因此，我们使用一个技巧：将每个正态变量 \(X\) 转换为标准正态变量 \(Z\)。

2.1 标准正态分布

标准正态分布是一种特殊的正态分布，其均值为 0，方差为 1。

\( Z \sim N(0, 1) \)

2.2 计算 Z 分数

Z 分数告诉我们观测值（\(X\)）距离均值（\(\mu\)）有多少个标准差。

Z-变换公式：

\( Z = \frac{X - \mu}{\sigma} \)

其中：
\(X\) 是观测值。
\(\mu\) 是均值。
\(\sigma\) 是标准差（注意：不是方差）。

标准化计算步骤：

确定已知值：\(X\)、\(\mu\) 和 \(\sigma\)。
计算观测值与均值的差：\( X - \mu \)。
用该差值除以标准差：\(\frac{X - \mu}{\sigma}\)。
所得的 \(Z\) 值（按照大纲要求保留两位小数）即为查表所用的数值。

类比：把 Z 分数想象成一种通用语言。无论你是测量身高（厘米）还是体重（公斤），Z 分数都能将测量结果转换为标准单位（即偏离平均值多少）。

3. 使用查表法计算概率

标准正态分布表（通常称为 \(\Phi\) 表）给出了给定 Z 分数左侧的曲线下方面积。记作 \(\Phi(z)\)，即 \( P(Z < z) \)。

3.3 对称性与面积规则

由于正态分布是完全对称的，我们可以利用查表法求出所需的任何概率，即使涉及负的 Z 分数或右侧面积。

情况 1：左侧面积（直接查表）

对于 \( P(Z < z) \)，当 \(z\) 为正时，直接从表中读取 \(\Phi(z)\) 值即可。

情况 2：右侧面积

总面积为 1。如果我们需要求 \(z\) 右侧的面积，用 1 减去左侧面积即可：

\( P(Z > z) = 1 - P(Z < z) = 1 - \Phi(z) \)

情况 3：负的 Z 分数

如果 Z 分数为负（例如 \(-z\)），根据对称性，其左侧面积等于 \(z\) 右侧的面积。

\( P(Z < -z) = P(Z > z) = 1 - \Phi(z) \)

情况 4：两个 Z 分数之间的面积

求两个数值 \(a\) 和 \(b\) 之间的概率：

\( P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a) \)

概率计算记忆小贴士

一定要画草图！标注出你要求的区域。这能让你直观地判断是需要 \(\Phi(z)\)、\(1 - \Phi(z)\) 还是进行减法。

左侧面积：\(\Phi(z)\)
右侧面积：\(1 - \Phi(z)\)
中间面积（对称）：\( \Phi(z) - \Phi(-z) = 2\Phi(z) - 1 \)

4. 逆向问题：寻找未知参数

有时题目会给出概率（面积），你需要求出具体的 \(X\) 值，或未知的均值（\(\mu\)）或标准差（\(\sigma\)）。

逆向问题计算步骤：

寻找临界 Z 分数：利用给定的概率（例如前 10% 或中间 50%）在表中查找相应的 Z 分数（可以使用专门的百分位数表获取常用临界值）。
确定正负号：如果该面积对应的值低于均值，Z 分数必须为负；若高于均值，则为正。
使用公式：将 Z 分数及已知的 \(X\)、\(\mu\) 或 \(\sigma\) 带入标准化公式：\( Z = \frac{X - \mu}{\sigma} \)。
求解：解出方程中的未知参数。

示例场景：如果你已知 90% 的学生分数低于 75 分，则利用 0.90 查出相应的 Z 分数（\(z\)），然后列方程：\( z = \frac{75 - \mu}{\sigma} \)。

5. 独立正态变量的和与差

本节讨论多个相互独立的正态分布随机变量的组合。这是一个非常强大的概念，例如在计算两个随机抽取的组件的总重量时就会用到。

如果 \( X_1 \sim N(\mu_1, \sigma_1^2) \) 和 \( X_2 \sim N(\mu_2, \sigma_2^2) \) 相互独立，那么它们的和或差也服从正态分布。

5.1 均值的组合（期望）

和或差的均值即为各自均值的和或差。

对于和： \( E(X_1 + X_2) = \mu_1 + \mu_2 \)

对于差： \( E(X_1 - X_2) = \mu_1 - \mu_2 \)

5.2 方差的组合（黄金法则）

在处理独立正态变量时，方差永远相加，无论你是要求和（\(X_1 + X_2\)）还是求差（\(X_1 - X_2\)）的概率。

对于和与差：

\( Var(X_1 \pm X_2) = Var(X_1) + Var(X_2) = \sigma_1^2 + \sigma_2^2 \)

关键点： 当计算差值的组合分布（例如 \( X_1 - X_2 \)）时，虽然均值相减，但方差必须相加。随后，你必须对组合方差进行开方，得到新的标准差（\(\sigma_{new}\)），以便进行 Z 分数计算。

5.3 最终的分布

如果 \( X_1 \) 和 \( X_2 \) 相互独立且服从正态分布：

对于和： \( X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) \)

对于差： \( X_1 - X_2 \sim N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)

核心要点

正态分布由其均值和方差定义。解决正态分布问题的关键在于 Z 分数变换，这使你可以使用标准表进行计算。请记住求概率时的对称性规则，以及在组合独立正态变量时，无论求和还是求差，方差永远相加这一重要原则。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。