学习笔记:S2.4 正态分布

你好!欢迎进入正态分布的世界。如果你想了解现实生活中诸如身高、考试成绩或生产误差等现象是如何自然分布的,这一章正是为你准备的。它是统计学中最核心的概念之一,因为它能模拟大量现实世界中的现象。

如果一开始看到表格和公式感到有些压力,别担心。我们将把每一步拆解开来,重点掌握对称性和标准化这两个核心思想。一旦你掌握了 Z 分数,其他问题都会迎刃而解!

1. 定义正态分布

1.1 关键特征与记号

正态分布用于描述连续型随机变量。与离散型变量(如计数)不同,连续型变量可以在一定范围内取任何值(例如身高或时间)。

  • 分布的形状是一条独特的、对称的钟形曲线。
  • 它完全由两个参数定义:均值(\(\mu\))和方差(\(\sigma^2\))。
  • 它关于均值对称,即均值 = 中位数 = 众数。
  • 曲线的两尾无限延伸,但概率会迅速趋于零。

核心记号:

如果随机变量 \(X\) 服从均值为 \(\mu\)、方差为 \(\sigma^2\) 的正态分布,我们记作:

\( X \sim N(\mu, \sigma^2) \)

常见错误警示!
永远记住,记号 \( N(\mu, \sigma^2) \) 中的第二个数字是方差(\(\sigma^2\))。如果题目给出的是标准差(\(\sigma\)),你必须先将其平方才能带入记号或特定公式中;而在计算 Z 分数时,则必须使用标准差(\(\sigma\))。

1.2 性质与经验法则

曲线下方的总面积为 1(或 100%),代表总概率。

教学大纲要求掌握数据相对于标准差(\(\sigma\))的分布情况:

  • 大约 \(\frac{2}{3}\) 的观测值(约 68%)分布在均值的一个标准差范围内:\( \mu \pm \sigma \)。
  • 大约 95% 的观测值分布在两个标准差范围内:\( \mu \pm 2\sigma \)。
  • 几乎所有(约 99.7%)的观测值都分布在三个标准差范围内:\( \mu \pm 3\sigma \)。

冷知识:正态分布常被称为“高斯分布”,以数学家卡尔·弗里德里希·高斯的名字命名。

快速回顾:正态曲线
  • 形状:钟形且对称。
  • 定义参数:均值(\(\mu\))和方差(\(\sigma^2\))。
  • 面积:曲线下的总面积 = 1。

2. 标准化:Z-变换

由于正态分布可以有任意的均值和标准差,我们不可能为每一种情况都制作表格。因此,我们使用一个技巧:将每个正态变量 \(X\) 转换为标准正态变量 \(Z\)。

2.1 标准正态分布

标准正态分布是一种特殊的正态分布,其均值为 0,方差为 1。

\( Z \sim N(0, 1) \)

2.2 计算 Z 分数

Z 分数告诉我们观测值(\(X\))距离均值(\(\mu\))有多少个标准差。

Z-变换公式:

\( Z = \frac{X - \mu}{\sigma} \)

其中:
\(X\) 是观测值。
\(\mu\) 是均值。
\(\sigma\) 是标准差(注意:不是方差)。

标准化计算步骤:

  1. 确定已知值:\(X\)、\(\mu\) 和 \(\sigma\)。
  2. 计算观测值与均值的差:\( X - \mu \)。
  3. 用该差值除以标准差:\(\frac{X - \mu}{\sigma}\)。
  4. 所得的 \(Z\) 值(按照大纲要求保留两位小数)即为查表所用的数值。

类比:把 Z 分数想象成一种通用语言。无论你是测量身高(厘米)还是体重(公斤),Z 分数都能将测量结果转换为标准单位(即偏离平均值多少)。

3. 使用查表法计算概率

标准正态分布表(通常称为 \(\Phi\) 表)给出了给定 Z 分数左侧的曲线下方面积。记作 \(\Phi(z)\),即 \( P(Z < z) \)。

3.3 对称性与面积规则

由于正态分布是完全对称的,我们可以利用查表法求出所需的任何概率,即使涉及负的 Z 分数或右侧面积。

情况 1:左侧面积(直接查表)

对于 \( P(Z < z) \),当 \(z\) 为正时,直接从表中读取 \(\Phi(z)\) 值即可。

情况 2:右侧面积

总面积为 1。如果我们需要求 \(z\) 右侧的面积,用 1 减去左侧面积即可:

\( P(Z > z) = 1 - P(Z < z) = 1 - \Phi(z) \)

情况 3:负的 Z 分数

如果 Z 分数为负(例如 \(-z\)),根据对称性,其左侧面积等于 \(z\) 右侧的面积。

\( P(Z < -z) = P(Z > z) = 1 - \Phi(z) \)

情况 4:两个 Z 分数之间的面积

求两个数值 \(a\) 和 \(b\) 之间的概率:

\( P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a) \)

概率计算记忆小贴士

一定要画草图!标注出你要求的区域。这能让你直观地判断是需要 \(\Phi(z)\)、\(1 - \Phi(z)\) 还是进行减法。

  • 左侧面积:\(\Phi(z)\)
  • 右侧面积:\(1 - \Phi(z)\)
  • 中间面积(对称):\( \Phi(z) - \Phi(-z) = 2\Phi(z) - 1 \)

4. 逆向问题:寻找未知参数

有时题目会给出概率(面积),你需要求出具体的 \(X\) 值,或未知的均值(\(\mu\))或标准差(\(\sigma\))。

逆向问题计算步骤:

  1. 寻找临界 Z 分数:利用给定的概率(例如前 10% 或中间 50%)在表中查找相应的 Z 分数(可以使用专门的百分位数表获取常用临界值)。
  2. 确定正负号:如果该面积对应的值低于均值,Z 分数必须为负;若高于均值,则为正。
  3. 使用公式:将 Z 分数及已知的 \(X\)、\(\mu\) 或 \(\sigma\) 带入标准化公式:\( Z = \frac{X - \mu}{\sigma} \)。
  4. 求解:解出方程中的未知参数。

示例场景:如果你已知 90% 的学生分数低于 75 分,则利用 0.90 查出相应的 Z 分数(\(z\)),然后列方程:\( z = \frac{75 - \mu}{\sigma} \)。

5. 独立正态变量的和与差

本节讨论多个相互独立的正态分布随机变量的组合。这是一个非常强大的概念,例如在计算两个随机抽取的组件的总重量时就会用到。

如果 \( X_1 \sim N(\mu_1, \sigma_1^2) \) 和 \( X_2 \sim N(\mu_2, \sigma_2^2) \) 相互独立,那么它们的和或差也服从正态分布。

5.1 均值的组合(期望)

和或差的均值即为各自均值的和或差。

对于和: \( E(X_1 + X_2) = \mu_1 + \mu_2 \)

对于差: \( E(X_1 - X_2) = \mu_1 - \mu_2 \)

5.2 方差的组合(黄金法则)

在处理独立正态变量时,方差永远相加,无论你是要求和(\(X_1 + X_2\))还是求差(\(X_1 - X_2\))的概率。

对于和与差:

\( Var(X_1 \pm X_2) = Var(X_1) + Var(X_2) = \sigma_1^2 + \sigma_2^2 \)

关键点: 当计算差值的组合分布(例如 \( X_1 - X_2 \))时,虽然均值相减,但方差必须相加。随后,你必须对组合方差进行开方,得到新的标准差(\(\sigma_{new}\)),以便进行 Z 分数计算。

5.3 最终的分布

如果 \( X_1 \) 和 \( X_2 \) 相互独立且服从正态分布:

对于和: \( X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) \)

对于差: \( X_1 - X_2 \sim N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)

核心要点

正态分布由其均值和方差定义。解决正态分布问题的关键在于 Z 分数变换,这使你可以使用标准表进行计算。请记住求概率时的对称性规则,以及在组合独立正态变量时,无论求和还是求差,方差永远相加这一重要原则。