学习笔记:S2.4 正态分布
你好!欢迎进入正态分布的世界。如果你想了解现实生活中诸如身高、考试成绩或生产误差等现象是如何自然分布的,这一章正是为你准备的。它是统计学中最核心的概念之一,因为它能模拟大量现实世界中的现象。
如果一开始看到表格和公式感到有些压力,别担心。我们将把每一步拆解开来,重点掌握对称性和标准化这两个核心思想。一旦你掌握了 Z 分数,其他问题都会迎刃而解!
1. 定义正态分布
1.1 关键特征与记号
正态分布用于描述连续型随机变量。与离散型变量(如计数)不同,连续型变量可以在一定范围内取任何值(例如身高或时间)。
- 分布的形状是一条独特的、对称的钟形曲线。
- 它完全由两个参数定义:均值(\(\mu\))和方差(\(\sigma^2\))。
- 它关于均值对称,即均值 = 中位数 = 众数。
- 曲线的两尾无限延伸,但概率会迅速趋于零。
核心记号:
如果随机变量 \(X\) 服从均值为 \(\mu\)、方差为 \(\sigma^2\) 的正态分布,我们记作:
\( X \sim N(\mu, \sigma^2) \)
常见错误警示!
永远记住,记号 \( N(\mu, \sigma^2) \) 中的第二个数字是方差(\(\sigma^2\))。如果题目给出的是标准差(\(\sigma\)),你必须先将其平方才能带入记号或特定公式中;而在计算 Z 分数时,则必须使用标准差(\(\sigma\))。
1.2 性质与经验法则
曲线下方的总面积为 1(或 100%),代表总概率。
教学大纲要求掌握数据相对于标准差(\(\sigma\))的分布情况:
- 大约 \(\frac{2}{3}\) 的观测值(约 68%)分布在均值的一个标准差范围内:\( \mu \pm \sigma \)。
- 大约 95% 的观测值分布在两个标准差范围内:\( \mu \pm 2\sigma \)。
- 几乎所有(约 99.7%)的观测值都分布在三个标准差范围内:\( \mu \pm 3\sigma \)。
冷知识:正态分布常被称为“高斯分布”,以数学家卡尔·弗里德里希·高斯的名字命名。
- 形状:钟形且对称。
- 定义参数:均值(\(\mu\))和方差(\(\sigma^2\))。
- 面积:曲线下的总面积 = 1。
2. 标准化:Z-变换
由于正态分布可以有任意的均值和标准差,我们不可能为每一种情况都制作表格。因此,我们使用一个技巧:将每个正态变量 \(X\) 转换为标准正态变量 \(Z\)。
2.1 标准正态分布
标准正态分布是一种特殊的正态分布,其均值为 0,方差为 1。
\( Z \sim N(0, 1) \)
2.2 计算 Z 分数
Z 分数告诉我们观测值(\(X\))距离均值(\(\mu\))有多少个标准差。
Z-变换公式:
\( Z = \frac{X - \mu}{\sigma} \)
其中:
\(X\) 是观测值。
\(\mu\) 是均值。
\(\sigma\) 是标准差(注意:不是方差)。
标准化计算步骤:
- 确定已知值:\(X\)、\(\mu\) 和 \(\sigma\)。
- 计算观测值与均值的差:\( X - \mu \)。
- 用该差值除以标准差:\(\frac{X - \mu}{\sigma}\)。
- 所得的 \(Z\) 值(按照大纲要求保留两位小数)即为查表所用的数值。
类比:把 Z 分数想象成一种通用语言。无论你是测量身高(厘米)还是体重(公斤),Z 分数都能将测量结果转换为标准单位(即偏离平均值多少)。
3. 使用查表法计算概率
标准正态分布表(通常称为 \(\Phi\) 表)给出了给定 Z 分数左侧的曲线下方面积。记作 \(\Phi(z)\),即 \( P(Z < z) \)。
3.3 对称性与面积规则
由于正态分布是完全对称的,我们可以利用查表法求出所需的任何概率,即使涉及负的 Z 分数或右侧面积。
情况 1:左侧面积(直接查表)
对于 \( P(Z < z) \),当 \(z\) 为正时,直接从表中读取 \(\Phi(z)\) 值即可。
情况 2:右侧面积
总面积为 1。如果我们需要求 \(z\) 右侧的面积,用 1 减去左侧面积即可:
\( P(Z > z) = 1 - P(Z < z) = 1 - \Phi(z) \)
情况 3:负的 Z 分数
如果 Z 分数为负(例如 \(-z\)),根据对称性,其左侧面积等于 \(z\) 右侧的面积。
\( P(Z < -z) = P(Z > z) = 1 - \Phi(z) \)
情况 4:两个 Z 分数之间的面积
求两个数值 \(a\) 和 \(b\) 之间的概率:
\( P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a) \)
一定要画草图!标注出你要求的区域。这能让你直观地判断是需要 \(\Phi(z)\)、\(1 - \Phi(z)\) 还是进行减法。
- 左侧面积:\(\Phi(z)\)
- 右侧面积:\(1 - \Phi(z)\)
- 中间面积(对称):\( \Phi(z) - \Phi(-z) = 2\Phi(z) - 1 \)
4. 逆向问题:寻找未知参数
有时题目会给出概率(面积),你需要求出具体的 \(X\) 值,或未知的均值(\(\mu\))或标准差(\(\sigma\))。
逆向问题计算步骤:
- 寻找临界 Z 分数:利用给定的概率(例如前 10% 或中间 50%)在表中查找相应的 Z 分数(可以使用专门的百分位数表获取常用临界值)。
- 确定正负号:如果该面积对应的值低于均值,Z 分数必须为负;若高于均值,则为正。
- 使用公式:将 Z 分数及已知的 \(X\)、\(\mu\) 或 \(\sigma\) 带入标准化公式:\( Z = \frac{X - \mu}{\sigma} \)。
- 求解:解出方程中的未知参数。
示例场景:如果你已知 90% 的学生分数低于 75 分,则利用 0.90 查出相应的 Z 分数(\(z\)),然后列方程:\( z = \frac{75 - \mu}{\sigma} \)。
5. 独立正态变量的和与差
本节讨论多个相互独立的正态分布随机变量的组合。这是一个非常强大的概念,例如在计算两个随机抽取的组件的总重量时就会用到。
如果 \( X_1 \sim N(\mu_1, \sigma_1^2) \) 和 \( X_2 \sim N(\mu_2, \sigma_2^2) \) 相互独立,那么它们的和或差也服从正态分布。
5.1 均值的组合(期望)
和或差的均值即为各自均值的和或差。
对于和: \( E(X_1 + X_2) = \mu_1 + \mu_2 \)
对于差: \( E(X_1 - X_2) = \mu_1 - \mu_2 \)
5.2 方差的组合(黄金法则)
在处理独立正态变量时,方差永远相加,无论你是要求和(\(X_1 + X_2\))还是求差(\(X_1 - X_2\))的概率。
对于和与差:
\( Var(X_1 \pm X_2) = Var(X_1) + Var(X_2) = \sigma_1^2 + \sigma_2^2 \)
关键点: 当计算差值的组合分布(例如 \( X_1 - X_2 \))时,虽然均值相减,但方差必须相加。随后,你必须对组合方差进行开方,得到新的标准差(\(\sigma_{new}\)),以便进行 Z 分数计算。
5.3 最终的分布
如果 \( X_1 \) 和 \( X_2 \) 相互独立且服从正态分布:
对于和: \( X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) \)
对于差: \( X_1 - X_2 \sim N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)
核心要点
正态分布由其均值和方差定义。解决正态分布问题的关键在于 Z 分数变换,这使你可以使用标准表进行计算。请记住求概率时的对称性规则,以及在组合独立正态变量时,无论求和还是求差,方差永远相加这一重要原则。