常态变量的标准化及标准常态分布表的使用
大家好!欢迎来到 M1 统计学中最实用课题之一的笔记。就算「常态分布」或「标准化」这些词语听起来有点吓人,也别担心。看完这些笔记后,你会发现它们只是帮助我们理解周围世界的简单工具。
我们会学到什么? 我们将会学习一个巧妙的技巧,叫做标准化。想象一下,这就像把不同的货币兑换成一种通用货币(例如港币),以便轻松比较它们。我们会用这个方法来处理数据,并利用一个强大的工具——标准常态分布表——来找出概率。
为什么它很重要? 从你的考试分数、身高到一包薯片的重量,生活中很多事物都符合常态分布。这个课题会给你一把钥匙,解开所有这些情况的概率!我们开始吧。
重温:到底什么是常态分布?
还记得钟形曲线吗?那就是常态分布的标志性外观。它描述了许多现实生活中数据的分布情况。
常态分布由两个关键信息定义:
- 平均值 ($$\mu$$):平均数值,位于钟形曲线的正中央和峰顶。
- 标准差 ($$\sigma$$):衡量数据分散程度的指标。较小的 $$ \sigma $$ 表示数据紧密地集中在平均值周围(形成一个高而窄的钟形);较大的 $$ \sigma $$ 表示数据非常分散(形成一个矮而宽的钟形)。
我们会写成 $$ X \sim N(\mu, \sigma^2) $$,读作「变量 X 服从平均值为 $$\mu$$、方差为 $$\sigma^2$$ 的常态分布」。(记住,方差就是标准差的平方!)
重大难题
想象一下,我们有香港中学文凭试数学 M1 的考试分数,其平均值可能是 65,标准差是 10。然后我们有香港中学文凭试物理科的分数,其平均值是 60,标准差是 15。这两个是不同的常态分布。$$\mu$$ 和 $$\sigma$$ 有无限多种可能的组合!我们怎么可能为所有这些分布计算概率呢?我们不可能为每一个分布都准备一份单独的概率表。我们需要一个「一劳永逸」的解决方案。
快速回顾:常态分布的关键性质
- 它呈钟形,并围绕平均值 ($$\mu$$) 完美对称。
- 平均值、中位数和众数都相等,且位于中心。
- 曲线下的总面积正好是 1(或 100%)。这一点非常重要,因为面积代表概率!
主角登场:标准常态分布
为了解决我们「分布太多」的问题,数学家们创造了一个特殊的参考分布,称为标准常态分布。它是可以与所有其他常态分布进行比较的「超级明星」。
标准常态分布具有固定性质:
- 平均值 ($$\mu$$) 永远是 0。
- 标准差 ($$\sigma$$) 永远是 1。
我们用字母 Z 来表示标准常态变量。所以,我们写作:$$ \bf{Z \sim N(0, 1)} $$
因为这个分布是「标准」的,我们为它准备了一份特殊的数值表——标准常态分布表。这张表让我们能够找到任何 Z 值所对应的面积(概率)。
重点归纳
与其处理无数个不同的常态分布 ($$ N(\mu, \sigma^2) $$),我们的目标是将其中任何一个转换成唯一的标准常态分布 ($$ N(0, 1) $$)。这个转换过程称为标准化。
魔法公式:如何标准化(Z 值)
要将常态分布中的任何值 (X) 转换为标准常态分布中等效的值 (Z),我们使用 Z 值公式。这是你本章最重要的公式!
$$ \bf{Z = \frac{X - \mu}{\sigma}} $$公式拆解:
- Z:这是你正在计算的Z 值。它告诉你原始值 (X) 距离平均值 ($$\mu$$) 有多少个标准差 ($$\sigma$$)。
- X:你的原始数据点或感兴趣的值(例如:考试分数 75 分)。
- $$\mu$$:原始分布的平均值(例如:班级平均分为 65 分)。
- $$\sigma$$:原始分布的标准差(例如:分数的离散程度是 5)。
日常生活类比:比较考试分数
想象你和朋友考了不同的 M1 模拟试。
- 你的考试:你得了 80 分。班级平均值 ($$\mu$$) 是 70,标准差 ($$\sigma$$) 是 10。
- 朋友的考试:你朋友得了 85 分。他们班级平均值 ($$\mu$$) 是 75,标准差 ($$\sigma$$) 是 5。
相对于各自的班级,谁的表现更好?让我们计算你和朋友的 Z 值,将分数标准化。
你的 Z 值: $$ Z = \frac{80 - 70}{10} = \frac{10}{10} = \bf{+1.0} $$这表示你的分数刚好比班级平均高出 1 个标准差。
朋友的 Z 值: $$ Z = \frac{85 - 75}{5} = \frac{10}{5} = \bf{+2.0} $$这表示你朋友的分数竟然比他们班级平均高出 2 个标准差。
结论:尽管你朋友的 85 分只比你的 80 分高 5 分,但他们的 Z 值却高得多。相对于他们的同学,他们表现得明显更好。Z 值为我们提供了一个公平的比较方式!
Z 值有什么意义?
- 正 Z 值 表示该值 (X) 高于平均值 ($$\mu$$)。
- 负 Z 值 表示该值 (X) 低于平均值 ($$\mu$$)。
- Z 值为 0 表示该值 (X) 正好是平均值 ($$\mu$$)。
使用标准常态分布表
一旦你计算出 Z 值,你就可以使用标准常态分布表(考试时会提供)来找出概率。这张表乍看之下可能有点吓人,但它其实只是一个简单的查阅工具。
重要提示:标准常态分布表通常提供 Z 值左侧的面积。这代表概率 $$ \bf{P(Z < z)} $$。请务必检查你所使用的表格所显示的内容!
如何阅读表格(以找出 $$P(Z < 1.34)$$ 为例)
- 拆分 Z 值:将 1.34 拆分为「1.3」和「0.04」。
- 寻找行:沿着最左边的列向下查找,找到 1.3 所在的行。
- 寻找列:沿着顶部行查找,找到 .04 所在的列。
- 找出交点:行和列相交处的数值就是你的概率。对于 Z = 1.34,你应该会找到一个类似 0.9099 的数值。
所以,$$ P(Z < 1.34) = 0.9099 $$。这意味着 Z 值小于 1.34 的概率约为 91%。
处理不同类型的概率
你不会总是只被要求计算 $$P(Z < z)$$。以下是如何使用表格和曲线性质(总面积 = 1,以及对称性)来找出其他概率的方法。
1. 大于某值的概率:$$ P(Z > z) $$
表格给你的是左侧的面积。要找出右侧的面积,你需要使用总面积的规则。
例子:找出 $$P(Z > 1.34)$$
公式: $$ \bf{P(Z > z) = 1 - P(Z < z)} $$
计算: $$ P(Z > 1.34) = 1 - P(Z < 1.34) = 1 - 0.9099 = \bf{0.0901} $$
2. 小于负值的概率:$$ P(Z < -z) $$
钟形曲线是对称的!-z 左侧的面积与 +z 右侧的面积是相同的。
例子:找出 $$P(Z < -1.34)$$
逻辑:根据对称性,$$ P(Z < -1.34) $$ 与 $$ P(Z > 1.34) $$ 是相同的。我们已经计算过它了!
公式: $$ \bf{P(Z < -z) = P(Z > z) = 1 - P(Z < z)} $$
计算: $$ P(Z < -1.34) = 1 - P(Z < 1.34) = 1 - 0.9099 = \bf{0.0901} $$
3. 介乎两值之间的概率:$$ P(a < Z < b) $$
要找出两点之间的面积,你需要找出较大值 (b) 左侧的面积,然后减去较小值 (a) 左侧的面积。想象成「大面积 - 小面积」。
例子:找出 $$P(-1.0 < Z < 1.5)$$
公式: $$ \bf{P(a < Z < b) = P(Z < b) - P(Z < a)} $$
计算:
首先,从表格中找出两部分:
$$ P(Z < 1.5) = 0.9332 $$
$$ P(Z < -1.0) = P(Z > 1.0) = 1 - P(Z < 1.0) = 1 - 0.8413 = 0.1587 $$
现在,相减:
$$ P(-1.0 < Z < 1.5) = 0.9332 - 0.1587 = \bf{0.7745} $$
常见错误避免
- 忘记从 1 减去:这是计算 $$P(Z > z)$$ 问题时最常见的错误。务必仔细检查你是否需要右侧的面积!
- Z 值与概率:Z 值(例如:1.34)是表格边缘的「地址」。概率(例如:0.9099)是表格内部的数值。不要混淆它们!
- 对称性错误:快速画出钟形曲线能真正帮助你可视化你要找的面积,并避免负 Z 值带来的错误。
综合应用:一个完整例子
某果园苹果的重量服从常态分布,平均值为 150 克 ($$\mu$$),标准差为 12 克 ($$\sigma$$)。试找出随机抽取一个苹果,其重量介乎 140 克与 165 克之间的概率。
步骤 1:写下已知信息和目标。
我们有一个常态分布:$$X \sim N(150, 12^2)$$。
我们想找出 $$ \bf{P(140 < X < 165)} $$。
步骤 2:将两个 X 值都标准化为 Z 值。
当 X = 140 时:$$ Z_1 = \frac{140 - 150}{12} = \frac{-10}{12} \approx -0.83 $$
当 X = 165 时:$$ Z_2 = \frac{165 - 150}{12} = \frac{15}{12} = 1.25 $$
步骤 3:用 Z 重新表达问题。
$$ P(140 < X < 165) $$ 等同于 $$ \bf{P(-0.83 < Z < 1.25)} $$
步骤 4:使用「大面积 - 小面积」规则和表格。
$$ P(-0.83 < Z < 1.25) = P(Z < 1.25) - P(Z < -0.83) $$
让我们找出各部分:
从表格中,$$ P(Z < 1.25) = \bf{0.8944} $$
对于负 Z 值,我们使用对称性:
$$ P(Z < -0.83) = P(Z > 0.83) = 1 - P(Z < 0.83) = 1 - 0.7967 = \bf{0.2033} $$
步骤 5:计算最终答案。
$$ 0.8944 - 0.2033 = \bf{0.6911} $$
结论:随机抽取一个苹果,其重量介乎 140 克与 165 克之间的概率约为 0.6911(或 69.11%)。
总结与重点归纳
你成功了!让我们快速回顾一下主要概念。
- 原因:我们进行标准化是为了将任何常态分布 $$N(\mu, \sigma^2)$$ 转换为唯一的标准常态分布 $$N(0, 1)$$,这样我们就可以使用单一表格来找出概率。
- 方法(Z 值公式): $$ \bf{Z = \frac{X - \mu}{\sigma}} $$ 这个公式是你的万能钥匙。它将你的数据点转换为标准分数。
- 工具(标准常态分布表):这张表格提供 $$P(Z < z)$$。记住查找其他面积的规则:
- $$ \bf{P(Z > z) = 1 - P(Z < z)} $$
- $$ \bf{P(Z < -z) = 1 - P(Z < z)} $$ (利用对称性)
- $$ \bf{P(a < Z < b) = P(Z < b) - P(Z < a)} $$
这个过程一开始可能看起来很漫长,但只要多加练习,就会变得驾轻就熟。务必清晰地展示你的步骤:写下公式,代入数值,找出 Z 值,然后找出概率。你一定做得到!