常态分布简介
欢迎来到统计学中最重要的章节之一!你有没有发现,在人群中,大多数人的身高都在平均值左右,而极高或极矮的人非常少?或者,大多数学生在考试中的得分都接近平均分?这种“中间高、两边低”的规律在自然界和社会科学中非常普遍,因此数学家为其建立了一个模型,称为常态分布(Normal Distribution)。
如果起初觉得这些概念有点抽象,请不用担心。学完这些笔记后,你将能够描述这个著名的“钟形曲线”,并学会使用计算器来解决以往需要耗费数小时人工计算的问题!
1. 什么是常态分布?
常态分布是一种连续型概率分布。这意味着它处理的数据可以是任何数值,例如时间、重量或身高(这与处理“成功次数”如 1、2 或 3 的二项分布不同)。
记法
我们将随机变量 \(X\) 服从常态分布写作:
\(X \sim N(\mu, \sigma^2)\)
拆解如下:
1. \(\mu\) (mu): 这是平均值(mean)。它告诉你钟形曲线的中心位置在哪里。
2. \(\sigma^2\) (sigma squared): 这是方差(variance)。
3. \(\sigma\) (sigma): 这是标准差(standard deviation)。它告诉你曲线有多“宽”或有多“窄”。
钟形曲线的关键特征
- 对称性: 曲线关于平均值 (\(\mu\)) 完全对称。左侧是右侧的镜像。
- 平均值 = 中位数 = 众数: 这三个集中趋势指标都位于曲线的正中央。
- 总面积 = 1: 因为曲线下的面积代表所有可能结果的总概率,所以它必须等于 1。
- 反曲点: 这是曲线从“凹”转为“凸”的点。这些点精确地位于 \(x = \mu + \sigma\) 和 \(x = \mu - \sigma\) 的位置。
你知道吗? 因为曲线是对称的,所以正好有 50% 的数据高于平均值,50% 的数据低于平均值。这是在检查答案时非常实用的“救命”小技巧!
重点总结: 常态分布描述了围绕中心平均值聚集,并呈钟形向两侧对称散布的数据。
2. “68-95-99.7”法则
这是一个非常有用的经验法则,可以帮助你直观地理解数据在常态分布中是如何分布的。对于任何常态分布:
- 约有 68%(大约三分之二)的数据落在距离平均值 1 个标准差的范围内 (\(\mu \pm \sigma\))。
- 约有 95% 的数据落在距离平均值 2 个标准差的范围内 (\(\mu \pm 2\sigma\))。
- 几乎所有 (99.7%) 的数据都落在距离平均值 3 个标准差的范围内 (\(\mu \pm 3\sigma\))。
记忆小帮手: 将其视为 1-2-3 法则。跨越 1 个单位 = 68%,2 个单位 = 95%,3 个单位 = 涵盖几乎所有人!
重点总结: 如果一个数值距离平均值超过 3 个标准差,它就非常罕见(即异常值)!
3. 标准常态分布 (\(Z\))
试想一下,如果要把以厘米为单位的高度和以公斤为单位的重量进行比较,这是不可能的!为了克服这一点,我们使用标准常态分布,其平均值为 0,标准差为 1。
我们使用字母 \(Z\) 来表示: \(Z \sim N(0, 1)\)。
Z-转换公式
你可以使用这个“万能转换器”公式,将任何常态分布的数值 (\(X\)) 转换为标准分数 (\(Z\)):
\(Z = \frac{X - \mu}{\sigma}\)
\(Z = \frac{130 - 100}{15} = 2\)。
这意味着该人的智商比平均水平高出正好 2 个标准差。
常见错误: 忘记对方差开平方根!如果分布是 \(N(50, 25)\),\(\sigma\) 是 5 而不是 25。在 Z 分数公式的分母中,始终使用 \(\sigma\)。
重点总结: Z-score 告诉你一个数值距离平均值有多少个标准差。
4. 使用计算器
在 OCR A Level 课程中,你需要使用计算器的统计功能,而不是查阅旧式的统计表。
A. 求概率 (Normal CD)
当你有一个数值范围(例如 \(P(X < 55)\) 或 \(P(40 < X < 60)\))并想求概率(曲线下的面积)时使用此功能。
- 下限 (Lower Bound): 范围内的最小值。如果没有下限(例如 \(X < 55\)),请输入一个极小的数,如 \(-9999\)。
- 上限 (Upper Bound): 范围内最大值。如果没有上限(例如 \(X > 70\)),请输入一个极大的数,如 \(9999\)。
B. 求数值 (Inverse Normal)
当你知道概率(即“面积”)并想找出对应的数值 (\(x\)) 时使用此功能。
范例:“找出最高 10% 的人所对应的身高临界值。”
提示: 大多数计算器要求“Area”必须是该数值左侧的面积。如果你想计算前 10%(即右侧 10%),你必须输入 0.90 的面积(左侧 90%)。
重点总结: 概率用 "Normal CD",求数值用 "Inverse Normal"。
5. 选择正确的模型
有时你需要判断常态分布是否适用于现实情境。
常态模型的适用条件:
- 数据是连续的。
- 数据是对称且呈钟形的。
- 大多数数据点都靠近中间。
近似二项分布:
如果你有一个二项分布 \(X \sim B(n, p)\),其中 \(n\) 很大(通常 \(n > 50\))且 \(p\) 接近 0.5,那么二项分布的条形图看起来会非常像一个平滑的常态曲线!
在这种情况下,我们可以使用:
平均值:\(\mu = np\)
方差:\(\sigma^2 = np(1-p)\)
注意: 在本卷中,你不会被要求进行繁琐的近似计算,但你必须理解“何时可以用一种分布来建模另一种分布”的逻辑。
快速总结复习:
1. 记法: \(X \sim N(\mu, \sigma^2)\)。
2. 形状: 对称,总面积 = 1,平均值位于中心。
3. Z-score: \(Z = (X - \mu) / \sigma\)。
4. 68-95-99.7: 数据在 1、2 和 3 个标准差内的散布情况。
5. 计算器: 用 'Normal CD' 求面积/概率,用 'Inverse Normal' 求数值。