欢迎来到常态分布的世界!

在本章中,我们将探索被许多统计学家称为“分布之王”的领域。常态分布(Normal Distribution)极其重要,因为它在现实生活中随处可见——从人类的身高、苹果的重量,到考试成绩,甚至是科学仪器的测量误差,都能见到它的身影。读完这份笔记后,你将能掌握如何描述这个“钟形曲线”,如何利用计算器计算概率,以及如何利用它来简化复杂的问题。

1. 什么是常态分布?

常态分布是一种连续概率分布。与离散分布(我们计算事物的个数,如 1、2、3 等整数)不同,连续分布处理的是可以取任何数值的测量结果,例如 1.5、1.55 或 1.5555……

钟形曲线的核心特性

  • 对称性(Symmetrical): 如果你在曲线的正中央将其对折,两边会完全吻合。
  • 平均数、中位数与众数相等: 它们全都落在曲线最顶端、正中央的位置。
  • 总面积 = 1: 曲线下的总面积代表总概率,永远等于 1(即 100%)。
  • 渐近线(Asymptotic): 曲线的两侧“尾端”会无限靠近横轴,但永远不会真正触碰到它。

表示法: 我们将常态分布写作 \(X \sim N(\mu, \sigma^2)\)。
\(\mu\) (mu): 总体平均数(中心点)。
\(\sigma^2\) (sigma squared): 总体方差(数据的发展程度)。

小贴士: 要小心!在 \(N(\mu, \sigma^2)\) 的表示法中,第二个数字是方差。当你使用计算器时,它通常会要求输入 \(\sigma\)(标准差)。永远记得 \(\sigma = \sqrt{\text{方差}}\)。

重点总结

常态分布由两个要素定义:它的中心(平均数)和它的离散程度(标准差)。只要掌握这两个数值,你就掌握了整个分布!

2. “经验法则”(2/3、95%、99.8%)

即使没有计算器,我们也能大致知道数据在常态分布中的分布情况。课程大纲要求你熟记以下这些特定的近似值:

  • 在 1 个标准差范围内 (\(\mu \pm \sigma\)): 大约 \(2/3\)(约 68%)的观测值位于此处。
  • 在 2 个标准差范围内 (\(\mu \pm 2\sigma\)): 大约 95% 的观测值位于此处。
  • 在 3 个标准差范围内 (\(\mu \pm 3\sigma\)): 大约 99.8% 的观测值位于此处。

现实生活中的例子: 想象成年男性的身高。如果平均数是 175cm,标准差是 7cm,那么 95% 的男性身高会落在 161cm (\(175 - 2 \times 7\)) 到 189cm (\(175 + 2 \times 7\)) 之间。要找到超出这 3 个标准差范围的人是非常罕见的!

3. 计算概率与参数

在考试中,建议使用你的计算器功能,而不是查阅旧式的统计表。你通常需要用到两个主要功能:

常态累积概率分布(Normal CD)

当你已知数值(例如身高或体重)并想求出概率(曲线下的面积)时,请使用此功能。

反向常态分布(Inverse Normal)

当你已知概率(例如“前 10%”)并想求出 x 轴上对应的数值时,请使用此功能。

你知道吗? “标准常态分布”是一种特殊版本,其平均数 \(\mu = 0\),标准差 \(\sigma = 1\)。我们称之为 \(Z\) 分布。我们使用 \(Z = \frac{x - \mu}{\sigma}\) 这个公式将任何常态分布的数值转换为 \(Z\)-分数。这能告诉你该数值距离平均数有几个标准差。

避免常见错误

在常态分布中寻找 \(P(X < 5)\) 或 \(P(X \le 5)\) 时,它们完全一样! 因为这是一个连续分布,数值“精确等于” 5.000000... 的概率为零。别让“等于”符号像在二项分布中那样混淆你了。

4. 样本平均数的分布 (\(\bar{X}\))

这是一个稍微进阶的概念,但逻辑非常清晰。如果我们选取 \(n\) 个项目并计算它们的平均值 (\(\bar{X}\)),这个平均值同样会遵循常态分布,但它会比原始总体分布“更瘦”(离散程度更小)。

如果 \(X \sim N(\mu, \sigma^2)\),那么样本平均数的分布为:
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

为什么会这样? 想想看:某个个体可能非常高或非常矮。但如果你取 100 个人的样本并算出他们的平均身高,它就极大概率会非常接近总体的平均数。极端值会互相抵消!

5. 使用常态分布近似二项分布

有时,如果试验次数 (\(n\)) 非常大,处理二项分布(计算成功次数)会变得太困难。在特定情况下,我们可以“走捷径”,改用常态分布来计算。

我们何时可以这样做?(条件)

如果符合以下条件,你可以使用常态近似:

  • \(n\) 很大(通常 \(n \ge 20\))
  • \(p\) 接近 0.5(对称性)
  • 或者更具体来说: \(np > 10\) 且 \(n(1-p) > 10\)。

连续性修正(Continuity Correction)

因为我们正从离散分布(二项分布:1, 2, 3...)过渡到连续分布(常态分布:1.1, 1.2...),我们必须将数值调整 0.5。这就是所谓的连续性修正。

怎么做: 把每个整数想象成一个从数值下方 0.5 到上方 0.5 的“区块”。

  • 要包含 10:\(P(X \ge 10)\) 变为 \(P(Y > 9.5)\)。
  • 要排除 10:\(P(X > 10)\) 变为 \(P(Y > 10.5)\)。
  • 要包含 10 以内:\(P(X \le 10)\) 变为 \(P(Y < 10.5)\)。

刚开始觉得困难别担心! 只要画一条简单的数轴即可。如果你想包含数字 10,你需要从 9.5 开始计算面积,以确保数字 10 的“区块”被完全涵盖。

重点总结

当用常态分布近似二项分布时,使用 \(\mu = np\) 和 \(\sigma^2 = np(1-p)\),并永远记得进行 +/- 0.5 的连续性修正!

总结检查清单

  • 你能列出钟形曲线的特性吗?
  • 你是否熟记 2/3、95% 和 99.8% 的经验法则?
  • 你能使用计算器上的 Normal CD 功能来求出概率吗?
  • 在处理样本平均数 (\(\bar{X}\)) 时,你是否记得将方差除以 \(n\)?
  • 在近似二项分布时,你能正确应用连续性修正吗?