欢迎来到连续分布的世界!

在之前的学习中,你可能接触过离散 (discrete) 数据——即那些可以数出来的项目,例如班上的学生人数或掷骰子的点数。但如果是一些需要测量 (measure) 的东西呢?想想看全校学生的身高、袋中苹果的重量,或是灯泡烧掉所需的时间。这些都是连续变量 (continuous variables),因为它们可以在某个范围内取任何数值。

在本章中,我们将专注于所有连续分布中最著名的一个:正态分布 (Normal Distribution)。由于它的形状,它通常被称为“钟形曲线 (Bell Curve)”,而且在大自然和科学领域中几乎无处不在!

1. 什么是连续分布?

与离散分布不同(我们会在离散分布中找出某个确切数值的概率,例如 \(P(X = 3)\)),在连续分布中,任何确切数值的概率其实都是。相反,我们会找出数值落在某个范围 (range) 内的概率(例如:“一名学生的身高在 160cm 到 170cm 之间的概率是多少?”)。

类比:想象你在数轴上投掷飞镖。要精确命中 1.500000... 这一点是不可能的。然而,命中 1 到 2 之间这个“区域”的机会却非常高!

重点总结:对于连续分布,我们始终是在寻找曲线下的面积 (area under a curve) 来表示概率。


2. 正态分布:“钟形曲线”

正态分布是完全对称 (symmetrical) 的。如果你把图形从正中间对折,左右两边会完全吻合。

要记住的关键特征:

  • 曲线呈钟形
  • 它围绕着平均值 (\(\mu\)) 对称
  • 平均值 (mean)、中位数 (median) 和众数 (mode) 都是同一个数值,且位于正中央。
  • 曲线永远不会真正接触到 x 轴(它向两个方向无限延伸)。
  • 曲线下的总面积永远为 1(因为总概率必须是 100%)。

你知道吗?许多事物都遵循正态分布,例如智商分数、鞋码,甚至是科学家在进行测量时产生的误差!


3. 理解符号标示

当我们说一个变量 \(X\) 服从正态分布时,我们会这样写: \(X \sim N(\mu, \sigma^2)\)

  • \(\mu\) (mu):平均值。它告诉你钟形曲线的中心在哪里。
  • \(\sigma^2\) (sigma squared):方差 (variance)。它告诉你钟形曲线有多“分散”。
  • \(\sigma\) (sigma):标准差 (standard deviation)。这是方差的平方根。

常见错误提醒!在符号 \(N(\mu, \sigma^2)\) 中,第二个数字是方差。当你进行计算时,通常需要用到标准差 (\(\sigma\))。请务必检查是否需要对第二个数字开平方根!


4. 标准正态分布 (\(Z\))

正态分布有无穷多种(有的高而窄,有的矮而宽)。为了让生活变得简单,数学家们创造了标准正态分布 (Standard Normal Distribution),它的平均值永远为 0,且标准差永远为 1

我们使用字母 \(Z\) 来表示:\(Z \sim N(0, 1)\)。

标准化 (Standardizing):神奇的公式

如果你有来自正态分布的任何数值 \(x\),你可以使用此公式将其转换为 \(Z\)-分数: \(Z = \frac{X - \mu}{\sigma}\)

如果觉得有点难,别担心!这个公式其实只是告诉你,你的数值距离平均值 “有几个标准差”

  • \(Z\)-分数为 1,代表你在平均值之上 1 个标准差。
  • \(Z\)-分数为 -2,代表你在平均值之下 2 个标准差。


5. 使用统计表查找概率

要找出概率 \(P(X < x)\),我们遵循以下步骤:

  1. 标准化:使用公式 \(Z = \frac{x - \mu}{\sigma}\) 得到一个 \(Z\)-值。
  2. 查找:使用考试手册中提供的正态分布表,找出该 \(Z\)-值左侧的面积。这个面积通常记作 \(\Phi(z)\)。

统计表规则快速复习:

  • 要找出 \(P(Z < z)\):只需直接在表中查找 \(z\)。
  • 要找出 \(P(Z > z)\):由于总面积为 1,请使用 \(1 - P(Z < z)\)。
  • 要找出 \(P(a < Z < b)\):找出较大区域的面积,减去较小区域的面积:\(P(Z < b) - P(Z < a)\)。
记忆小撇步:把统计表想象成一个“左撇子工具”。它只会告诉你左侧的面积。如果你想要右侧的面积,就必须用 1 减去左侧!

6. 反向操作:查找 \(\mu\) 和 \(\sigma\)

有时候,考试题目会给你概率,并要求你找出平均值或标准差。这就像是给你“答案”,问你“问题”是什么。

“反向”问题的逐步解法:

  1. 识别概率:查看给定的百分比或面积。
  2. 找出 \(Z\)-值:使用百分位点表 (percentage points table)(小表),或者在主表内的中间位置查找符合该面积的 \(Z\)-分数。
  3. 建立方程:使用 \(Z = \frac{x - \mu}{\sigma}\),并代入你的 \(Z\)、\(x\) 以及你所知道的其他数值。
  4. 求解:整理方程式以找出缺失的字母。
联立方程

如果 \(\mu\) 和 \(\sigma\) 都是未知的,题目会提供给你个不同的信息。你将使用 \(Z\)-公式建立两个方程式,并联立求解。
专业建议:通常解决这些问题最简单的方法是将两个方程式相减,以消除 \(\mu\)。


7. 总结检查清单

在开始练习题目之前,请确保你能做到:

  • 从符号中识别平均值 (\(\mu\)) 和方差 (\(\sigma^2\))。
  • 使用 \(Z = \frac{X - \mu}{\sigma}\) 公式将数值标准化
  • 正确使用统计表来查找“小于”和“大于”的概率。
  • 利用对称性处理负的 \(Z\)-值(请记住:\(P(Z < -1)\) 等同于 \(P(Z > 1)\))。
  • 当给定概率时,能反向求解 \(\mu\) 和 \(\sigma\)

最后鼓励:正态分布是 S1 统计学的“核心基础”。一旦你熟悉了 \(Z\)-公式和查表方法,你会发现大多数题目都遵循完全相同的模式。继续练习,这将变成你的本能!