欢迎来到连续随机变量的世界!

在之前的学习中,你可能接触过离散随机变量 (Discrete Random Variables)——即那些可以数出来的数值,例如掷硬币出现正面的次数,或是班级人数。但如果我们测量身高、时间或重量呢?这些数值并不会“跳跃”地从一个整数变到另一个整数,而是沿着连续的标尺平滑变化。这就是连续随机变量 (Continuous Random Variables)的世界。

在本章中,我们将重点探讨全球最重要的连续分布:正态分布 (Normal Distribution)。掌握它就像拿到了一把“万能钥匙”,能助你打开统计学中许多难题的大门!


1. 离散与连续:有什么区别?

在深入数学运算之前,我们先确保自己理解什么是“连续”变量。

  • 离散随机变量: 具有特定、独立的数值。例如:计算一场足球比赛的入球数(你不可能入 2.45 球)。
  • 连续随机变量: 在一定范围内可以取任何数值。它们通常是测量结果。例如:你跑 100 米所需的时间(可能是 12 秒,12.1 秒,甚至 12.1045 秒)。

你知道吗? 因为连续变量有无限多个可能的数值,所以该变量“刚好”等于某个特定数值(例如身高刚好是 1.750000... 米)的概率其实是!因此,我们计算概率时,总是寻找数值落在某个范围 (Range)内的概率。


2. 正态分布:“钟形曲线”

正态分布是一种特殊的连续随机变量。它用于模拟那些集中在平均值附近的现象,例如考试成绩或树叶的长度。

主要特征:

  • 对称性: 左侧是右侧的镜像。
  • 钟形: 大部分数据集中在中间,向两端递减。
  • 平均值 (\(\mu\)): 这是曲线的中心点。
  • 方差 (\(\sigma^2\)): 它告诉我们钟形曲线有多“分散”。

我们将其记为:\(X \sim N(\mu, \sigma^2)\)

例子:如果学生平均身高为 160cm,方差为 25,我们写成 \(X \sim N(160, 25)\)。注意:这里的标准差 (\(\sigma\)) 是 \(\sqrt{25} = 5\)。

小贴士: 务必检查题目给出的是方差 (\(\sigma^2\))还是标准差 (\(\sigma\))。在公式 \(X \sim N(\mu, \sigma^2)\) 中,第二个数字永远是方差!


3. 标准化:使用 Z 分数

每一条正态曲线都不一样(有的细高,有的扁宽)。为了求概率,我们需要将它们统一对比到一种“标准”版本,即标准正态分布 (Standard Normal Distribution),它的平均值为 0,方差为 1。

我们透过以下 Z 分数 (Z-score) 公式来实现:

\(Z = \frac{X - \mu}{\sigma}\)

比喻: 把 Z 分数想象成“万能翻译机”。就像你将不同的货币(美元、欧元、比索)兑换成黄金来比较价值一样,我们将不同的正态变量转换为 Z 分数来进行比较。

标准化步骤:

  1. 获取你的数值 (\(X\))。
  2. 减去平均值 (\(\mu\))。
  3. 除以标准差 (\(\sigma\))。

刚开始觉得困难别担心! 只要记住:Z 分数告诉你该数值距离平均值有几个“标准差”。


4. 使用表格查找概率

一旦你有了 Z 分数,就可以使用正态分布表 (Normal Distribution Table)来查找概率。表格会告诉你 Z 分数左侧的面积,我们称之为 \(\Phi(z)\)。

常见情况:

  • 求 \(P(Z < a)\): 直接在表中查 \(a\)。
  • 求 \(P(Z > a)\): 利用对称性!总面积为 1,所以 \(P(Z > a) = 1 - \Phi(a)\)。
  • 求 \(P(a < Z < b)\): 找到 \(b\) 左侧的面积,减去 \(a\) 左侧的面积。公式:\(\Phi(b) - \Phi(a)\)。

记忆口诀: 如果你需要右侧的面积,必须用 1 减去该数值(Right = Remove from 1)。


5. 逆向问题:求 \(\mu\) 或 \(\sigma\)

有时题目会给你概率(面积),然后问你 \(X\)、平均值或标准差是多少。这就像“逆向操作”。

步骤流程:

  1. 画一个钟形曲线草图,并标示出已知的面积。
  2. 由内向外查表,找到与该概率对应的 Z 分数。
  3. 将 Z、\(\mu\)、\(\sigma\) 代入公式 \(Z = \frac{X - \mu}{\sigma}\)。
  4. 解出缺少的变量。

常见错误: 如果面积在平均值的左侧(小于 50%),你的 Z 分数必须是负数。表格通常只列出正的 Z 分数,所以你需要灵活运用对称性!


6. 二项分布的正态近似

有时我们会遇到二项分布 (Binomial Distribution)(例如抛硬币 1,000 次),但进行精确计算太难了。如果样本量足够大,二项分布就会看起来像一条正态曲线!

什么时候可以使用?

仅在以下情况可以使用正态近似:

  • \(np > 5\)
  • \(n(1-p) > 5\)(也写作 \(nq > 5\))

如何计算:

  1. 计算平均值:\(\mu = np\)。
  2. 计算方差:\(\sigma^2 = np(1-p)\)。
  3. 使用连续性修正 (Continuity Correction)(见下文)。
  4. 标准化并按惯常方法求概率。

7. 连续性修正:“0.5 法则”

当我们从离散变量(柱状图)转向连续变量(平滑曲线)时,必须考虑数字之间的间隙。这就是连续性修正

将每个离散数字想象成一个“区块”,向两侧各延伸 0.5。例如,数字 10 实际上占据了从 9.5 到 10.5 的空间。

如何调整:

  • 若求 \(P(X \le 10)\),你需要包含 10 这个区块,所以用 10.5
  • 若求 \(P(X < 10)\),你不包含 10,所以止于 9.5
  • 若求 \(P(X \ge 10)\),你从区块的开头开始,即 9.5
  • 若求 \(P(X > 10)\),你从区块之后开始,即 10.5

重点总结: 务必画一条数线!如果你想包含该数字,就把边界向外延伸 0.5;如果你想排除它,就把边界向内退回 0.5。


复习清单

在参加考试前,请确保你能做到:

  • 识别离散与连续变量的区别。
  • 标准化任何数值,使用 \(Z = \frac{X - \mu}{\sigma}\)。
  • 正确查阅正态分布表(包括负 Z 分数的情况)。
  • 逆向计算,从概率求出变量值。
  • 检查条件(\(np > 5\) 和 \(nq > 5\))以判断是否能进行正态近似。
  • 准确应用 0.5 的连续性修正。

你一定能做到! 统计学不过是一连串逻辑步骤的堆叠。一步一个脚印,多画图,答案自然会浮现。