Continuous random variables

欢迎来到连续随机变量的世界！

在之前的学习中，你可能接触过离散随机变量 (Discrete Random Variables)——即那些可以数出来的数值，例如掷硬币出现正面的次数，或是班级人数。但如果我们测量身高、时间或重量呢？这些数值并不会“跳跃”地从一个整数变到另一个整数，而是沿着连续的标尺平滑变化。这就是连续随机变量 (Continuous Random Variables)的世界。

在本章中，我们将重点探讨全球最重要的连续分布：正态分布 (Normal Distribution)。掌握它就像拿到了一把“万能钥匙”，能助你打开统计学中许多难题的大门！

1. 离散与连续：有什么区别？

在深入数学运算之前，我们先确保自己理解什么是“连续”变量。

离散随机变量： 具有特定、独立的数值。例如：计算一场足球比赛的入球数（你不可能入 2.45 球）。
连续随机变量： 在一定范围内可以取任何数值。它们通常是测量结果。例如：你跑 100 米所需的时间（可能是 12 秒，12.1 秒，甚至 12.1045 秒）。

你知道吗？ 因为连续变量有无限多个可能的数值，所以该变量“刚好”等于某个特定数值（例如身高刚好是 1.750000... 米）的概率其实是零！因此，我们计算概率时，总是寻找数值落在某个范围 (Range)内的概率。

2. 正态分布：“钟形曲线”

正态分布是一种特殊的连续随机变量。它用于模拟那些集中在平均值附近的现象，例如考试成绩或树叶的长度。

主要特征：

对称性： 左侧是右侧的镜像。
钟形： 大部分数据集中在中间，向两端递减。
平均值 (\(\mu\))： 这是曲线的中心点。
方差 (\(\sigma^2\))： 它告诉我们钟形曲线有多“分散”。

我们将其记为：\(X \sim N(\mu, \sigma^2)\)

例子：如果学生平均身高为 160cm，方差为 25，我们写成 \(X \sim N(160, 25)\)。注意：这里的标准差 (\(\sigma\)) 是 \(\sqrt{25} = 5\)。

小贴士： 务必检查题目给出的是方差 (\(\sigma^2\))还是标准差 (\(\sigma\))。在公式 \(X \sim N(\mu, \sigma^2)\) 中，第二个数字永远是方差！

3. 标准化：使用 Z 分数

每一条正态曲线都不一样（有的细高，有的扁宽）。为了求概率，我们需要将它们统一对比到一种“标准”版本，即标准正态分布 (Standard Normal Distribution)，它的平均值为 0，方差为 1。

我们透过以下 Z 分数 (Z-score) 公式来实现：

\(Z = \frac{X - \mu}{\sigma}\)

比喻： 把 Z 分数想象成“万能翻译机”。就像你将不同的货币（美元、欧元、比索）兑换成黄金来比较价值一样，我们将不同的正态变量转换为 Z 分数来进行比较。

标准化步骤：

获取你的数值 (\(X\))。
减去平均值 (\(\mu\))。
除以标准差 (\(\sigma\))。

刚开始觉得困难别担心！ 只要记住：Z 分数告诉你该数值距离平均值有几个“标准差”。

4. 使用表格查找概率

一旦你有了 Z 分数，就可以使用正态分布表 (Normal Distribution Table)来查找概率。表格会告诉你 Z 分数左侧的面积，我们称之为 \(\Phi(z)\)。

常见情况：

求 \(P(Z < a)\)： 直接在表中查 \(a\)。
求 \(P(Z > a)\)： 利用对称性！总面积为 1，所以 \(P(Z > a) = 1 - \Phi(a)\)。
求 \(P(a < Z < b)\)： 找到 \(b\) 左侧的面积，减去 \(a\) 左侧的面积。公式：\(\Phi(b) - \Phi(a)\)。

记忆口诀： 如果你需要右侧的面积，必须用 1 减去该数值（Right = Remove from 1）。

5. 逆向问题：求 \(\mu\) 或 \(\sigma\)

有时题目会给你概率（面积），然后问你 \(X\)、平均值或标准差是多少。这就像“逆向操作”。

步骤流程：

画一个钟形曲线草图，并标示出已知的面积。
由内向外查表，找到与该概率对应的 Z 分数。
将 Z、\(\mu\)、\(\sigma\) 代入公式 \(Z = \frac{X - \mu}{\sigma}\)。
解出缺少的变量。

常见错误： 如果面积在平均值的左侧（小于 50%），你的 Z 分数必须是负数。表格通常只列出正的 Z 分数，所以你需要灵活运用对称性！

6. 二项分布的正态近似

有时我们会遇到二项分布 (Binomial Distribution)（例如抛硬币 1,000 次），但进行精确计算太难了。如果样本量足够大，二项分布就会看起来像一条正态曲线！

什么时候可以使用？

仅在以下情况可以使用正态近似：

\(np > 5\)
\(n(1-p) > 5\)（也写作 \(nq > 5\)）

如何计算：

计算平均值：\(\mu = np\)。
计算方差：\(\sigma^2 = np(1-p)\)。
使用连续性修正 (Continuity Correction)（见下文）。
标准化并按惯常方法求概率。

7. 连续性修正：“0.5 法则”

当我们从离散变量（柱状图）转向连续变量（平滑曲线）时，必须考虑数字之间的间隙。这就是连续性修正。

将每个离散数字想象成一个“区块”，向两侧各延伸 0.5。例如，数字 10 实际上占据了从 9.5 到 10.5 的空间。

如何调整：

若求 \(P(X \le 10)\)，你需要包含 10 这个区块，所以用 10.5。
若求 \(P(X < 10)\)，你不包含 10，所以止于 9.5。
若求 \(P(X \ge 10)\)，你从区块的开头开始，即 9.5。
若求 \(P(X > 10)\)，你从区块之后开始，即 10.5。

重点总结： 务必画一条数线！如果你想包含该数字，就把边界向外延伸 0.5；如果你想排除它，就把边界向内退回 0.5。

复习清单

在参加考试前，请确保你能做到：

识别离散与连续变量的区别。
标准化任何数值，使用 \(Z = \frac{X - \mu}{\sigma}\)。
正确查阅正态分布表（包括负 Z 分数的情况）。
逆向计算，从概率求出变量值。
检查条件（\(np > 5\) 和 \(nq > 5\)）以判断是否能进行正态近似。
准确应用 0.5 的连续性修正。

你一定能做到！ 统计学不过是一连串逻辑步骤的堆叠。一步一个脚印，多画图，答案自然会浮现。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。