Continuous probability distributions

欢迎来到连续概率分布的世界！

在之前的学习中，你可能已经接触过离散随机变量 (Discrete Random Variables)——即可以数出来的数据，例如抛硬币出现的正反面次数，或是掷骰子的点数。在本章中，我们将进入连续随机变量 (Continuous Random Variables, CRVs) 的世界。这些变量通常用于我们需要“测量”的数值，例如巴士抵达的时间、学生的身高，或是苹果的重量。由于测量结果可以是任何数值（例如 1.5 分钟、1.52 分钟，甚至是 1.5234... 分钟），我们需要一套略有不同的工具来处理。如果刚开始觉得“数学味”很重，不用担心，我们会一步一步为你拆解！

1. 什么是连续随机变量？

连续随机变量可以在给定范围内取任何值。与离散变量那种有明确“级数”（1, 2, 3...）的特点不同，连续变量就像一个平滑的滑梯。

概率密度函数 (PDF)
对于连续随机变量，我们使用一个称为 \( f(x) \) 的函数，即概率密度函数 (Probability Density Function)。这个函数描述了分布的形状。
重要提示：在连续分布中，变量“恰好”等于某一个特定值的概率永远为零 (\( P(X = c) = 0 \))。相反，我们通常关注的是 \( X \) 落入某个“范围”内的概率。

关键公式：
要找出两个数值 \( a \) 和 \( b \) 之间的概率，我们需要计算该点之间曲线下的面积 (area under the curve)，这可以通过积分来达成：
\( P(a < X \le b) = \int_{a}^{b} f(x) dx \)

有效 PDF 的规则：
1. 函数值永远不能为负：对于所有 \( x \)，都有 \( f(x) \ge 0 \)。
2. 曲线下的总面积必须等于 1：\( \int_{-\infty}^{\infty} f(x) dx = 1 \)。

类比：想象一条长面包。面包的总量是 1（或 100%）。如果你想知道某一片面包的概率，你其实是在计算该特定切片相对于整条面包的“面积”或体积。

常见错误：学生常忘记对于连续随机变量而言，\( P(X < 5) \) 与 \( P(X \le 5) \) 是完全一样的。因为 \( X \) 恰好等于 5 的概率为零，所以是否有“等于”符号并不影响总面积！

重点总结：连续分布中的概率，其实就是 PDF 曲线下的面积。

2. 累积分布函数 (CDF)

累积分布函数 (Cumulative Distribution Function)，记作 \( F(x) \)，告诉我们随机变量小于或等于某个值 \( x \) 的概率。你可以把它想象成概率的“累加总和”。

如何找出 \( F(x) \)：
将 PDF 从最小值（通常是 \( -\infty \) 或 0）积分到 \( x \)：
\( F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx \)

PDF 与 CDF 之间的关系：
这是在考试中非常重要的“技巧”！
1. 从 PDF 到 CDF：对 \( f(x) \) 进行积分。
2. 从 CDF 到 PDF：对 \( F(x) \) 进行微分。
\( f(x) = \frac{dF(x)}{dx} \)

快速回顾框：
- \( F(\text{最小值}) = 0 \)
- \( F(\text{最大值}) = 1 \)
- \( a \) 与 \( b \) 之间的概率：\( P(a < X < b) = F(b) - F(a) \)。

重点总结：CDF \( F(x) \) 是从图形左侧一直到点 \( x \) 的“累加面积”。

3. 平均值、方差与期望值

就像处理离散变量一样，我们想知道数据的“平均值”(Mean) 和“散布程度”(Variance)。由于我们处理的是连续函数，我们使用积分来代替求和 (\( \Sigma \))。

平均值（期望值）：
\( E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx \)

方差：
\( Var(X) = \sigma^2 = E(X^2) - [E(X)]^2 \)
其中 \( E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx \)。

函数 \( g(X) \) 的期望值：
如果你需要计算类似 \( X^3 \) 或 \( 2X + 5 \) 的期望值，请使用：
\( E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dx \)

你知道吗？平均值在本质上是概率分布的“重心”。如果你用纸板剪出 PDF 的形状，平均值就是它能在你手指上完美平衡的位置！

重点总结：要计算平均值，请积分 \( x \times f(x) \)。计算方差时，先求出 \( E(X^2) \)，然后减去平均值的平方。

4. 众数、中位数与四分位数

这些统计量帮助我们从不同角度理解数据的“位置”。

1. 众数 (Mode)：
众数是 \( f(x) \) 达到最大值时的 \( x \) 值。
步骤：
- 对 PDF 微分：\( f'(x) \)。
- 令其为零：\( f'(x) = 0 \)。
- 解出 \( x \)（并检查该点在范围内是否为极大值）。

2. 中位数 (Median, \( m \))：
中位数是“中间点”。正好有 50% 的面积在左侧，50% 在右侧。
求法：求解 \( F(m) = 0.5 \)。

3. 百分位数与四分位数：
- 下四分位数 (\( Q_1 \))：求解 \( F(Q_1) = 0.25 \)。
- 上四分位数 (\( Q_3 \))：求解 \( F(Q_3) = 0.75 \)。
- 第 \( n \) 百分位数：求解 \( F(x) = \frac{n}{100} \)。

重点总结：众数 = 最高峰。中位数 = 面积为 0.5 的位置。四分位数 = 面积为 0.25 和 0.75 的位置。

5. 偏度 (Skewness)

偏度告诉我们分布的“尾部”是否被拉向某一侧。

- 正偏 (Positive Skew)：尾部在右侧。通常，\( \text{平均值} > \text{中位数} > \text{众数} \)。
- 负偏 (Negative Skew)：尾部在左侧。通常，\( \text{平均值} < \text{中位数} < \text{众数} \)。
- 零偏 (Zero Skew)：分布完美对称。\( \text{平均值} = \text{中位数} = \text{众数} \)。

记忆小撇步：尾巴在哪里，偏度就在哪里。如果尾巴指向正数（右侧），就是正偏；如果指向负数（左侧），就是负偏。

重点总结：在考试中，务必通过比较平均值和中位数来证明分布的偏度。

6. 连续均匀分布 (Continuous Uniform Distribution)

这是最简单的连续分布。范围 \( [a, b] \) 内的每一个值出现的概率都相同。PDF 看起来像一个平坦的矩形。

\( X \sim U(a, b) \) 的关键属性：
- PDF：对于 \( a \le x \le b \)，\( f(x) = \frac{1}{b-a} \)。
- CDF：\( F(x) = \frac{x-a}{b-a} \)（这只是该范围内所占的比例）。
- 平均值：\( E(X) = \frac{a+b}{2} \)（正好是范围的中点）。
- 方差：\( Var(X) = \frac{(b-a)^2}{12} \)。

现实例子：一个四舍五入到最近秒数的“公平”电子码表。舍入误差将在 -0.5 到 +0.5 秒之间均匀分布。

快速回顾框：
对于均匀分布：
- PDF 的高度总是 \( 1 / \text{宽度} \)。
- 方差公式中的数字 12 是一个数学常数——千万别忘了！

重点总结：当特定范围内的每一个结果都具有相同的“密度”或发生概率时，就会使用均匀分布。

如果这些公式让你感到吃力，请别担心！多练习绘制 PDF 和 CDF 的草图；一旦你能可视化这些面积，积分就会变得合乎逻辑多了。你一定没问题的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。