欢迎来到连续随机变量的世界!

在之前的学习中,你可能已经接触过离散随机变量 (Discrete Random Variables)——即可以数出来的数据,例如抛十次硬币出现的正反面次数,或是掷骰子的结果。在这章中,我们将进入数学的“平滑”领域:连续随机变量 (Continuous Random Variables, CRVs)

想象一下,测量水壶烧开所需的精确时间,或是学校每位学生的精确身高。这些数字不只是整数,它们可以是范围内的任何值(例如 165.234 cm)。由于这些数值有无限多种可能,我们需要借助微积分来帮助我们计算概率。如果刚开始觉得有点复杂也不用担心——只要看出当中的规律,它其实就跟一般的积分和微分没什么两样!

1. 什么是概率密度函数 (PDF)?

由于连续变量可以取无限多的数值,它落在“某个特定点”(例如正好是 1.500000... cm)的概率其实是。因此,我们改为探讨数值落在某个范围内的概率。

我们使用概率密度函数 (Probability Density Function) 来表示,记作 \( f(x) \)。

PDF 的两大金科玉律

任何函数要成为有效的 PDF,必须遵循以下两条规则:

1. 不能为负:对于所有 \( x \),皆有 \( f(x) \geq 0 \)。 (概率“密度”是不可能为负的!)
2. 总面积必须为 1:所有概率的总和必须等于 100%。用微积分的术语来说:\( \int_{-\infty}^{\infty} f(x) \, dx = 1 \)。

快速复习:如果考试题目要求你“找出常数 \( k \)”,只需将函数在给定的范围内进行积分,设其等于 1,然后解出 \( k \) 即可。

2. 累积分布函数 (CDF)

如果 PDF 告诉我们某个特定点的“密度”,那么累积分布函数 (Cumulative Distribution Function)(记作 \( F(x) \))则告诉我们截至该点为止的“累计”概率。

比喻:如果 PDF 就像水滴入桶中的速度,那么 CDF 就是在时间 \( x \) 时桶内水的总量。

在 PDF 与 CDF 之间转换

这就是展现你微积分功力的时候了:

从 PDF 得到 CDF:积分! \( F(x) = \int_{-\infty}^{x} f(t) \, dt \)
从 CDF 得到 PDF:微分! \( f(x) = \frac{d}{dx} F(x) \)

重点提示:对于任何 CDF,\( F(x) \) 在范围起点处总为 0,在范围终点处总为 1。

3. 计算概率

要找出 \( X \) 落在两个数值 \( a \) 和 \( b \) 之间的概率,你需要求出这两点之间曲线下的面积

\( P(a < X < b) = \int_{a}^{b} f(x) \, dx \)

或者,如果你已经有了 CDF:
\( P(a < X < b) = F(b) - F(a) \)

你知道吗?在连续分布中,\( P(X \leq a) \) 和 \( P(X < a) \) 是完全一样的。因为落在特定一点的概率为零,所以是否有“等于”符号并不影响面积!

4. 期望值与方差

就像离散变量一样,我们同样希望找出数据的“平均值”(期望值 Mean)和“离散程度”(方差 Variance)。

期望值 (Expectation)

平均值,即 \( E(X) \),是该分布的重心。
\( E(X) = \int_{-\infty}^{\infty} x f(x) \, dx \)

方差 (Variance)

方差衡量数值偏离平均值的程度。
1. 首先,找出 \( E(X^2) \):\( E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) \, dx \)
2. 然后使用公式:\( Var(X) = E(X^2) - [E(X)]^2 \)

常见错误:别忘了在方差公式的最后要减去平均值的平方!在考试压力下,这是一个非常容易犯的错误。

5. 中位数与百分位数

中位数 (Median, \( m \)) 是指左侧占总概率 50%、右侧也占 50% 的数值。

要找出中位数,请解以下方程的 \( m \):
\( F(m) = 0.5 \) 或 \( \int_{-\infty}^{m} f(x) \, dx = 0.5 \)

对于任何其他百分位数(例如第 75 百分位数或上四分位数),只需将 CDF 设为该小数值(例如 0.75)并解出 \( x \) 即可。

6. 随机变量的函数

有时课程大纲会要求你找出一个依赖于 \( X \) 的“新”变量的分布。例如,如果 \( X \) 是正方形的边长,那么面积 \( Y = X^2 \) 的分布是什么?

步骤拆解(CDF 方法):

1. 从 Y 的 CDF 开始:写下 \( G(y) = P(Y \leq y) \)。
2. 代入:将 \( Y \) 替换为 \( X \) 的函数。(例如 \( P(X^2 \leq y) \))。
3. 重组:将 \( X \) 单独留在不等式一侧。(例如 \( P(X \leq \sqrt{y}) \))。
4. 联系到 X:这现在就是 \( X \) 的 CDF 了,即 \( F_X(\sqrt{y}) \)。
5. 微分:一旦有了新的 CDF,对其进行微分即可得到新的 PDF,即 \( g(y) \)。

核心观念:当进行变量变换时,务必先处理累积分布(积分)。直接跳到 PDF 通常会导致错误!

总结清单

• 我的 \( f(x) \) 下的总面积等于 1 吗?
• 要从 PDF 转换到 CDF,我的积分正确且加上积分限了吗?
• 在找中位数时,我有没有设 \( F(x) = 0.5 \)?
• 计算方差时,我有没有记得减去平均值的平方?

你一定做得到!连续随机变量只是用微积分来描述现实中“平滑”世界的一种方式。继续练习积分,其余的自然会迎刃而解。