连续随机变量 (CRVs) 简介
你好!在之前的数学学习中,你已经接触过离散 (discrete) 随机变量——也就是你可以数出来的数值,例如掷硬币出现正面的次数,或是班级中的学生人数。在本章中,我们将进入连续 (continuous) 的世界。
你可以把连续随机变量 (CRV) 想象成可以在某个范围内取任何数值的变量。数码时钟显示的是离散的分钟,而传统指针时钟的秒针则是连续地扫过每一分每一秒。我们使用 CRV 来模拟诸如时间、身高或体重等事物。理解 CRV 非常重要,因为现实世界中的情况很少会刚好是整数!
1. 概率密度函数 (pdf)
对于离散变量,我们使用表格来显示概率。对于 CRV,我们则使用一个称为概率密度函数 (Probability Density Function) 的函数,写作 \( f(x) \)。
核心概念:面积 = 概率
在 CRV 中,变量落在两个数值之间的概率,就是该区间内曲线 \( f(x) \) 下方的面积。因此,两个非常重要的规则适用于此:
1. 整个曲线下方的总面积必须始终等于 1。
\( \int_{-\infty}^{\infty} f(x) \, dx = 1 \)
2. 函数 \( f(x) \) 永远不能为负(因为概率不可能是负的!)。
你知道吗?
对于 CRV,变量取刚好某个特定数值的概率总是 零。即 \( P(X = 2) = 0 \)。这是因为单点没有宽度,所以也就没有面积。我们只讨论关于一个区间 (interval) 的概率,例如 \( P(1 < X < 3) \)。
快速回顾:
- 离散: 概率总和 \( \sum P(X=x) = 1 \)
- 连续: 密度函数的积分 \( \int f(x) \, dx = 1 \)
2. 求概率
要找出 \( X \) 落在 \( a \) 和 \( b \) 之间的概率,你只需要对该区间内的 pdf 进行积分即可:
\( P(a \le X \le b) = \int_{a}^{b} f(x) \, dx \)
如果一开始觉得很难,别担心! 只要记住“求概率”其实就是“求图形下方的面积”的一种高阶说法。如果函数形状简单(如长方形或三角形),你甚至可以直接用基本几何公式,而不必使用积分!
3. 累积分布函数 (cdf)
累积分布函数 (Cumulative Distribution Function),写作 \( F(x) \),代表概率的“累加总和”。它告诉你变量小于或等于某个数值 \( x \) 的概率。
两者关系:
- 由 \( f(x) \) 求 \( F(x) \):积分 (Integrate)。
\( F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) \, dt \)
- 由 \( F(x) \) 求 \( f(x) \):微分 (Differentiate)。
\( f(x) = \frac{d}{dx} F(x) \)
常见错误:
在进行积分以求 \( F(x) \) 时,别忘了积分常数 (\( + C \)),或者使用一个虚拟变量(如 \( t \))并从下限积分到 \( x \)。\( F(x) \) 在范围的最开始必须永远等于 0,而在最末端则必须等于 1。
4. 平均数、方差与标准差
就像处理离散变量一样,我们想知道 CRV 的平均数(期望值)和分散程度(方差)。
期望值 (平均数):
\( E(X) = \mu = \int x f(x) \, dx \)
类比:这可以被视为曲线下方面积的“平衡点”。
方差:
要计算方差,先求出 \( E(X^2) \):
\( E(X^2) = \int x^2 f(x) \, dx \)
然后使用熟悉的公式:
\( Var(X) = E(X^2) - [E(X)]^2 \)
标准差:
这只是方差的平方根:\( \sigma = \sqrt{Var(X)} \)。
重点提示: 永远先求 \( E(X) \),再求 \( E(X^2) \),最后才求方差。这是一个三步走的过程!
5. 中位数与四分位数
中位数 (median) (\( m \)) 是该数值左侧面积刚好占一半、右侧也占一半的点。若要找出它,请解以下方程式中的 \( m \):
\( F(m) = 0.5 \) 或 \( \int_{-\infty}^{m} f(x) \, dx = 0.5 \)
同理,对于四分位数:
- 下四分位数 (\( Q_1 \)): 解 \( F(Q_1) = 0.25 \)
- 上四分位数 (\( Q_3 \)): 解 \( F(Q_3) = 0.75 \)
中位数计算步骤:
1. 找出 cdf 的表达式 \( F(x) \)。
2. 将该表达式设为 0.5。
3. 解出 \( x \)。这就是你的中位数!
6. 线性函数与 \( g(X) \) 的期望值
有时候,我们不只想知道 \( X \) 的平均值,还想知道 \( X \) 的函数的平均值,例如 \( 5X^3 \) 或 \( 6X^{-1} \)。
函数 \( g(X) \) 的期望值:
\( E(g(X)) = \int g(x) f(x) \, dx \)
线性变换:
如果你有一个线性变换 \( aX + b \):
- 平均值: \( E(aX + b) = aE(X) + b \)
- 方差: \( Var(aX + b) = a^2 Var(X) \)
记忆小撇步:加上常数 (\( b \)) 会平移整个图形,但不会改变它的分散程度,所以 \( b \) 在方差公式中会消失!
7. 长方形(均匀)分布
最简单的 CRV 是长方形分布 (Rectangular Distribution)。当区间 \( [a, b] \) 内每个数值发生的可能性都相等时,就会用到它。
公式:
- pdf: \( f(x) = \frac{1}{b-a} \),范围为 \( a \le x \le b \)(其余范围为 0)。
- 平均值: \( E(X) = \frac{a+b}{2} \)(刚好在中间)。
- 方差: \( Var(X) = \frac{(b-a)^2}{12} \)
快速回顾:
如果巴士在 0 到 10 分钟内的任何时间到达,则 \( a=0 \),\( b=10 \)。pdf 的高度为 \( \frac{1}{10-0} = 0.1 \)。平均等待时间为 5 分钟。
8. 合并独立变量
如果你有两个独立 (independent) 的随机变量 \( X \) 和 \( Y \)(代表两者互不影响),无论它们是离散还是连续,以下规则皆适用:
期望值之和:
\( E(X + Y) = E(X) + E(Y) \)
方差之和:
\( Var(X + Y) = Var(X) + Var(Y) \)
重要提醒: 此方差规则仅在变量独立时有效。如果它们之间有关联,公式会变得复杂得多(但本节不需要担心这个!)。
重点总结:
- pdf \( f(x) \): 曲线。下方面积即为概率,总面积 = 1。
- cdf \( F(x) \): 累加总和。\( F(x) = P(X \le x) \)。
- 平均值 \( E(X) \): 对 \( x f(x) \) 积分。
- 中位数: \( F(x) = 0.5 \) 之处。
- 长方形: pdf 为水平线的“公平”分布。