欢迎来到连续概率分布的世界!
在之前的学习中,你可能已经接触过离散随机变量 (Discrete Random Variables)——即可以数出来的数据,例如抛硬币出现的正反面次数,或是掷骰子的点数。在本章中,我们将进入连续随机变量 (Continuous Random Variables, CRVs) 的世界。这些变量通常用于我们需要“测量”的数值,例如巴士抵达的时间、学生的身高,或是苹果的重量。由于测量结果可以是任何数值(例如 1.5 分钟、1.52 分钟,甚至是 1.5234... 分钟),我们需要一套略有不同的工具来处理。如果刚开始觉得“数学味”很重,不用担心,我们会一步一步为你拆解!
1. 什么是连续随机变量?
连续随机变量可以在给定范围内取任何值。与离散变量那种有明确“级数”(1, 2, 3...)的特点不同,连续变量就像一个平滑的滑梯。
概率密度函数 (PDF)
对于连续随机变量,我们使用一个称为 \( f(x) \) 的函数,即概率密度函数 (Probability Density Function)。这个函数描述了分布的形状。
重要提示:在连续分布中,变量“恰好”等于某一个特定值的概率永远为零 (\( P(X = c) = 0 \))。相反,我们通常关注的是 \( X \) 落入某个“范围”内的概率。
关键公式:
要找出两个数值 \( a \) 和 \( b \) 之间的概率,我们需要计算该点之间曲线下的面积 (area under the curve),这可以通过积分来达成:
\( P(a < X \le b) = \int_{a}^{b} f(x) dx \)
有效 PDF 的规则:
1. 函数值永远不能为负:对于所有 \( x \),都有 \( f(x) \ge 0 \)。
2. 曲线下的总面积必须等于 1:\( \int_{-\infty}^{\infty} f(x) dx = 1 \)。
类比:想象一条长面包。面包的总量是 1(或 100%)。如果你想知道某一片面包的概率,你其实是在计算该特定切片相对于整条面包的“面积”或体积。
常见错误:学生常忘记对于连续随机变量而言,\( P(X < 5) \) 与 \( P(X \le 5) \) 是完全一样的。因为 \( X \) 恰好等于 5 的概率为零,所以是否有“等于”符号并不影响总面积!
重点总结:连续分布中的概率,其实就是 PDF 曲线下的面积。
2. 累积分布函数 (CDF)
累积分布函数 (Cumulative Distribution Function),记作 \( F(x) \),告诉我们随机变量小于或等于某个值 \( x \) 的概率。你可以把它想象成概率的“累加总和”。
如何找出 \( F(x) \):
将 PDF 从最小值(通常是 \( -\infty \) 或 0)积分到 \( x \):
\( F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx \)
PDF 与 CDF 之间的关系:
这是在考试中非常重要的“技巧”!
1. 从 PDF 到 CDF:对 \( f(x) \) 进行积分。
2. 从 CDF 到 PDF:对 \( F(x) \) 进行微分。
\( f(x) = \frac{dF(x)}{dx} \)
快速回顾框:
- \( F(\text{最小值}) = 0 \)
- \( F(\text{最大值}) = 1 \)
- \( a \) 与 \( b \) 之间的概率:\( P(a < X < b) = F(b) - F(a) \)。
重点总结:CDF \( F(x) \) 是从图形左侧一直到点 \( x \) 的“累加面积”。
3. 平均值、方差与期望值
就像处理离散变量一样,我们想知道数据的“平均值”(Mean) 和“散布程度”(Variance)。由于我们处理的是连续函数,我们使用积分来代替求和 (\( \Sigma \))。
平均值(期望值):
\( E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx \)
方差:
\( Var(X) = \sigma^2 = E(X^2) - [E(X)]^2 \)
其中 \( E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx \)。
函数 \( g(X) \) 的期望值:
如果你需要计算类似 \( X^3 \) 或 \( 2X + 5 \) 的期望值,请使用:
\( E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dx \)
你知道吗?平均值在本质上是概率分布的“重心”。如果你用纸板剪出 PDF 的形状,平均值就是它能在你手指上完美平衡的位置!
重点总结:要计算平均值,请积分 \( x \times f(x) \)。计算方差时,先求出 \( E(X^2) \),然后减去平均值的平方。
4. 众数、中位数与四分位数
这些统计量帮助我们从不同角度理解数据的“位置”。
1. 众数 (Mode):
众数是 \( f(x) \) 达到最大值时的 \( x \) 值。
步骤:
- 对 PDF 微分:\( f'(x) \)。
- 令其为零:\( f'(x) = 0 \)。
- 解出 \( x \)(并检查该点在范围内是否为极大值)。
2. 中位数 (Median, \( m \)):
中位数是“中间点”。正好有 50% 的面积在左侧,50% 在右侧。
求法:求解 \( F(m) = 0.5 \)。
3. 百分位数与四分位数:
- 下四分位数 (\( Q_1 \)):求解 \( F(Q_1) = 0.25 \)。
- 上四分位数 (\( Q_3 \)):求解 \( F(Q_3) = 0.75 \)。
- 第 \( n \) 百分位数:求解 \( F(x) = \frac{n}{100} \)。
重点总结:众数 = 最高峰。中位数 = 面积为 0.5 的位置。四分位数 = 面积为 0.25 和 0.75 的位置。
5. 偏度 (Skewness)
偏度告诉我们分布的“尾部”是否被拉向某一侧。
- 正偏 (Positive Skew):尾部在右侧。通常,\( \text{平均值} > \text{中位数} > \text{众数} \)。
- 负偏 (Negative Skew):尾部在左侧。通常,\( \text{平均值} < \text{中位数} < \text{众数} \)。
- 零偏 (Zero Skew):分布完美对称。\( \text{平均值} = \text{中位数} = \text{众数} \)。
记忆小撇步:尾巴在哪里,偏度就在哪里。如果尾巴指向正数(右侧),就是正偏;如果指向负数(左侧),就是负偏。
重点总结:在考试中,务必通过比较平均值和中位数来证明分布的偏度。
6. 连续均匀分布 (Continuous Uniform Distribution)
这是最简单的连续分布。范围 \( [a, b] \) 内的每一个值出现的概率都相同。PDF 看起来像一个平坦的矩形。
\( X \sim U(a, b) \) 的关键属性:
- PDF:对于 \( a \le x \le b \),\( f(x) = \frac{1}{b-a} \)。
- CDF:\( F(x) = \frac{x-a}{b-a} \)(这只是该范围内所占的比例)。
- 平均值:\( E(X) = \frac{a+b}{2} \)(正好是范围的中点)。
- 方差:\( Var(X) = \frac{(b-a)^2}{12} \)。
现实例子:一个四舍五入到最近秒数的“公平”电子码表。舍入误差将在 -0.5 到 +0.5 秒之间均匀分布。
快速回顾框:
对于均匀分布:
- PDF 的高度总是 \( 1 / \text{宽度} \)。
- 方差公式中的数字 12 是一个数学常数——千万别忘了!
重点总结:当特定范围内的每一个结果都具有相同的“密度”或发生概率时,就会使用均匀分布。
如果这些公式让你感到吃力,请别担心!多练习绘制 PDF 和 CDF 的草图;一旦你能可视化这些面积,积分就会变得合乎逻辑多了。你一定没问题的!