连续随机变量简介
欢迎来到这个章节!在之前的学习中,你已经接触过离散随机变量——也就是那些可以数得出来的东西,例如掷硬币出现的正反面次数,或是班上学生的人数。现在,我们将进入连续随机变量 (Continuous Random Variables, CRVs) 的世界。这类变量可以在某个范围内取任何数值,例如时间、身高或体重。与其用一连串的概率列表,我们改用一条“平滑曲线”来描述它们。如果一开始觉得有点抽象,别担心;我们将运用微积分来解开这些数据背后的规律!
1. 概率密度函数 (pdf)
概率密度函数 (Probability Density Function),写作 \(f(x)\),是用来描述连续分布形状的函数。你可以把它想像成一座“概率小山”。某一点的“山”越高,该处的概率就越“密集”。
pdf 的两大黄金法则
要成为有效的 pdf,函数必须遵循以下两项规则:
- 非负值: 图形绝不能低于 x 轴。数学表达式为:对于所有 \(x\),\(f(x) \ge 0\)。
- 总面积为 1: 曲线下方的总面积必须精确等于 1。这是“所有概率总和为 1”在连续情况下的版本。
\(\int_{-\infty}^{\infty} f(x) dx = 1\)
小贴士: 大多数考试题目给你的函数只会在两个数值之间(例如 0 到 5)是非零的。你只需要在那两个特定的极限范围内进行积分即可!
你知道吗? 对于一个连续变量,变量值恰好等于某个特定数值(例如 \(P(X = 2.5)\))的概率其实是 零!我们只能测量变量落入某个范围内的概率。
重点摘要: CRV 的概率由曲线下的面积来表示。没有面积 = 没有概率!
2. 计算概率
既然概率就是面积,我们可以使用积分来找出 \(X\) 落入 \(a\) 和 \(b\) 之间数值的概率。
公式: \(P(a < X < b) = \int_{a}^{b} f(x) dx\)
计算概率的步骤:
- 找出函数 \(f(x)\) 以及你感兴趣的范围。
- 设定积分,将下限放在积分符号下方,上限放在上方。
- 对函数进行积分。
- 代入数值并计算出最终面积。
范例:如果一个变量的 pdf 为 \(f(x) = \frac{1}{8}x\),范围在 \(0 \le x \le 4\),要计算 \(P(1 < X < 3)\),你只需计算 \(\int_{1}^{3} \frac{1}{8}x dx\)。
3. 期望值 (平均值) 与方差
就像离散数据一样,我们会想知道数据的“平均”值以及数据有多“分散”。
期望值 \(E(X)\)
期望值(或称平均值,\(\mu\))是分布的平衡点。
公式: \(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
方差 \(Var(X)\)
方差是用来衡量分散程度的。计算时通常先算出 \(E(X^2)\) 会比较容易。
步骤 1: 找出 \(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)
步骤 2: 使用方差公式:\(Var(X) = E(X^2) - [E(X)]^2\)
记忆小帮手: 对于方差,请记住:“平方的平均值减去平均值的平方”。
4. 众数、中位数与百分位数
有时候,我们想找出数据小山中的特定“临界点”。
众数
众数就是使 pdf \(f(x)\) 达到最大值的 \(x\) 值。你可以透过观察图形,或是使用微分找出驻点(如果是曲线的话)来求得。
中位数与百分位数
中位数 (\(m\)) 是左侧面积恰好为 0.5 的那个数值。
解出 \(m\): \(\int_{-\infty}^{m} f(x) dx = 0.5\)
若要求第 90 百分位数,只需将积分结果设为 0.9 而非 0.5 即可。
重点摘要: 中位数将总面积平分为两个各占 0.5 的区域。
5. 累积分布函数 (cdf)
累积分布函数 (Cumulative Distribution Function),写作 \(F(x)\),告诉你变量小于或等于某个数值 \(x\) 的概率。
公式: \(F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) dt\)
两者的关联桥梁
这是你考试中至关重要的概念:
- 从 pdf 到 cdf:积分 (Integrate)。
- 从 cdf 到 pdf:微分 (Differentiate) (\(f(x) = F'(x)\))。
常见错误提醒: 在进行积分求 cdf 时,千万别忘了积分常数 (+C)!你可以利用累积概率在范围起点必须为 0、终点必须为 1 的特性来求出 \(C\)。
6. 特殊连续模型
课程大纲中强调了两个你需要熟悉的特殊模型。
连续均匀(矩形)分布
这指的是范围 \([a, b]\) 内的每个数值发生的概率皆相等。图形是一个平坦的矩形。
关键公式(通常会提供在公式手册中):
\(E(X) = \frac{a+b}{2}\)
\(Var(X) = \frac{1}{12}(b-a)^2\)
正态分布
在本单元中,我们将 A Level 的知识扩展到正态变量的线性组合。如果 \(X\) 和 \(Y\) 是独立的正态变量,那么它们的任何组合(例如 \(X + Y\) 或 \(2X - 3Y\))也同样是正态分布。
- 平均值: \(E(aX + bY) = aE(X) + bE(Y)\)
- 方差: \(Var(aX + bY) = a^2Var(X) + b^2Var(Y)\) (注意:方差永远是相加的,即使变量本身是相减的!)
复习速查表:
- pdf \(f(x)\):代表“高度”(积分可得面积/概率)。
- cdf \(F(x)\):代表“累计总额”的面积。
- \(E(X)\):中心位置。
- \(Var(X)\):分散程度。
总结:融会贯通
当处理连续随机变量问题时,请务必问自己:“我现在看的是 pdf (形状) 还是 cdf (目前的累计值)?”使用积分来求取概率、平均值和中位数;使用微分来找出众数,或是从 cdf 反推回 pdf。保持积分极限清晰,并记住总面积必须永远等于 1。你可以做到的!