📚 学习笔记:连续型随机变量 (9709 P&S 2, 第 6.3 节)
欢迎来到概率与统计 2 (Probability and Statistics 2) 中最理论化但也最核心的章节之一!在 Paper 5 (P&S 1) 中,我们主要处理的是离散型随机变量(Discrete Random Variables,例如计数类数据)。现在,我们将进入连续型随机变量(Continuous Random Variables)的世界,处理测量类数据(如时间、重量或温度)。在这里,你的纯数学(Pure Mathematics)技能(尤其是积分!)将与统计学碰撞出火花。如果起初觉得有些棘手也不必担心——本质上,这不过是在寻找图形下方的面积而已!
1. 理解连续型随机变量 (CRV)
连续型随机变量 (X) 是指可以在给定范围(或区间)内取任何值的变量。你可以把它想象成对某物进行“测量”,而不是“计数”。
CRV 与 DRV 的快速回顾
- 离散型随机变量 (DRV): 取值为可数的值(例如:抛硬币的正反面次数、骰子的点数)。概率通过 \(P(X=x)\) 表示。
- 连续型随机变量 (CRV): 取值为区间内的任意值(例如:跑 100 米所用的时间、身高)。
⚠ CRV 的重要性质:
对于任何特定的单个值 \(x\),其概率始终为零:
$$P(X = x) = 0$$
类比:想象向数轴投掷飞镖。击中点 \(x=5.000000...\) 的概率为零。我们只能计算飞镖落入某个范围(例如 4.9 到 5.1 之间)的概率。
正因如此,在计算概率时,是否包含边界点并不影响结果:
$$P(a \le X \le b) = P(a < X < b) = P(a < X \le b)$$
关键点: 对于 CRV,我们是在区间(面积)上计算概率,而不是在单个点上。
2. 概率密度函数 (PDF), \(f(x)\)
由于我们不能像处理离散统计那样使用概率质量函数,我们使用概率密度函数 (Probability Density Function, \(f(x)\))。该函数描述了随机变量取某个特定值的相对可能性。
可以将 PDF 想象成一座小山的轮廓。山的高度 (\(f(x)\)) 显示了数值最容易聚集的地方。
PDF 的性质
为了使 \(f(x)\) 成为有效的 PDF,它必须满足两个基本性质:
1. 非负性
- 函数值绝不能为负,因为概率不可能为负。
- $$f(x) \ge 0 \quad \text{对所有 } x \text{ 成立}$$
2. 总面积为 1
- 整个图形下方的总面积必须等于 1(或 100%),因为随机变量必须取到某个值。
- $$\int_{-\infty}^{\infty} f(x) \, dx = 1$$
- 在实际应用中,由于 \(f(x)\) 通常是在特定区间 \([a, b]\) 上定义的,这简化为: $$\int_{a}^{b} f(x) \, dx = 1$$
温馨提示:此性质通常用于求函数定义中的未知常数 \(k\)(例如 \(f(x) = kx^2\))。
3. 计算概率(积分的力量)
连续型随机变量 \(X\) 落在两个值 \(a\) 和 \(b\) 之间的概率,等于该区间内 PDF 曲线下方的面积。
概率计算公式
$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$
计算步骤
若已知 \(f(x)\) 并求 \(P(a < X < b)\):
- 确定界限: 找出下限 \(a\) 和上限 \(b\)。
- 列出积分式: 写出定积分 \(\int_{a}^{b} f(x) \, dx\)。
- 积分: 计算积分(利用纯数学中的积分法则,包括必要时的换元法,尽管在该部分很少用到复杂的 P3 换元法)。
- 代入求值: 代入上限 \(b\) 和下限 \(a\) 计算最终概率。
避免常见错误: 计算概率时,务必确保积分限 \((a, b)\) 落在 \(f(x)\) 的定义域内。如果变量只在 0 到 5 之间存在,积分积到 10 是没有意义的!
关键点: 通过对 PDF 在指定区间上进行积分(求面积)来获得概率。
4. 寻找位置与离散程度的度量
像处理离散变量一样,我们需要均值和方差来了解分布的中心和离散程度。
A. 均值(期望值), \(E(X)\)
均值 \(\mu\) 是 \(X\) 的期望值。
该公式将离散变量中的求和 \(\sum x P(X=x)\) 替换为积分:
$$E(X) = \mu = \int_{-\infty}^{\infty} x f(x) \, dx$$
如果函数仅在 \(a\) 到 \(b\) 之间定义:
$$E(X) = \int_{a}^{b} x f(x) \, dx$$
记忆助手:求均值时,对 x 乘以函数本身 (\(x \cdot f(x)\)) 进行积分。
B. 方差, \(Var(X)\)
方差衡量了数据围绕均值的离散程度。使用标准公式:
$$Var(X) = E(X^2) - [E(X)]^2$$
首先,你必须通过积分计算出 \(E(X^2)\):
$$E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) \, dx$$
然后,将此值和你之前计算出的均值 \(E(X)\) 代入方差公式。
关键点: 均值和方差的计算分别需要对 \(x f(x)\) 和 \(x^2 f(x)\) 进行积分。积分完成后,记得善用计算器完成后续的算术运算!
5. 寻找中位数和百分位数
中位数和百分位数用于定位分布中的特定点,通常需要解一个包含积分的方程。
A. 中位数, \(m\)
中位数 (\(m\)) 是将分布平分为两半的值。一半的概率质量在其下方,另一半在其上方。
因此,要求中位数 \(m\),需解以下方程:
$$\int_{Domain_{start}}^{m} f(x) \, dx = 0.5$$
示例:如果函数在 0 到 4 之间定义,则寻找 \(m\) 使得 \(\int_{0}^{m} f(x) \, dx = 0.5\)。
B. 百分位数
第 \(p\) 百分位数 (\(k\)) 是指有 \(p\%\) 的分布位于其下方的值。
要求代表第 \(p\) 百分位数的 \(k\) 值(例如第 90 百分位数,即 \(p=90\)),需解:
$$\int_{Domain_{start}}^{k} f(x) \, dx = \frac{p}{100}$$
你知道吗?中位数其实就是第 50 百分位数!
☞ 示例:寻找第 90 百分位数
如果 \(X\) 定义在 \(x > 0\),需要求第 90 百分位数 \(k\):
$$P(X < k) = 0.9$$
设置积分式:\(\int_{0}^{k} f(x) \, dx = 0.9\)。然后进行积分,代入 \(k\) 和 0,最后解出 \(k\) 的值。
关键点: 寻找中位数和百分位数时,将面积积分设为对应的概率值(中位数设为 0.5),然后解出积分的上限。
6. 公式快速回顾 (MF19 参考)
以下是你在考试中必须掌握的 CRV 关键公式,摘自你的公式手册 (MF19, 概率与统计部分):
连续型随机变量
期望值 (均值):
$$E(X) = \int x f(x) \, dx$$
方差:
$$Var(X) = \int x^2 f(x) \, dx - \{E(X)\}^2$$
记住,任何 PDF \(f(x)\) 的绝对前提是总面积必须为 1:
$$\int f(x) \, dx = 1$$
该课题的学习成功与否很大程度上取决于准确的积分计算以及解方程的能力。在设置积分限时一定要细心!
最终鼓励: 你在纯数学中已经掌握了积分,这一章仅仅是在概率的背景下告诉你积分什么以及为什么要积分。继续练习你的积分计算吧!