Continuous random variables

连续随机变量：学习笔记（9231 Further Probability & Statistics）

欢迎来到连续随机变量 (CRVs) 的迷人世界！在你之前的统计学课程 (9709) 中，你主要关注的是离散变量（比如计数事件发生的次数）。现在，我们要深入研究那些在一定范围内可以取“任意”值的变量——例如时间、高度或温度等测量值。

本章至关重要，因为它不仅涵盖了标准分布（如正态分布），还教你如何利用微积分（积分与微分）处理自定义概率模型。如果一开始觉得有点难，别担心；我们会将微积分拆解成简单、清晰的步骤！

1. 理解连续随机变量 (CRVs)

连续随机变量 (CRV)，通常记作 $X$，是指可以在指定区间内取任何值的变量。
例子：电脑启动所需的精确时间（秒）。它可以是 15.00 秒，15.01 秒，或者 15.0000001 秒。

为什么 CRV 与离散变量不同

对于离散变量，我们可以求 $P(X = x)$。
对于 CRV，取到一个精确值的概率始终为零：$P(X = a) = 0$。
类比：想象一根 1 米长的连续绳子。随机选中的一个点正好落在 0.5000000... 位置的概率是多少？是零，因为该点周围有无数个点。
因此，我们只讨论区间上的概率，例如 $P(a < X < b)$。

小贴士： 因为 $P(X=a)=0$，所以是否包含等号不会改变概率值：
$P(a < X < b) = P(a \leq X \leq b) = P(a < X \leq b)$

2. 概率密度函数 (PDF)

由于我们无法为单个点指定概率，我们使用一种称为概率密度函数 (PDF) 的函数，记作 $f(x)$。该函数描述了变量落在某个范围内的“可能性”。

PDF $f(x)$ 的性质

一个函数要成为有效的 PDF，必须满足两个基本准则：

非负性： 密度函数不能为负。
$$f(x) \geq 0 \text{ 对于所有的 } x$$
总面积为一： 所有可能结果的总概率必须等于 1（即 100%）。这通过对整个定义域进行积分来求得。
$$\int_{-\infty}^{\infty} f(x) dx = 1$$

关于分段函数的说明： 通常，CRV 使用分段函数定义，这意味着 PDF 仅在特定范围 $[a, b]$ 内存在，在该范围外 $f(x) = 0$。
在这种情况下，总概率规则简化为：
$$\int_{a}^{b} f(x) dx = 1$$

步骤解析：求概率 $P(a < X < b)$

$X$ 落在 $a$ 和 $b$ 之间的概率就是 PDF 曲线在这些点之间的面积。

确定区间： 明确所需的范围 $[a, b]$。
积分： 在该范围内对 PDF 进行定积分计算。
$$P(a < X < b) = \int_{a}^{b} f(x) dx$$

核心要点： PDF 利用积分将概率定义为曲线下的面积。切记总面积必须精确等于 1。

3. 累积分布函数 (CDF)

累积分布函数 (CDF)，记作 $F(x)$，给出了随机变量 $X$ 小于或等于某个值 $x$ 的概率。

$$\text{定义：} F(x) = P(X \leq x)$$

PDF 与 CDF 之间的关系（微积分应用）

由于 CDF 衡量的是截至 $x$ 的累积概率，因此它可以通过积分 PDF 得到：

$$F(x) = \int_{-\infty}^{x} f(t) dt$$

相反，如果你拥有 CDF 并需要 PDF，则求导：

$$f(x) = \frac{d}{dx} F(x)$$

记忆小技巧： 联想字母顺序：C (CDF) 在 P (PDF) 之前。积分意味着“向上”移动（幂次增加），微分意味着“向下”移动（幂次减少）。你对 PDF 积分得到 CDF，对 CDF 微分得到 PDF。

CDF $F(x)$ 的性质

如果变量 $X$ 的定义范围为 $[a, b]$：

下限： $F(a) = 0$（小于起始点的概率为零）。
上限： $F(b) = 1$（小于终点的概率为一）。
非递减： $F(x)$ 必须始终增加或保持不变（永远不会下降）。

利用 CDF 计算概率：
如果你已有 CDF，则无需积分即可直接计算 $P(a < X < b$：
$$P(a < X < b) = F(b) - F(a)$$

你知道吗？ 在许多专业统计软件中，CDF 的使用远比 PDF 频繁，因为它能直接提供累积概率值，更易于解读。

4. 百分位数与位置度量

百分位数（或四分位数）是将概率分布划分为特定比例的值。

第 $p$ 百分位数是指满足 $X$ 小于或等于该值的概率为 $p$ 的值 $k$。

$$\text{数学表示：} F(k) = p$$

关键百分位数

中位数 ($m$)： 第 50 百分位数。即 $F(m) = 0.5$ 时的值 $m$。一半的数据位于其下方，另一半位于上方。
下四分位数 ($Q_1$)： 第 25 百分位数，即 $F(Q_1) = 0.25$。
上四分位数 ($Q_3$)： 第 75 百分位数，即 $F(Q_3) = 0.75$。

步骤解析：求中位数

建立积分： 通过解以下方程求中位数 $m$：
$$\int_{-\infty}^{m} f(x) dx = 0.5$$
或者使用 CDF： 如果你已经计算出 CDF $F(x)$，只需解：
$$F(m) = 0.5$$

5. 期望（均值与方差）

期望值或均值，记作 $E(X)$ 或 $\mu$，是变量的长期平均值。

X 的期望值（均值）

对于 CRV，离散变量中的求和符号被积分取代：

$$\mu = E(X) = \int_{-\infty}^{\infty} x f(x) dx$$

X 的方差

方差 $Var(X)$ 衡量分布围绕均值的离散程度。我们使用标准公式，但用积分来计算期望：

$$Var(X) = E(X^2) - [E(X)]^2$$

其中 $E(X^2)$ 使用以下通用公式计算：

进阶数学核心概念：函数的期望值

这是 Paper 4 的关键点。如果 $g(X)$ 是随机变量 $X$ 的任意函数，其期望值可以通过将积分中的 $x$ 替换为 $g(x)$ 来获得。

$$\mathbf{E(g(X))} = \int_{-\infty}^{\infty} \mathbf{g(x)} f(x) dx$$

例子：要计算 $E(X^2)$，我们设 $g(x) = x^2$：
$$E(X^2) = \int x^2 f(x) dx$$ 例子：如果你需要计算某种物品的预期成本，且其价格由公式 $C = 5X + 10$ 决定，你会计算 $E(5X + 10) = \int (5x + 10) f(x) dx$。

避免常见错误： 在计算方差时，学生经常忘记在公式 $[E(X)]^2$ 中对 *最终* 的均值进行平方。请确保先计算 $E(X)$，再计算 $E(X^2)$，最后应用方差公式。

6. 连续随机变量的函数（进阶步骤）

在进阶数学中，你需要能够求出新变量 $Y = g(X)$ 的分布（包括 CDF 和 PDF）。

最可靠的方法是先求 Y 的 CDF，$F_Y(y)$，然后对其微分得到 Y 的 PDF，$f_Y(y)$。

步骤解析：求 $Y = g(X)$ 的分布

定义 Y 的 CDF： 从定义出发：
$$F_Y(y) = P(Y \leq y)$$
代入并与 X 关联： 将 $Y$ 替换为函数 $g(X)$：
$$F_Y(y) = P(g(X) \leq y)$$
解出 X： 重新排列不等式 $g(X) \leq y$ 以孤立 $X$。假设得到的不等式为 $X \leq h(y)$。
（如果函数 $g$ 是递减的，注意符号和方向！）
利用 X 的 CDF： 既然我们现在有了关于 $X$ 的概率陈述，就使用已知的 $X$ 的 CDF，$F_X(x)$：
$$F_Y(y) = P(X \leq h(y)) = F_X(h(y))$$
求 Y 的 PDF： 利用链式法则对 $F_Y(y)$ 关于 $y$ 求导：
$$f_Y(y) = \frac{d}{dy} F_Y(y)$$

简单例子：$Y = X^3$
假设 $X$ 是定义在 $x > 0$ 上的 CRV。我们要找 $Y$ 的 PDF。

$$F_Y(y) = P(Y \leq y)$$
$$F_Y(y) = P(X^3 \leq y)$$
解出 X：假设 $y>0$，这意味着 $X \leq y^{1/3}$。（此处 $h(y) = y^{1/3}$）
使用 $F_X$：$$F_Y(y) = F_X(y^{1/3})$$
微分得到 $f_Y(y)$：利用链式法则，$f_Y(y) = F'_X(y^{1/3}) \cdot \frac{d}{dy}(y^{1/3})$。
由于 $F'_X = f_X$，得到：
$$f_Y(y) = f_X(y^{1/3}) \cdot \frac{1}{3} y^{-2/3}$$

最后，将 $X$ 的具体 PDF $f_X(x)$ 代入此结果即可得到最终答案。

核心要点： 求 $X$ 函数的分布总是遵循同一个模式：CDF、代入、求解、微分。

本章总结：连续随机变量

PDF $f(x)$： 定义概率密度。必须满足 $\geq 0$ 且 $\int f(x) dx = 1$。
概率： $P(a < X < b) = \int_a^b f(x) dx$。
CDF $F(x)$： 累积概率：$F(x) = \int_{-\infty}^{x} f(t) dt$。
微积分联系： $f(x) = F'(x)$。
期望： 求函数期望值的通用公式为：
$$E(g(X)) = \int g(x) f(x) dx$$
CRV 的函数： 通过将不等式 $Y \leq y$ 回归到 $X$ 来求 $F_Y(y)$，然后对 $F_Y(y)$ 微分得到 $f_Y(y)$。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。