连续随机变量:学习笔记(9231 Further Probability & Statistics)
欢迎来到连续随机变量 (CRVs) 的迷人世界!在你之前的统计学课程 (9709) 中,你主要关注的是离散变量(比如计数事件发生的次数)。现在,我们要深入研究那些在一定范围内可以取“任意”值的变量——例如时间、高度或温度等测量值。
本章至关重要,因为它不仅涵盖了标准分布(如正态分布),还教你如何利用微积分(积分与微分)处理自定义概率模型。如果一开始觉得有点难,别担心;我们会将微积分拆解成简单、清晰的步骤!
1. 理解连续随机变量 (CRVs)
连续随机变量 (CRV),通常记作 \(X\),是指可以在指定区间内取任何值的变量。
例子:电脑启动所需的精确时间(秒)。它可以是 15.00 秒,15.01 秒,或者 15.0000001 秒。
为什么 CRV 与离散变量不同
- 对于离散变量,我们可以求 \(P(X = x)\)。
-
对于 CRV,取到一个精确值的概率始终为零:\(P(X = a) = 0\)。
类比:想象一根 1 米长的连续绳子。随机选中的一个点正好落在 0.5000000... 位置的概率是多少?是零,因为该点周围有无数个点。 - 因此,我们只讨论区间上的概率,例如 \(P(a < X < b)\)。
小贴士: 因为 \(P(X=a)=0\),所以是否包含等号不会改变概率值:
\(P(a < X < b) = P(a \leq X \leq b) = P(a < X \leq b)\)
2. 概率密度函数 (PDF)
由于我们无法为单个点指定概率,我们使用一种称为概率密度函数 (PDF) 的函数,记作 \(f(x)\)。该函数描述了变量落在某个范围内的“可能性”。
PDF \(f(x)\) 的性质
一个函数要成为有效的 PDF,必须满足两个基本准则:
-
非负性: 密度函数不能为负。
$$f(x) \geq 0 \text{ 对于所有的 } x$$ -
总面积为一: 所有可能结果的总概率必须等于 1(即 100%)。这通过对整个定义域进行积分来求得。
$$\int_{-\infty}^{\infty} f(x) dx = 1$$
关于分段函数的说明: 通常,CRV 使用分段函数定义,这意味着 PDF 仅在特定范围 \([a, b]\) 内存在,在该范围外 \(f(x) = 0\)。
在这种情况下,总概率规则简化为:
$$\int_{a}^{b} f(x) dx = 1$$
步骤解析:求概率 \(P(a < X < b)\)
\(X\) 落在 \(a\) 和 \(b\) 之间的概率就是 PDF 曲线在这些点之间的面积。
- 确定区间: 明确所需的范围 \([a, b]\)。
-
积分: 在该范围内对 PDF 进行定积分计算。
$$P(a < X < b) = \int_{a}^{b} f(x) dx$$
核心要点: PDF 利用积分将概率定义为曲线下的面积。切记总面积必须精确等于 1。
3. 累积分布函数 (CDF)
累积分布函数 (CDF),记作 \(F(x)\),给出了随机变量 \(X\) 小于或等于某个值 \(x\) 的概率。
$$\text{定义:} F(x) = P(X \leq x)$$PDF 与 CDF 之间的关系(微积分应用)
由于 CDF 衡量的是截至 \(x\) 的累积概率,因此它可以通过积分 PDF 得到:
$$F(x) = \int_{-\infty}^{x} f(t) dt$$相反,如果你拥有 CDF 并需要 PDF,则求导:
$$f(x) = \frac{d}{dx} F(x)$$记忆小技巧: 联想字母顺序:C (CDF) 在 P (PDF) 之前。积分意味着“向上”移动(幂次增加),微分意味着“向下”移动(幂次减少)。你对 PDF 积分得到 CDF,对 CDF 微分得到 PDF。
CDF \(F(x)\) 的性质
如果变量 \(X\) 的定义范围为 \([a, b]\):
- 下限: \(F(a) = 0\)(小于起始点的概率为零)。
- 上限: \(F(b) = 1\)(小于终点的概率为一)。
- 非递减: \(F(x)\) 必须始终增加或保持不变(永远不会下降)。
利用 CDF 计算概率:
如果你已有 CDF,则无需积分即可直接计算 \(P(a < X < b\):
$$P(a < X < b) = F(b) - F(a)$$
你知道吗? 在许多专业统计软件中,CDF 的使用远比 PDF 频繁,因为它能直接提供累积概率值,更易于解读。
4. 百分位数与位置度量
百分位数(或四分位数)是将概率分布划分为特定比例的值。
第 \(p\) 百分位数是指满足 \(X\) 小于或等于该值的概率为 \(p\) 的值 \(k\)。
$$\text{数学表示:} F(k) = p$$关键百分位数
- 中位数 (\(m\)): 第 50 百分位数。即 \(F(m) = 0.5\) 时的值 \(m\)。一半的数据位于其下方,另一半位于上方。
- 下四分位数 (\(Q_1\)): 第 25 百分位数,即 \(F(Q_1) = 0.25\)。
- 上四分位数 (\(Q_3\)): 第 75 百分位数,即 \(F(Q_3) = 0.75\)。
步骤解析:求中位数
-
建立积分: 通过解以下方程求中位数 \(m\):
$$\int_{-\infty}^{m} f(x) dx = 0.5$$ -
或者使用 CDF: 如果你已经计算出 CDF \(F(x)\),只需解:
$$F(m) = 0.5$$
5. 期望(均值与方差)
期望值或均值,记作 \(E(X)\) 或 \(\mu\),是变量的长期平均值。
X 的期望值(均值)
对于 CRV,离散变量中的求和符号被积分取代:
$$\mu = E(X) = \int_{-\infty}^{\infty} x f(x) dx$$X 的方差
方差 \(Var(X)\) 衡量分布围绕均值的离散程度。我们使用标准公式,但用积分来计算期望:
$$Var(X) = E(X^2) - [E(X)]^2$$其中 \(E(X^2)\) 使用以下通用公式计算:
进阶数学核心概念:函数的期望值
这是 Paper 4 的关键点。如果 \(g(X)\) 是随机变量 \(X\) 的任意函数,其期望值可以通过将积分中的 \(x\) 替换为 \(g(x)\) 来获得。
$$\mathbf{E(g(X))} = \int_{-\infty}^{\infty} \mathbf{g(x)} f(x) dx$$
例子:要计算 \(E(X^2)\),我们设 \(g(x) = x^2\):
$$E(X^2) = \int x^2 f(x) dx$$
例子:如果你需要计算某种物品的预期成本,且其价格由公式 \(C = 5X + 10\) 决定,你会计算 \(E(5X + 10) = \int (5x + 10) f(x) dx\)。
避免常见错误: 在计算方差时,学生经常忘记在公式 \([E(X)]^2\) 中对 *最终* 的均值进行平方。请确保先计算 \(E(X)\),再计算 \(E(X^2)\),最后应用方差公式。
6. 连续随机变量的函数(进阶步骤)
在进阶数学中,你需要能够求出新变量 \(Y = g(X)\) 的分布(包括 CDF 和 PDF)。
最可靠的方法是先求 Y 的 CDF,\(F_Y(y)\),然后对其微分得到 Y 的 PDF,\(f_Y(y)\)。
步骤解析:求 \(Y = g(X)\) 的分布
-
定义 Y 的 CDF: 从定义出发:
$$F_Y(y) = P(Y \leq y)$$ -
代入并与 X 关联: 将 \(Y\) 替换为函数 \(g(X)\):
$$F_Y(y) = P(g(X) \leq y)$$ -
解出 X: 重新排列不等式 \(g(X) \leq y\) 以孤立 \(X\)。假设得到的不等式为 \(X \leq h(y)\)。
(如果函数 \(g\) 是递减的,注意符号和方向!) -
利用 X 的 CDF: 既然我们现在有了关于 \(X\) 的概率陈述,就使用已知的 \(X\) 的 CDF,\(F_X(x)\):
$$F_Y(y) = P(X \leq h(y)) = F_X(h(y))$$ -
求 Y 的 PDF: 利用链式法则对 \(F_Y(y)\) 关于 \(y\) 求导:
$$f_Y(y) = \frac{d}{dy} F_Y(y)$$
简单例子:\(Y = X^3\)
假设 \(X\) 是定义在 \(x > 0\) 上的 CRV。我们要找 \(Y\) 的 PDF。
- $$F_Y(y) = P(Y \leq y)$$
- $$F_Y(y) = P(X^3 \leq y)$$
- 解出 X:假设 \(y>0\),这意味着 \(X \leq y^{1/3}\)。(此处 \(h(y) = y^{1/3}\))
- 使用 \(F_X\):$$F_Y(y) = F_X(y^{1/3})$$
-
微分得到 \(f_Y(y)\):利用链式法则,\(f_Y(y) = F'_X(y^{1/3}) \cdot \frac{d}{dy}(y^{1/3})\)。
由于 \(F'_X = f_X\),得到:
$$f_Y(y) = f_X(y^{1/3}) \cdot \frac{1}{3} y^{-2/3}$$
最后,将 \(X\) 的具体 PDF \(f_X(x)\) 代入此结果即可得到最终答案。
核心要点: 求 \(X\) 函数的分布总是遵循同一个模式:CDF、代入、求解、微分。
本章总结:连续随机变量
- PDF \(f(x)\): 定义概率密度。必须满足 \(\geq 0\) 且 \(\int f(x) dx = 1\)。
- 概率: \(P(a < X < b) = \int_a^b f(x) dx\)。
- CDF \(F(x)\): 累积概率:\(F(x) = \int_{-\infty}^{x} f(t) dt\)。
- 微积分联系: \(f(x) = F'(x)\)。
-
期望: 求函数期望值的通用公式为:
$$E(g(X)) = \int g(x) f(x) dx$$ - CRV 的函数: 通过将不等式 \(Y \leq y\) 回归到 \(X\) 来求 \(F_Y(y)\),然后对 \(F_Y(y)\) 微分得到 \(f_Y(y)\)。