单元 S2:统计学 2 – 连续型随机变量
你好,统计学爱好者!开启连续型分布的学习之旅
欢迎来到 S2 模块中最基础的章节之一:连续型随机变量 (Continuous Random Variables, CRVs)。如果那些涉及积分的公式让你感到头疼,不用担心——本章的本质其实就是运用你的微积分技巧(积分与微分)来解决概率问题!我们现在要跨越简单的计数(离散变量),开始测量时间、高度和温度等连续性指标。
为什么这很重要? 现实世界中的现象往往无法被归入整齐的计数箱中。如果你测量电池的寿命,它可能是 100.5 小时、100.51 小时或 100.5103 小时。连续型随机变量 (CRVs) 能帮助我们准确地建模这些情况。
1. 理解连续型随机变量 (CRVs)
什么是连续型变量?
一个随机变量,我们记作 \(X\),如果是连续的,意味着它可以在指定的范围内(区间)取任何值。与离散变量不同(离散变量中 \(X\) 只能取 0, 1, 2, 3...),CRV 在任意两点之间可以取无限多个值。
示例: 顾客在排队时等待的时间 \(T\)。\(T\) 可以是 2 分钟、2.3 分钟、2.3001 分钟等。
关键区别:单点概率
这是一个学生经常感到困惑的核心概念:
由于存在无限多个可能值,连续型变量取任意精确特定值的概率总是零。
$$P(X = x) = 0$$
类比: 想象一下试图击中长线上一个极小的点。击中那个精确、无限小位置的机会是零。
这对计算意味着什么:
$$P(a < X < b) = P(a \leq X \leq b) = P(a < X \leq b)$$
是否包含端点并不重要,因为 \(P(X=a)=0\) 且 \(P(X=b)=0\)。
核心结论: CRVs 处理的是区间,概率是通过测量曲线下的面积而非对单个点求和得到的。
2. 概率密度函数 (PDF), \(f(x)\)
因为我们无法为单个点分配概率,所以我们使用函数 \(f(x)\) 来描述概率如何在可能值的范围内分布。这就是概率密度函数 (Probability Density Function, PDF)。
有效 PDF 的性质
对于任何函数 \(f(x)\),要成为随机变量 \(X\) 的有效 PDF,必须满足:
- 非负性: 函数在其定义域内的任何 \(x\) 值处都不得为负。(概率不可能为负!)
$$f(x) \geq 0 \text{ 对所有 } x \text{ 成立}$$ - 总面积为一: 曲线下的总面积必须等于 1(代表所有可能结果的 100%)。
$$\int_{-\infty}^{\infty} f(x) dx = 1$$ 注意:由于大多数 PDF 仅在特定区间(例如 \([a, b]\))内定义,这通常简化为: $$\int_{a}^{b} f(x) dx = 1$$
使用 PDF 计算概率
在 \(a\) 和 \(b\) 之间取值的概率就是 PDF 曲线在这些限制范围下的面积。
$$P(a < X < b) = \int_{a}^{b} f(x) dx$$
分步示例:求常数 'k'
假设 PDF 定义为 \(f(x) = kx\),且 \(0 \leq x \leq 2\),其他情况为 0。
- 应用总面积规则: 定义区间上的积分必须等于 1。
- $$\int_{0}^{2} kx \ dx = 1$$
- 积分: $$ \left[ \frac{kx^2}{2} \right]_{0}^{2} = 1 $$
- 代入限值: $$ \left( \frac{k(2)^2}{2} \right) - \left( \frac{k(0)^2}{2} \right) = 1 $$ $$ 2k - 0 = 1 $$
- 求解 k: $$ k = \frac{1}{2} $$
你知道吗? 概率密度的概念正是我们使用积分的原因。积分是专门用于测量曲线下方面积的数学工具!
常见错误: 忘记检查积分限值。在进行计算时,务必使用 PDF 定义的特定限值。
核心结论: PDF, \(f(x)\) 告诉我们分布的形状。概率即面积,通过积分计算得出。
3. 累积分布函数 (CDF), \(F(x)\)
累积分布函数 (Cumulative Distribution Function, CDF), \(F(x)\),给出了随机变量 \(X\) 小于或等于特定值 \(x\) 的概率。
$$F(x) = P(X \leq x)$$
根据 PDF 计算 CDF
要找到 \(F(x)\),你需要将 PDF \(f(t)\) 从可能的最小值积分到点 \(x\)。我们使用 \(t\) 作为积分变量,以避免与限值 \(x\) 混淆。
$$F(x) = \int_{\text{最小值}}^{x} f(t) dt$$
重要要求:分段定义 \(F(x)\)
CDF 必须为所有实数定义,因此通常需要三部分:
- $$F(x) = 0 \text{,当 } x < \text{下界时}$$
- $$F(x) = \int f(t) dt \text{,当 } \text{下界} \leq x \leq \text{上界时}$$
- $$F(x) = 1 \text{,当 } x > \text{上界时}$$
使用 CDF 求概率
如果你已有 CDF,计算区间概率会快得多,通常无需再次积分:
$$P(a < X < b) = F(b) - F(a)$$
逆过程:从 CDF 到 PDF
由于 CDF 是 PDF 的积分,那么 PDF 必须是 CDF 的导数!
$$f(x) = \frac{d}{dx} F(x) = F'(x)$$
技巧: 记住积分(求 CDF)和微分(求 PDF)是互逆运算,就像在纯数学中一样。
核心结论: CDF 是概率的运行总量。它总是从 0 开始,到 1 结束。
4. 位置度量(众数、中位数、均值)
这些指标告诉我们分布的中心或峰值在哪里。
4.1 众数 (Mode)
众数是概率密度函数 \(f(x)\) 达到最大值时的 \(x\) 值(曲线的峰值)。
- 如果 \(f(x)\) 是简单函数(如二次或三次函数),通过令一阶导数为零 \(f'(x) = 0\) 来找到众数,并确认它是范围内的最大值。
- 如果 \(f(x)\) 是分段函数(在不同范围内由不同函数定义),你必须检查边界处以及函数定义域内的最大值。
4.2 中位数 (Median, \(m\))
中位数是平分分布的那个值 \(m\)。50% 的概率位于 \(m\) 以下,50% 位于 \(m\) 以上。
我们通过求解以下方程之一来找到中位数 \(m\):
- 使用 CDF:$$F(m) = 0.5$$
- 使用 PDF:$$\int_{\text{下界}}^{m} f(x) dx = 0.5$$
不必担心! 如果你已经计算出 CDF,使用它通常会更快。
4.3 均值(期望值, \(E[X]\))
均值,即期望值 (\(E[X]\) 或 \(\mu\)),是分布的“质心”。它是所有可能值的加权平均,权重由密度 \(f(x)\) 决定。
均值公式为:
$$E[X] = \mu = \int_{-\infty}^{\infty} x f(x) dx$$
函数的期望值
如果你需要求 \(X\) 的某个函数 \(g(X)\)(如 \(X^2\) 或 \(3X+5\))的期望值,通用公式为:
$$E[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) dx$$
记忆辅助 (针对 E[X]): 请记住,对于离散变量,\(E[X] = \sum x P(X=x)\)。对于连续变量,求和符号 (\(\sum\)) 变成了积分符号 (\(\int\)),而 \(P(X=x)\) 变成了 \(f(x) dx\)。你只需将 \(x\) 插入积分内部,与 \(f(x)\) 并列即可。
核心结论: 位置度量通过微分(众数)、令 CDF 等于 0.5(中位数)或对 \(x f(x)\) 积分(均值)求得。
5. 离散度度量(方差和标准差)
这些指标告诉我们分布围绕均值的离散程度。
5.1 方差 (\(\text{Var}[X]\))
方差是观测值与均值之差的平方的平均值。计算方差通常包括两个步骤:
- 求 \(E[X]\)(均值,\(\mu\))。
- 求 \(E[X^2]\)。
步骤 1:计算 \(E[X^2]\)
使用期望值的通用公式,令 \(g(x) = x^2\):
$$E[X^2] = \int_{-\infty}^{\infty} x^2 f(x) dx$$
步骤 2:应用公式
我们使用方差的计算公式(这比对 \((x-\mu)^2 f(x)\) 积分要容易得多):
$$\text{Var}[X] = E[X^2] - (E[X])^2$$
或
$$\text{Var}[X] = \left( \int x^2 f(x) dx \right) - \mu^2$$
5.2 标准差 (\(\sigma\))
标准差仅仅是方差的平方根。它更受偏好,因为它与 \(X\) 和均值 \(\mu\) 的测量单位相同。
$$\sigma = \sqrt{\text{Var}[X]}$$
快速回顾:计算方差的步骤
- 通过积分 \(x f(x)\) 计算 \(\mu = E[X]\)。
- 通过积分 \(x^2 f(x)\) 计算 \(E[X^2]\)。
- 计算 \(\text{Var}[X] = E[X^2] - (E[X])^2\)。
重要提示: 不要对中间数值进行四舍五入!保留 \(E[X]\) 和 \(E[X^2]\) 的分数或精确小数,直到最后一步,以确保最终方差答案的准确性。
核心结论: 离散程度通过方差测量,这需要利用密度函数求出 \(E[X]\) 和 \(E[X^2]\)。
6. 核心技能总结(微积分工具箱)
连续型随机变量完全依赖于在统计框架内运用微积分技能。请确保你对以下操作感到得心应手:
| 目标 | 数学运算 | 微积分联系 |
|---|---|---|
| 求概率 \(P(a < X < b)\) | PDF 下的面积 | 积分 \(\int_{a}^{b} f(x) dx\) |
| 求 CDF \(F(x)\) | 累积面积 | 积分 \(\int_{\text{下界}}^{x} f(t) dt\) |
| 求 PDF \(f(x)\) | CDF 的变化率 | 微分 \(F'(x)\) |
| 求均值 \(E[X]\) | 加权积分 | 积分 \(\int x f(x) dx\) |
| 求众数 | 密度峰值 | 微分 \(f'(x) = 0\) |
坚持练习你的积分技巧,特别是涉及多项式的积分(这在本单元的 PDF 中非常常见!)。你可以做到的!