欢迎来到离散随机变量的世界!
你好,未来的高等数学学生!本章是你以结构化和数值化的方式理解随机性和概率的基石。虽然统计学看起来可能有些抽象,但离散随机变量 (Discrete Random Variables, DRVs) 能帮助我们预测并量化结果,这对于从风险评估到博弈论的各个领域都至关重要。
如果起初觉得有些棘手,不用担心。 我们现在只是在学习如何将现实世界中的不确定事件(比如投掷骰子或统计次品数量)转化为易于处理的数学函数。
第 1 节:定义离散随机变量
1.1 什么是随机变量?
随机变量 (Random Variable, RV) 就是一个由随机现象的结果所决定的变量。我们通常用大写字母来表示随机变量,例如 \(X\)、\(Y\) 或 \(Z\)。
- 随机变量所取的观测值通常用小写字母表示,例如 \(x\)。因此,\(P(X=x)\) 的意思是“随机变量 \(X\) 取特定值 \(x\) 的概率”。
1.2 离散与连续
在 S1 课程中,我们重点关注离散随机变量 (DRVs)。那么“离散”是什么意思呢?
离散随机变量只能取可数个值。 这些值通常是整数。
- 离散的例子:
- 一小时内通过路口的汽车数量 (0, 1, 2, 3, ...)。
- 投掷一枚标准六面骰子所得的分数 (1, 2, 3, 4, 5, 6)。
- 投掷一枚硬币 10 次所得的正面向上的次数 (0, 1, 2, ..., 10)。
类比: 把离散随机变量想象成数弹珠。你只能拥有 1、2 或 3 个弹珠,而不可能是 2.5 个。(相比之下,连续随机变量,如身高或时间,可以在给定的范围内取任何值。)
快速回顾:关键术语
- 随机变量 (X): 随机事件的数值结果。
- 离散: 可取值是可数的,通常为整数。
第 2 节:概率分布 (PMF/PDF)
2.1 定义概率分布
概率分布(有时称为概率质量函数,PMF,或概率分布函数,PDF)告诉我们离散随机变量可以取的所有值,以及观察到每个值的概率。
它可以通过表格、图表(垂直线图)或公式来表示。
基本性质:
由于该列表涵盖了所有可能的结果,因此所有概率之和必须等于 1。
$$ \sum P(X=x) = 1 $$2.2 示例分布表
设 \(X\) 为随机变量,代表某台机器一周内的故障次数:
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | \(k\) |
分步讲解:求未知概率 (k)
- 我们知道所有概率之和必须为 1。
- \(0.15 + 0.40 + 0.35 + k = 1\)
- \(0.90 + k = 1\)
- \(k = 1 - 0.90 = 0.10\)
2.3 从分布中计算概率
一旦有了完整的分布,你就可以轻松计算组合概率:
- \(P(X=2) = 0.35\) (直接从表中读取)
- \(P(X \ge 2) = P(X=2) + P(X=3) = 0.35 + 0.10 = 0.45\)
- \(P(X < 3) = P(X=0) + P(X=1) + P(X=2) = 0.15 + 0.40 + 0.35 = 0.90\)
记忆技巧: 处理不等式(\(\le\)、\(\ge\)、\(<\)、\(>\))时,请记住端点是否包含在内。由于 \(X\) 是离散的,在此例中 \(P(X \le 2)\) 与 \(P(X < 3)\) 虽然包含相同的取值(0, 1, 2),但其含义和表示是不同的。请务必精确!
关键点总结
概率分布是核心工具。一定要时刻验证 \(\sum P(X=x) = 1\)。
第 3 节:累积分布函数 (CDF)
有时我们对随机变量小于或等于某个值的概率感兴趣。这时就需要用到累积分布函数 (CDF)。
3.1 F(x) 的定义
CDF 用 \(F(x)\) 表示,定义如下:
$$ F(x) = P(X \le x) = \sum_{t \le x} P(X=t) $$它仅仅是到给定值 \(x\) 为止的概率累计总和。
3.2 构建 CDF
使用之前的机器故障例子(其中 P(3) = 0.10):
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | 0.10 |
| \(F(x) = P(X \le x)\) | 0.15 | 0.55 | 0.90 | 1.00 |
验证: \(F(2) = P(X \le 2) = P(0) + P(1) + P(2) = 0.15 + 0.40 + 0.35 = 0.90\)
3.3 使用 CDF
CDF 对于快速计算概率极其有用,尤其是涉及补集法则时:
- 计算 P(X > x): 使用补集法则。 $$ P(X > x) = 1 - P(X \le x) = 1 - F(x) $$ 示例: \(P(X > 1) = 1 - F(1) = 1 - 0.55 = 0.45\)。 (验证:\(P(2) + P(3) = 0.35 + 0.10 = 0.45\)。 结果一致!)
- 计算 P(a < X \le b): $$ P(a < X \le b) = F(b) - F(a) $$ 示例: \(P(1 < X \le 3) = F(3) - F(1) = 1.00 - 0.55 = 0.45\)。
常见错误警示!
由于 \(X\) 是离散的,处理严格不等式时要格外小心:
- \(P(X < 3)\) 意味着 \(P(X \le 2)\),即 \(F(2)\)。
- \(P(X \le 3)\) 意味着 \(F(3)\)。
- \(P(X > 3)\) 意味着 \(P(X \ge 4)\)。如果最大取值是 3,则该概率为 0。
第 4 节:集中趋势的度量(期望)
如果我们运行这个随机实验很多很多次,平均结果会是多少?这就是随机变量的期望值或均值。
4.1 期望(均值),\(E(X)\)
期望值,用 \(E(X)\) 或 \(\mu\) (mu) 表示,是一种加权平均值,每个可能的结果都由其概率加权。
$$ E(X) = \mu = \sum x P(X=x) $$类比: 想象一下你在某门课中的成绩,各项测试的权重不同。你将每个测试分数乘以它的权重(概率)并相加,得到最终的加权平均分(期望值)。
分步讲解:计算 E(X)
使用之前的机器故障例子:
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | 0.10 |
| \(x P(X=x)\) | \(0 \times 0.15 = 0\) | \(1 \times 0.40 = 0.40\) | \(2 \times 0.35 = 0.70\) | \(3 \times 0.10 = 0.30\) |
$$ E(X) = 0 + 0.40 + 0.70 + 0.30 = 1.40 $$
解释: 从长远来看,公司预计每周会有 1.4 次机器故障。
4.2 X 函数的期望,\(E(g(X))\)
有时你需要计算 \(X\) 函数的期望值,例如 \(E(X^2)\) 或 \(E(3X-5)\)。原理是一样的:将 \(x\) 的函数乘以其概率。
$$ E(g(X)) = \sum g(x) P(X=x) $$例如,求 \(E(X^2)\):
| \(x\) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(x^2\) | 0 | 1 | 4 | 9 |
| \(P(X=x)\) | 0.15 | 0.40 | 0.35 | 0.10 |
| \(x^2 P(X=x)\) | \(0 \times 0.15 = 0\) | \(1 \times 0.40 = 0.40\) | \(4 \times 0.35 = 1.40\) | \(9 \times 0.10 = 0.90\) |
$$ E(X^2) = 0 + 0.40 + 1.40 + 0.90 = 2.70 $$
关键点总结
期望是加权均值。\(E(X) = \sum x P(X=x)\)。如果你需要 \(E(X^2)\),请先将 \(x\) 值平方,然后再乘以对应的概率。
第 5 节:离散程度的度量(方差和标准差)
均值告诉我们中心位置,但我们也需要知道可能值的分散程度。这是通过方差和标准差来衡量的。
5.1 方差,Var(X)
方差,用 \(\text{Var}(X)\) 或 \(\sigma^2\) 表示,衡量随机变量与其均值的平方差的期望。
方差有两个关键公式。第二个(计算公式)在考试中几乎总是更容易、更快地使用。
1. 定义公式:
$$ \text{Var}(X) = E((X - \mu)^2) = \sum (x - \mu)^2 P(X=x) $$2. 计算公式(你应该使用的公式!):
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$或者使用记号 \(\mu\):
$$ \text{Var}(X) = E(X^2) - \mu^2 $$分步讲解:计算 Var(X)
我们在第 4 节中已经计算了两个关键值:
- \(E(X) = \mu = 1.40\)
- \(E(X^2) = 2.70\)
现在,应用计算公式:
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$ $$ \text{Var}(X) = 2.70 - (1.40)^2 $$ $$ \text{Var}(X) = 2.70 - 1.96 $$ $$ \text{Var}(X) = 0.74 $$
你知道吗? 方差的单位是 (原单位)\(^2\)。由于单位被平方了,方差很难直接解读,这就是为什么我们通常会进一步求标准差。
5.2 标准差,\(\sigma\)
标准差 (\(\sigma\)) 仅仅是方差的平方根。它将衡量离散程度的单位还原为 \(X\) 的原始单位。
$$ \sigma = \sqrt{\text{Var}(X)} $$在我们的例子中:
$$ \sigma = \sqrt{0.74} \approx 0.860 \text{ (保留 3 位有效数字)} $$常见错误警示!
在使用公式 \(\text{Var}(X) = E(X^2) - [E(X)]^2\) 时,学生经常忘记对 \(E(X)\) 进行平方!请记住:它是“平方的期望”减去“期望的平方”。
快速回顾:方差助记词
VEX ME! (Variance = E of X squared Minus E of X, squared.)
第 6 节:编码与转换
如果我们改变随机变量会发生什么?例如,如果公司根据故障次数 \(X\) 支付费用?如果成本 \(C\) 的计算公式为 \(C = 5X + 10\),预期的成本会如何变化?这被称为编码或转换。
设 \(Y = aX + b\),其中 \(a\) 和 \(b\) 是常数。
6.1 期望的规则 \(E(Y)\)
期望是线性的。如果你对 \(X\) 进行转换,均值会以完全相同的方式移动和拉伸。
$$ E(aX + b) = a E(X) + b $$示例: 如果 \(E(X) = 1.40\),成本 \(C = 5X + 10\):
$$ E(C) = 5 E(X) + 10 = 5(1.40) + 10 = 7.00 + 10 = 17.00 $$
预期成本为 17 单位。
6.2 方差的规则 \(\text{Var}(Y)\)
方差衡量离散程度。加上一个常数 \(b\) 仅仅是平移了整个分布,但它并不改变数据分散的方式。因此,\(b\) 对方差没有影响。
乘以 \(a\) 会缩放分布,因此方差乘以 \(a^2\)。
$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$示例: 如果 \(\text{Var}(X) = 0.74\),成本 \(C = 5X + 10\):
$$ \text{Var}(C) = \text{Var}(5X + 10) $$
$$ \text{Var}(C) = 5^2 \text{Var}(X) = 25 \times 0.74 = 18.5 $$
规则总结:
| 运算 | 对期望 (E) 的影响 | 对方差 (Var) 的影响 |
|---|---|---|
| 加常数 (如 \(X+b\)) | 加上 \(b\) | 无变化 |
| 乘常数 (如 \(aX\)) | 乘以 \(a\) | 乘以 \(a^2\) |
给同学的小提示: 请记住,常数 \(b\) 只是固定费用或基数。如果每个人的分数都增加了 10 分(加上 \(b\)),平均分会增加 10 分,但分数之间的离散程度保持不变。
章节最终总结:三大公式
一定要背熟并随时准备使用这三个核心公式:
1. 期望(均值):
$$ E(X) = \sum x P(X=x) $$
2. 方差(计算形式):
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$
3. 方差的转换:
$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$
掌握了这些,你就精通了离散随机变量!