欢迎来到离散随机变量的世界!

你好,未来的高等数学学生!本章是你以结构化和数值化的方式理解随机性和概率的基石。虽然统计学看起来可能有些抽象,但离散随机变量 (Discrete Random Variables, DRVs) 能帮助我们预测并量化结果,这对于从风险评估到博弈论的各个领域都至关重要。

如果起初觉得有些棘手,不用担心。 我们现在只是在学习如何将现实世界中的不确定事件(比如投掷骰子或统计次品数量)转化为易于处理的数学函数。


第 1 节:定义离散随机变量

1.1 什么是随机变量?

随机变量 (Random Variable, RV) 就是一个由随机现象的结果所决定的变量。我们通常用大写字母来表示随机变量,例如 \(X\)、\(Y\) 或 \(Z\)。

  • 随机变量所取的观测值通常用小写字母表示,例如 \(x\)。因此,\(P(X=x)\) 的意思是“随机变量 \(X\) 取特定值 \(x\) 的概率”。

1.2 离散与连续

在 S1 课程中,我们重点关注离散随机变量 (DRVs)。那么“离散”是什么意思呢?

离散随机变量只能取可数个值。 这些值通常是整数。

  • 离散的例子:
    • 一小时内通过路口的汽车数量 (0, 1, 2, 3, ...)。
    • 投掷一枚标准六面骰子所得的分数 (1, 2, 3, 4, 5, 6)。
    • 投掷一枚硬币 10 次所得的正面向上的次数 (0, 1, 2, ..., 10)。

类比: 把离散随机变量想象成数弹珠。你只能拥有 1、2 或 3 个弹珠,而不可能是 2.5 个。(相比之下,连续随机变量,如身高或时间,可以在给定的范围内取任何值。)

快速回顾:关键术语
  • 随机变量 (X): 随机事件的数值结果。
  • 离散: 可取值是可数的,通常为整数。

第 2 节:概率分布 (PMF/PDF)

2.1 定义概率分布

概率分布(有时称为概率质量函数,PMF,或概率分布函数,PDF)告诉我们离散随机变量可以取的所有值,以及观察到每个值的概率。

它可以通过表格、图表(垂直线图)或公式来表示。

基本性质:

由于该列表涵盖了所有可能的结果,因此所有概率之和必须等于 1。

$$ \sum P(X=x) = 1 $$

2.2 示例分布表

设 \(X\) 为随机变量,代表某台机器一周内的故障次数:

\(x\) 0 1 2 3
\(P(X=x)\) 0.15 0.40 0.35 \(k\)
分步讲解:求未知概率 (k)
  1. 我们知道所有概率之和必须为 1。
  2. \(0.15 + 0.40 + 0.35 + k = 1\)
  3. \(0.90 + k = 1\)
  4. \(k = 1 - 0.90 = 0.10\)

2.3 从分布中计算概率

一旦有了完整的分布,你就可以轻松计算组合概率:

  • \(P(X=2) = 0.35\) (直接从表中读取)
  • \(P(X \ge 2) = P(X=2) + P(X=3) = 0.35 + 0.10 = 0.45\)
  • \(P(X < 3) = P(X=0) + P(X=1) + P(X=2) = 0.15 + 0.40 + 0.35 = 0.90\)

记忆技巧: 处理不等式(\(\le\)、\(\ge\)、\(<\)、\(>\))时,请记住端点是否包含在内。由于 \(X\) 是离散的,在此例中 \(P(X \le 2)\) 与 \(P(X < 3)\) 虽然包含相同的取值(0, 1, 2),但其含义和表示是不同的。请务必精确!

关键点总结

概率分布是核心工具。一定要时刻验证 \(\sum P(X=x) = 1\)。


第 3 节:累积分布函数 (CDF)

有时我们对随机变量小于或等于某个值的概率感兴趣。这时就需要用到累积分布函数 (CDF)

3.1 F(x) 的定义

CDF 用 \(F(x)\) 表示,定义如下:

$$ F(x) = P(X \le x) = \sum_{t \le x} P(X=t) $$

它仅仅是到给定值 \(x\) 为止的概率累计总和。

3.2 构建 CDF

使用之前的机器故障例子(其中 P(3) = 0.10):

\(x\) 0 1 2 3
\(P(X=x)\) 0.15 0.40 0.35 0.10
\(F(x) = P(X \le x)\) 0.15 0.55 0.90 1.00

验证: \(F(2) = P(X \le 2) = P(0) + P(1) + P(2) = 0.15 + 0.40 + 0.35 = 0.90\)

3.3 使用 CDF

CDF 对于快速计算概率极其有用,尤其是涉及补集法则时:

  • 计算 P(X > x): 使用补集法则。 $$ P(X > x) = 1 - P(X \le x) = 1 - F(x) $$ 示例: \(P(X > 1) = 1 - F(1) = 1 - 0.55 = 0.45\)。 (验证:\(P(2) + P(3) = 0.35 + 0.10 = 0.45\)。 结果一致!)
  • 计算 P(a < X \le b): $$ P(a < X \le b) = F(b) - F(a) $$ 示例: \(P(1 < X \le 3) = F(3) - F(1) = 1.00 - 0.55 = 0.45\)。
常见错误警示!

由于 \(X\) 是离散的,处理严格不等式时要格外小心:

  • \(P(X < 3)\) 意味着 \(P(X \le 2)\),即 \(F(2)\)。
  • \(P(X \le 3)\) 意味着 \(F(3)\)。
  • \(P(X > 3)\) 意味着 \(P(X \ge 4)\)。如果最大取值是 3,则该概率为 0。

第 4 节:集中趋势的度量(期望)

如果我们运行这个随机实验很多很多次,平均结果会是多少?这就是随机变量的期望值均值

4.1 期望(均值),\(E(X)\)

期望值,用 \(E(X)\) 或 \(\mu\) (mu) 表示,是一种加权平均值,每个可能的结果都由其概率加权。

$$ E(X) = \mu = \sum x P(X=x) $$

类比: 想象一下你在某门课中的成绩,各项测试的权重不同。你将每个测试分数乘以它的权重(概率)并相加,得到最终的加权平均分(期望值)。

分步讲解:计算 E(X)

使用之前的机器故障例子:

\(x\) 0 1 2 3
\(P(X=x)\) 0.15 0.40 0.35 0.10
\(x P(X=x)\) \(0 \times 0.15 = 0\) \(1 \times 0.40 = 0.40\) \(2 \times 0.35 = 0.70\) \(3 \times 0.10 = 0.30\)

$$ E(X) = 0 + 0.40 + 0.70 + 0.30 = 1.40 $$

解释: 从长远来看,公司预计每周会有 1.4 次机器故障。

4.2 X 函数的期望,\(E(g(X))\)

有时你需要计算 \(X\) 函数的期望值,例如 \(E(X^2)\) 或 \(E(3X-5)\)。原理是一样的:将 \(x\) 的函数乘以其概率。

$$ E(g(X)) = \sum g(x) P(X=x) $$

例如,求 \(E(X^2)\):

\(x\) 0 1 2 3
\(x^2\) 0 1 4 9
\(P(X=x)\) 0.15 0.40 0.35 0.10
\(x^2 P(X=x)\) \(0 \times 0.15 = 0\) \(1 \times 0.40 = 0.40\) \(4 \times 0.35 = 1.40\) \(9 \times 0.10 = 0.90\)

$$ E(X^2) = 0 + 0.40 + 1.40 + 0.90 = 2.70 $$

关键点总结

期望是加权均值。\(E(X) = \sum x P(X=x)\)。如果你需要 \(E(X^2)\),请先将 \(x\) 值平方,然后再乘以对应的概率。


第 5 节:离散程度的度量(方差和标准差)

均值告诉我们中心位置,但我们也需要知道可能值的分散程度。这是通过方差标准差来衡量的。

5.1 方差,Var(X)

方差,用 \(\text{Var}(X)\) 或 \(\sigma^2\) 表示,衡量随机变量与其均值的平方差的期望。

方差有两个关键公式。第二个(计算公式)在考试中几乎总是更容易、更快地使用。

1. 定义公式:

$$ \text{Var}(X) = E((X - \mu)^2) = \sum (x - \mu)^2 P(X=x) $$

2. 计算公式(你应该使用的公式!):

$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$

或者使用记号 \(\mu\):

$$ \text{Var}(X) = E(X^2) - \mu^2 $$
分步讲解:计算 Var(X)

我们在第 4 节中已经计算了两个关键值:

  • \(E(X) = \mu = 1.40\)
  • \(E(X^2) = 2.70\)

现在,应用计算公式:

$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$ $$ \text{Var}(X) = 2.70 - (1.40)^2 $$ $$ \text{Var}(X) = 2.70 - 1.96 $$ $$ \text{Var}(X) = 0.74 $$

你知道吗? 方差的单位是 (原单位)\(^2\)。由于单位被平方了,方差很难直接解读,这就是为什么我们通常会进一步求标准差。

5.2 标准差,\(\sigma\)

标准差 (\(\sigma\)) 仅仅是方差的平方根。它将衡量离散程度的单位还原为 \(X\) 的原始单位。

$$ \sigma = \sqrt{\text{Var}(X)} $$

在我们的例子中:

$$ \sigma = \sqrt{0.74} \approx 0.860 \text{ (保留 3 位有效数字)} $$
常见错误警示!

在使用公式 \(\text{Var}(X) = E(X^2) - [E(X)]^2\) 时,学生经常忘记对 \(E(X)\) 进行平方!请记住:它是“平方的期望”减去“期望的平方”。

快速回顾:方差助记词

VEX ME! (Variance = E of X squared Minus E of X, squared.)


第 6 节:编码与转换

如果我们改变随机变量会发生什么?例如,如果公司根据故障次数 \(X\) 支付费用?如果成本 \(C\) 的计算公式为 \(C = 5X + 10\),预期的成本会如何变化?这被称为编码转换

设 \(Y = aX + b\),其中 \(a\) 和 \(b\) 是常数。

6.1 期望的规则 \(E(Y)\)

期望是线性的。如果你对 \(X\) 进行转换,均值会以完全相同的方式移动和拉伸。

$$ E(aX + b) = a E(X) + b $$

示例: 如果 \(E(X) = 1.40\),成本 \(C = 5X + 10\):
$$ E(C) = 5 E(X) + 10 = 5(1.40) + 10 = 7.00 + 10 = 17.00 $$ 预期成本为 17 单位。

6.2 方差的规则 \(\text{Var}(Y)\)

方差衡量离散程度。加上一个常数 \(b\) 仅仅是平移了整个分布,但它并改变数据分散的方式。因此,\(b\) 对方差没有影响。

乘以 \(a\) 会缩放分布,因此方差乘以 \(a^2\)。

$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$

示例: 如果 \(\text{Var}(X) = 0.74\),成本 \(C = 5X + 10\):
$$ \text{Var}(C) = \text{Var}(5X + 10) $$ $$ \text{Var}(C) = 5^2 \text{Var}(X) = 25 \times 0.74 = 18.5 $$

规则总结:

运算 对期望 (E) 的影响 对方差 (Var) 的影响
加常数 (如 \(X+b\)) 加上 \(b\) 无变化
乘常数 (如 \(aX\)) 乘以 \(a\) 乘以 \(a^2\)

给同学的小提示: 请记住,常数 \(b\) 只是固定费用或基数。如果每个人的分数都增加了 10 分(加上 \(b\)),平均分会增加 10 分,但分数之间的离散程度保持不变。


章节最终总结:三大公式

一定要背熟并随时准备使用这三个核心公式:

1. 期望(均值):
$$ E(X) = \sum x P(X=x) $$

2. 方差(计算形式):
$$ \text{Var}(X) = E(X^2) - [E(X)]^2 $$

3. 方差的转换:
$$ \text{Var}(aX + b) = a^2 \text{Var}(X) $$

掌握了这些,你就精通了离散随机变量!