Discrete random variables

欢迎来到离散随机变量的世界！

你好！本章我们将架起一座桥梁，连接简单的概率计算与正式的统计建模。如果“随机变量”这个术语听起来有些高深，请不要担心——它其实就是一种用数学方式来描述随机事件可能产生的数值结果的方法。

理解离散随机变量 (Discrete Random Variables, DRVs) 是统计学 1 (Statistics 1) 的基础。它能帮助我们分析博弈游戏、解读实验数据，并对预期结果做出预测。我们将学习如何计算平均结果，以及如何衡量这些结果的分散程度。

第 1 节：什么是离散随机变量？

1.1 定义随机变量 (X)

随机变量 (X) 是一个函数，它为样本空间中的每一个结果赋予一个数值。之所以称为“随机”，是因为在事件发生之前，我们无法预知它具体会取什么值。

我们通常使用大写字母（如 $X$ 或 $Y$）来表示随机变量本身。
我们使用小写字母（如 $x$ 或 $y$）来表示变量可以取到的具体数值。

示例： 如果你投掷一枚标准骰子一次，令 $X$ 为点数。可能的取值 $x$ 为 $\{1, 2, 3, 4, 5, 6\}$。

1.2 离散与连续

这里的关键词是离散 (Discrete)。

离散随机变量 (DRV)： 指可能的取值是可数 (countable) 的变量。它们通常取整数值。
类比： DRV 就像清点班级里的学生人数，或者五次掷硬币中正面的次数。你不可能有 2.5 个学生，也不可能有 3.1 次正面。
（非考试范围小贴士）： 连续随机变量 (CRV) 可以取某一范围内的任何值（例如身高、体重、时间）。我们稍后会在统计学课程中学习这些内容。

快速复习：DRV 检查清单

要使变量 $X$ 成为离散随机变量，其结果必须满足：

数值型。
由随机性决定。
可数（通常为整数）。

第 2 节：概率分布

一旦我们知道了 DRV 可能取到的值 $x$，我们就需要知道每个值对应的概率。概率分布 (Probability Distribution)（有时也称为概率质量函数，PMF）列出了所有可能的结果及其对应的概率。

2.1 展示分布

概率分布通常以表格形式展示：

$x$（可能取值）	$x_1$	$x_2$	$x_3$	...
$P(X=x)$（概率）	$p_1$	$p_2$	$p_3$	...

我们经常使用符号 $P(X=x)$ 来表示“随机变量 $X$ 取特定值 $x$ 的概率”。

示例：如果 $X$ 是投掷骰子的结果：

$x$	1	2	3	4	5	6
$P(X=x)$	$1/6$	$1/6$	$1/6$	$1/6$	$1/6$	$1/6$

2.2 两个基本规则

任何函数或表格若要成为有效的概率分布，必须满足两个关键条件：

所有概率必须介于 0 和 1 之间：
$$0 \le P(X=x) \le 1$$
所有概率之和必须恰好等于 1：
$$\sum P(X=x) = 1$$

!!! 考试常见情境 !!!
你经常会遇到概率中包含未知常数（如 $k$）的题目。你必须使用第二个规则 ($\sum P(X=x) = 1$) 来列方程并解出 $k$。

第 2 节重点总结

概率分布向我们展示了每一种可能结果的可能性。如果概率之和不等于 1，说明你算错了，或者该分布本身就是无效的！

第 3 节：期望 (均值)

离散随机变量 $X$ 的期望 (Expectation)（或期望值 Expected Value），记作 $E(X)$ 或 $\mu$（希腊字母 mu），是变量的长期平均值。

类比：如果 $X$ 代表一场游戏中的奖金，$E(X)$ 就是如果你玩成千上万次游戏后，平均每次预期能赢到的金额。它揭示了分布的中心点。

3.1 期望值公式 $E(X)$

要计算期望值，你需要将每个可能的结果 $x$ 与其对应的概率 $P(X=x)$ 相乘，然后将所有结果相加。

$$E(X) = \mu = \sum x P(X=x)$$

3.2 $E(X)$ 的逐步计算

让我们看一个简单的例子：一场游戏中，你赢得 1 美元、2 美元或 5 美元的概率如下表所示。

$x$	1	2	5
$P(X=x)$	0.5	0.3	0.2

创建第三行/列： 计算每个值的 $x P(X=x)$。
- $1 \times 0.5 = 0.5$
- $2 \times 0.3 = 0.6$
- $5 \times 0.2 = 1.0$
对结果求和：
$$E(X) = 0.5 + 0.6 + 1.0 = 2.1$$

期望值为 2.1。注意，2.1 并不是表中的实际结果（你不可能赢到 2.1 美元），但它代表了多次试验下的平均结果。

3.3 $X$ 的函数的期望 $E(g(X))$

有时，你需要求 $X$ 的函数的期望值，比如 $E(X^2)$ 或 $E(2X-1)$。规则是一样的：

$$E(g(X)) = \sum g(x) P(X=x)$$

要计算 $E(X^2)$，只需先将 $x$ 值平方，然后再乘以概率。这一计算对于求方差（见第 4 节）至关重要。

第 3 节重点总结

期望 $E(X)$ 告诉你是结果的加权平均值。它是分布的“中心”。记住公式：“$x$ 乘以 $P(x)$，然后求和”。

第 4 节：衡量离散程度 (方差与标准差)

虽然 $E(X)$ 告诉我们平均值，但它不能反映结果的分散程度。例如，比起无论如何都赢 2 美元的游戏，输 100 美元或赢 104 美元的游戏风险更大，即便两者的期望值都是 2 美元。

方差 (Variance) 和 标准差 (Standard Deviation) 正是用来衡量这种离散程度或风险的。

4.1 方差 $Var(X)$ 或 $\sigma^2$

方差是结果与均值之差的平方的期望。虽然定义的公式是：

$$Var(X) = \sum (x - \mu)^2 P(X=x)$$

但这个定义计算起来非常繁琐！相反，我们使用一个更简单的恒等式（你必须掌握并应用）：

$$Var(X) = E(X^2) - [E(X)]^2$$

记忆口诀： “平方的期望减去期望的平方”。

4.2 方差的逐步计算

要找到 $Var(X)$，你需要两样东西：

$E(X)$： 均值（在第 3 节中计算）。
$E(X^2)$： $X$ 平方的期望。

继续使用 3.2 节的例子（其中 $E(X) = 2.1$）：

计算每个结果的 $x^2$：
- $1^2 = 1$
- $2^2 = 4$
- $5^2 = 25$
计算 $E(X^2) = \sum x^2 P(X=x)$：
- $1 \times 0.5 = 0.5$
- $4 \times 0.3 = 1.2$
- $25 \times 0.2 = 5.0$
$$E(X^2) = 0.5 + 1.2 + 5.0 = 6.7$$
应用方差公式： $$Var(X) = E(X^2) - [E(X)]^2$$ $$Var(X) = 6.7 - (2.1)^2$$ $$Var(X) = 6.7 - 4.41 = 2.29$$

!!! 常见错误提醒 !!!
千万不要忘记方括号！学生经常能正确计算出 $E(X^2)$，却忘记了最后要对 $E(X)$ 的项进行平方。

4.3 标准差 $\sigma$

标准差 (SD) 就是方差的平方根，$\sigma = \sqrt{Var(X)}$。

因为它与 $X$ 和 $E(X)$ 使用相同的单位，所以更常用。

在我们的例子中： $$SD(X) = \sqrt{2.29} \approx 1.513$$

第 4 节重点总结

方差 ($Var(X)$) 衡量数据的离散程度。一定要使用简便公式：$E(X^2) - [E(X)]^2$。标准差就是该结果的平方根。

第 5 节：线性变换 (编码)

如果你缩放或平移随机变量，会发生什么？例如，如果 $X$ 是得分，但你想求 $Y = 2X + 5$ 的统计量（得分翻倍并额外奖励 5 分）。

如果 $Y = aX + b$，其中 $a$ 和 $b$ 是常数，新的均值和方差遵循以下规则：

5.1 对期望 (均值) 的影响

期望值受缩放 ($a$) 和平移 ($b$) 的共同影响。

$$E(aX + b) = a E(X) + b$$

这非常符合直觉：如果你得分翻倍并加上 5 分，平均分也会翻倍并增加 5 分。

5.2 对方差 (离散程度) 的影响

方差衡量的是离散程度。平移整个分布（加上 $b$）不会改变数值的分散情况，只会改变中心位置。因此，$b$ 对方差没有影响。

然而，将分布缩放 $a$ 倍会使离散程度增加 $a^2$ 倍。

$$Var(aX + b) = a^2 Var(X)$$

5.3 对标准差的影响

由于标准差是方差的平方根，其变化更为简单：

$$SD(aX + b) = |a| SD(X)$$

我们使用 $|a|$ 是因为标准差必须是正数。

你知道吗？（为什么是 $a^2$？）

方差的单位是原始变量单位的平方。如果 $X$ 以米 (m) 为单位，$Var(X)$ 的单位就是 $m^2$。如果你将 $X$ 缩放 3 倍，单位也缩放了 3 倍，这意味着方差（平方单位）必须缩放 $3^2 = 9$ 倍。

线性编码规则总结

$Y = aX + b$ 的统计量	转换规则
$E(Y)$	$a E(X) + b$
$Var(Y)$	$a^2 Var(X)$
$SD(Y)$	$\|a\| SD(X)$

第 5 节重点总结

线性变换对均值的影响正如预期（缩放和平移）。然而，对于方差，只有缩放因子 ($a^2$) 会产生影响；平移 ($b$) 对离散程度没有任何影响。

章节复习：离散随机变量

你已经掌握了统计建模的核心基础！这里是最终的快速清单：

DRV 取可数的数值。
有效的概率分布中，所有概率之和必须为 1。
期望 (均值)： $E(X) = \sum x P(X=x)$。（数据的中心。）
方差 (离散程度)： $Var(X) = E(X^2) - [E(X)]^2$。（数据的风险/离散度。）
线性编码 $Y=aX+b$： $E(Y)=aE(X)+b$，且 $Var(Y)=a^2 Var(X)$。

干得漂亮！掌握这些核心概念和计算方法，你将为学习建立在这些理论之上的特定分布（如二项分布）做好充分准备。继续加强这些计算步骤的练习吧！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

\(x\)（可能取值）	\(x_1\)	\(x_2\)	\(x_3\)	...
\(P(X=x)\)（概率）	\(p_1\)	\(p_2\)	\(p_3\)	...

\(x\)	1	2	3	4	5	6
\(P(X=x)\)	\(1/6\)	\(1/6\)	\(1/6\)	\(1/6\)	\(1/6\)	\(1/6\)

\(Y = aX + b\) 的统计量	转换规则
\(E(Y)\)	\(a E(X) + b\)
\(Var(Y)\)	\(a^2 Var(X)\)
\(SD(Y)\)	\(\|a\| SD(X)\)