M1 复习笔记:离散随机变量
您好!欢迎来到 M1 统计学中最有趣的主题之一:离散随机变量 的复习笔记。这个名字听起来有点复杂,但别担心,我们会将所有概念逐一拆解,变得简单易懂。
在本章中,我们会学习如何将数字赋予随机事件的结果(例如掷骰子或掷硬币),然后探索我们可以对这些数字做出什么预测。这是一个非常重要的概念,广泛应用于玩游戏、保险以至工厂的质量控制等各个领域。我们现在就开始。
1. 什么是离散随机变量?
先从基础开始:什么是随机变量?
想象你掷一个标准的六面骰子。结果是随机的。一个随机变量,我们通常会用 X 来表示,它其实就是一种将数值赋予每个可能结果的方法。
例子:如果我们掷一个骰子,我们可以将随机变量 X 定义为掷出的点数。那么,X 的可能值就是 1、2、3、4、5 和 6。
你可以把 X 想成是一个代表数值结果的“替身”,在事件实际发生之前就存在。
关键概念:“离散”
“离散”这个词的意思是,变量只能取特定的、分开且可数的值。这些数值之间有空隙,你可以列出所有可能的结果。
- 实例(离散):课室里的学生人数。你可以有 30 个学生或 31 个学生,但你不可能有 30.5 个学生。你可以数清他们。
- 实例(离散):你掷两个骰子得到的总和。可能的值是 2、3、4、...、12。这些数值之间存在空隙。
- 反例(连续):学生的身高。某人可能是 175 厘米、175.1 厘米,甚至是 175.11 厘米高。你无法列出所有可能的身高,因为这些数值在一个连续的尺度上。(连续变量会在之后的章节中讲解!)
重点提示
一个离散随机变量是指其数值由随机实验结果决定,并且其可能值是可数的变量。
2. 概率分布:随机变量的规则手册
什么是概率分布?
一个概率分布是一个表格、图表或公式,它告诉我们离散随机变量 X 每个可能值的概率。它就像是随机变量行为的完整摘要。
比喻:你可以想象它像一份菜单。X 的可能值是菜式,而概率就是它们的价钱。概率分布列出了每道菜式及其价钱。
离散概率分布的两大黄金定律
对于任何有效的概率分布,有两条规则『必须』成立:
- 每个值 x 的概率必须介乎于 0 和 1 之间(包括两端)。
$$0 \leq P(X=x) \leq 1$$ - 所有可能值的概率总和必须刚好是 1。
$$\sum P(X=x) = 1$$
这很合理。这意味着所有可能的结果中,必然有一个会发生!
如何展示概率分布
有几种方式,但对我们来说最常见的是表格。
逐步示例
我们来为一枚不均匀硬币建立一个概率分布,其中掷出正面的概率是 0.6。让随机变量 X 为单次掷硬币中正面的次数。
步骤 1:识别 X 的可能值。
如果你掷一次硬币,你可能会得到 0 次正面(即反面)或 1 次正面。所以,X 的值是 0 和 1。
步骤 2:找出每个值的概率。
- P(X=1) = P(正面) = 0.6
- P(X=0) = P(反面) = 1 - P(正面) = 1 - 0.6 = 0.4
步骤 3:将其放入表格。
| x | 0 | 1 |
| P(X = x) | 0.4 | 0.6 |
步骤 4:检查两大黄金定律!
所有概率都介乎于 0 和 1 之间吗?是的。它们的总和是 1 吗?是的,0.4 + 0.6 = 1。所以这是一个有效的概率分布!
重点提示
一个概率分布将随机事件的每个可能数值结果与其发生的概率联系起来。所有概率的总和必须总是 1。
3. 期望值:平均来说会期待什么
什么是期望值,E(X)?
一个随机变量的期望值,写作 E(X),是你重复实验很多很多次后,预期会得到的长期平均值。它是概率分布的平均数。
比喻:想象一个游戏:你掷骰子,掷到多少点就赢多少钱。有时候你会赢 $1,有时候会赢 $6。如果你玩这个游戏数千次,你每局平均赢多少钱?那正是期望值。
重要:期望值不一定是 X 实际可以取到的值!对于一个均匀骰子,E(X) = 3.5,但你永远不可能掷出 3.5。
期望值的公式
要计算 E(X),你需要将每个可能的值 x 乘以其概率 P(X=x),然后将它们全部加起来。
$$E(X) = \sum x \cdot P(X=x)$$逐步示例
假设一个游戏的赢取金额 (X) 有以下概率分布。
| x ($) | 0 | 10 | 50 |
| P(X = x) | 0.7 | 0.2 | 0.1 |
计算:
E(X) = (0 × 0.7) + (10 × 0.2) + (50 × 0.1)
E(X) = 0 + 2 + 5
E(X) = 7
所以,如果你玩很多次,平均来说,你每局游戏预期会赢得 $7。
期望值的特性
这些非常实用的捷径!
对于任何常数 a 和 b: $$E(aX + b) = aE(X) + b$$
简单来说:如果你将随机结果 X 乘以 a,然后加上 b,新的期望值就只是旧的期望值乘以 a,再加上 b。
例子:在上述游戏中,E(X) = 7。如果游戏主持人决定将你的赢取金额加倍,再额外给你 $5 奖金,新的赢取金额是 Y = 2X + 5。新的预期赢取金额是 E(Y) = 2E(X) + 5 = 2(7) + 5 = $19。
函数的期望值,E[g(X)]
有时我们需要计算 X 某个函数的期望值,例如 E(X²)。规则是相似的:将函数应用于每个 x 值,然后乘以其概率并加起来。
$$E[g(X)] = \sum g(x) \cdot P(X=x)$$对于 E(X²),这就变成: $$E(X^2) = \sum x^2 \cdot P(X=x)$$
使用我们的游戏例子:
E(X²) = (0² × 0.7) + (10² × 0.2) + (50² × 0.1)
E(X²) = (0 × 0.7) + (100 × 0.2) + (2500 × 0.1)
E(X²) = 0 + 20 + 250 = 270。(我们在计算方差时会用到这个!)
重点提示
期望值 E(X) 是随机变量结果的加权平均数。它告诉你长期平均值。使用 $$E(X) = \sum x \cdot P(X=x)$$ 来计算它。
4. 方差:衡量分散程度
什么是方差,Var(X)?
方差,写作 Var(X),衡量随机变量的数值与其期望值(即平均数)之间的分散程度。
- 小方差意味着结果通常非常接近期望值。(一致、可预测)
- 大方差意味着结果非常分散。(不一致、风险高)
比喻:两位篮球员每场比赛的预期得分可能都是 20 分。球员 A 的得分是 19、20、21、20(低方差)。球员 B 的得分是 40、0、30、10(高方差)。他们的平均分相同,但球员 B 的表现远远更难预测。
方差的最佳公式(捷径!)
虽然方差的定义是 $$Var(X) = E[(X - E(X))^2]$$,但它计算起来比较困难。我们会使用一个简单得多的公式:
$$Var(X) = E(X^2) - [E(X)]^2$$请注意!注意 `E(X²) `(平方值的平均数)和 `[E(X)]²`(平均数的平方)之间的区别。这是个常见的错误点!
逐步示例(使用我们之前的游戏)
我们之前已经找到 E(X) = 7 和 E(X²) = 270。
步骤 1:将数值代入公式。
Var(X) = E(X²) - [E(X)]²
Var(X) = 270 - (7)²
Var(X) = 270 - 49
Var(X) = 221
这个数字告诉我们数据的分散程度相当大。
那么标准差呢?
标准差就是方差的平方根。它的符号是 σ (sigma) 或 SD(X)。
$$SD(X) = \sqrt{Var(X)}$$主要优点是它的单位与随机变量 X 相同,这使得理解分散程度变得更容易。
方差的特性
就像期望值一样,我们也有一些方便的捷径!
对于任何常数 a 和 b: $$Var(aX + b) = a^2 Var(X)$$
简单来说:
- 加上一个常数 b 只会使整个分布平移;它并不会改变它的分散程度。这就是为什么 b 会从公式中消失。
- 乘以一个常数 a 会“拉伸”分布,使分散程度增加 a² 倍。
例子:对于我们的游戏,Var(X) = 221。如果主持人将赢取金额加倍并额外给 $5 奖金 (Y = 2X + 5),新的方差是 Var(Y) = 2² Var(X) = 4 × 221 = 884。分散程度变得大得多!
重点提示
方差 Var(X) 衡量数据围绕平均数的分散程度。使用捷径公式 $$Var(X) = E(X^2) - [E(X)]^2$$ 来计算它。
5. 二项分布
二项分布和泊松分布是两种特定的、常见的离散分布类型。掌握它们的使用时机是关键!
何时使用二项分布
当实验包含固定数量的独立试验,且每次试验都只有两种可能的结果时,二项分布就是你的工具。
首先,一个快速定义:伯努利试验是只有两种结果(通常称为“成功”和“失败”)的单次实验。(例如:一次掷硬币)
如果一个实验符合这四个条件,它就遵循二项分布。一个好用的助记词是 B.I.N.S.:
- B - 二元 (Binary):每次试验只有两种可能的结果(“成功”或“失败”)。
- I - 独立 (Independent):一次试验的结果不影响另一次试验的结果。
- N - 次数 (Number):试验的次数是固定的,我们称之为 n。
- S - 成功 (Success):每次试验成功的概率,我们称之为 p,是相同的。
如果符合这些条件,且 X 是成功次数的随机变量,我们写作: $$X \sim B(n, p)$$ 这表示“$X$ 遵循参数为 $n$(试验次数)和 $p$(成功概率)的二项分布。”
经典例子:掷一枚均匀硬币 10 次,并计算正面的次数。这里,n=10,p=0.5。
二项概率公式
在 n 次试验中恰好得到 k 次成功的概率是:
$$P(X=k) = C_k^n p^k (1-p)^{n-k}$$其中:
- $$C_k^n$$ 是指从 n 次试验中选出 k 次成功的方法数。
- $$p^k$$ 是 k 次成功的概率。
- $$(1-p)^{n-k}$$ 是其余 n-k 次试验失败的概率。
逐步示例
一个学生参加一个 5 题的多项选择题测验。每题有 4 个选项,而且学生每题都靠猜。他恰好答对 3 题的概率是多少?
步骤 1:检查是否为二项分布 (B.I.N.S.)。
- B 二元:是的,每题要么“答对”(成功)要么“答错”(失败)。
- I 独立:是的,猜一题的结果不影响另一题。
- N 次数:是的,试验的固定次数是 n = 5。
- S 成功:是的,每题猜对的概率是 1/4,所以 p = 0.25。
它符合二项分布!所以,$$X \sim B(5, 0.25)$$。我们想找出 P(X=3)。
步骤 2:使用公式,其中 n=5,p=0.25,k=3。
$$P(X=3) = C_3^5 (0.25)^3 (1-0.25)^{5-3}$$$$P(X=3) = 10 \cdot (0.015625) \cdot (0.5625)$$$$P(X=3) \approx 0.0879$$所以他大约有 8.8% 的机会恰好猜对 3 题。
二项分布的平均数与方差
幸运的是,我们不需要使用期望值和方差的大公式。对于二项分布,有一些简单的捷径(你不需要知道证明!):
- 平均数 (期望值): $$E(X) = np$$
- 方差: $$Var(X) = np(1-p)$$
对于我们的测验猜题例子:
预期答对题数:E(X) = 5 × 0.25 = 1.25。
方差:Var(X) = 5 × 0.25 × (0.75) = 0.9375。
重点提示
当处理固定数量的独立试验且只有两种结果时,使用二项分布。记住 B.I.N.S. 和关键公式:$$P(X=k) = C_k^n p^k (1-p)^{n-k}$$、$$E(X) = np$$ 和 $$Var(X) = np(1-p)$$。
6. 泊松分布
何时使用泊松分布
泊松分布与众不同。它描述了在固定时间或空间区间内事件发生的次数,而你已知事件的平均发生率。
在以下情况下使用泊松分布:
- 事件是随机的并且相互独立。
- 我们正在计算在一个区间(例如时间、面积、距离)内事件发生的次数。
- 我们唯一知道的是事件的平均发生率,我们称之为 λ (lambda)。
如果符合这些条件,且 X 是在该区间内事件发生次数的随机变量,我们写作: $$X \sim Po(\lambda)$$ 这表示“$X$ 遵循参数为 $\lambda$(平均发生率)的泊松分布。”
经典例子:你的收件箱在一个小时内收到的电邮数量;10 米布料中的瑕疵数量;服务中心每分钟的来电数量。
泊松概率公式
在一个区间内观察到恰好 k 个事件的概率是:
$$P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}$$其中:
- λ 是每个区间的平均事件数。
- k 是我们感兴趣的事件数。
- e 是欧拉数(约为 2.718...)。
最重要的技巧:调整 λ
一个非常常见的考试题目是给你一个区间的速率,但却要求在不同区间的概率。在使用公式之前,你『必须』调整 λ。
例子:如果一间商店每小时平均接待 10 位顾客,而你想找出在 30 分钟内有顾客光顾的概率,你的新 λ 将会是:
λ = (10 位顾客 / 60 分钟) × 30 分钟 = 5 位顾客。
逐步示例
医院急诊室每小时平均接收 3 名病人。在特定的一小时内,恰好有 4 名病人抵达的概率是多少?
步骤 1:识别分布和参数。
这是关于在固定区间(一小时)内事件(病人抵达)的数量,且已知平均发生率。这是泊松分布!
速率是 λ = 每小时 3 名病人。间隔时间为一小时,所以不需要调整。我们想找出 P(X=4)。
步骤 2:使用公式,其中 λ=3,k=4。
$$P(X=4) = \frac{e^{-3} \cdot 3^4}{4!}$$$$P(X=4) = \frac{e^{-3} \cdot 81}{24}$$$$P(X=4) \approx \frac{0.049787 \cdot 81}{24}$$$$P(X=4) \approx 0.168$$所以大约有 16.8% 的机会恰好有 4 名病人在该小时内抵达。
泊松分布的平均数与方差
这部分最容易记住!对于泊松分布,平均数和方差是相同的,并且都等于 λ。
- 平均数 (期望值): $$E(X) = \lambda$$
- 方差: $$Var(X) = \lambda$$
如果你看到一个问题中,一个分布的平均数和方差约相等,这是一个重要线索,它很可能就是泊松分布!
你知道吗?
泊松分布是以法国数学家西蒙·德尼·泊松(Siméon Denis Poisson)的名字命名。它有时被称为“稀有事件的分布”,因为它适用于在任何特定时刻发生概率很低,但在长时间内会多次发生的事件。
重点提示
当你知道平均发生率 λ 时,使用泊松分布来计算固定区间内事件的数量。永远要检查是否需要调整 λ!关键公式是 $$P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}$$,以及独特的特性 $$E(X) = Var(X) = \lambda$$。