导言:掌握伯努利分布与二项分布
欢迎来到统计学中最实用且考试频率最高的章节之一!本章主要研究只有两种可能结果(成功或失败)的实验或场景。想一想抛硬币、检查产品是否合格或回答判断题的过程。
伯努利(Bernoulli)分布和二项(Binomial)分布是必不可少的工具,它们能帮助我们计算在固定次数的尝试中取得特定成功次数的准确概率。如果之前觉得概率论比较抽象,不用担心——这些分布为我们分析现实世界中的随机性提供了具体的框架!
1. 伯努利试验:最简单的事件
1.1 什么是伯努利试验?
伯努利分布是二项分布的基础。它模拟了一个满足以下严格条件的单一、简单的实验:
- 恰好有两个互斥的结果:
- 成功(通常记为 \(X=1\))
- 失败(通常记为 \(X=0\))
成功的概率记为 \(p\)。相应地,失败的概率为 \(1-p\),我们常将其记为 \(q\)。
示例:如果你掷一枚标准骰子,并定义“成功”为掷出6点,那么 \(p = 1/6\)。“失败”即掷出其他点数,因此 \(q = 5/6\)。
1.2 伯努利试验的均值与方差
由于伯努利分布只涉及一次试验,其期望值(均值)和方差非常简单。你需要掌握这些定义及其推导逻辑(尽管考试可能不要求正式推导,但理解其中的逻辑会很有帮助!)。
核心公式(伯努利分布):
均值(期望值):
$$E(X) = p$$
方差:
$$Var(X) = p(1 - p) = pq$$
快速复习: 单次伯努利试验的均值就是成功的概率 \(p\)。如果 \(p=0.7\),那么平均而言,试验结果为0.7(更接近于1/成功,而非0/失败)。
2. 二项分布:重复的成功
二项分布模拟的是当你进行固定次数的独立伯努利试验时,成功次数 \(X\) 的概率分布。
类比: 如果伯努利分布是一次抛硬币,那么二项分布就是抛硬币10次并统计出现正面次数的情况。
2.1 二项分布的四个条件
在你使用二项分布 \(X \sim B(n, p)\) 之前,你的情境必须满足以下四个关键条件。如果任何一个条件不满足,你就不能使用该模型!
记忆口诀:“BINS”
- Binary Outcomes(二元结果):每次试验必须只有两种结果(成功/失败)。
- Independence(独立性):一次试验的结果不能影响其他任何试验的结果。
- Number of trials(固定次数):必须有固定且预先设定的试验次数 \(n\)。
- Success Probability(成功概率 \(p\)):每次试验成功的概率 \(p\) 必须保持不变。
冷知识:
如果试验不是独立的(例如:不放回地抽牌),则需要使用超几何分布(不过这超出了AS/A Level 9660的考试范围)。2.2 二项分布的符号与参数
服从二项分布的随机变量 \(X\) 记为:
$$X \sim B(n, p)$$其中:
- \(n\) 是试验次数(或尝试次数)。
- \(p\) 是单次试验中成功的概率。
- \(X\) 是我们关注的特定成功次数,其中 \(x = 0, 1, 2, \dots, n\)。
示例:一名学生参加包含10道题的单选题测验。每道题猜对的概率为20%。令 X 为答对的题数。则 \(X \sim B(10, 0.2)\)。
3. 计算二项分布概率
3.1 二项分布概率公式
要找到在 \(n\) 次试验中恰好获得 \(x\) 次成功的概率,我们需要组合两个部分:该特定序列发生的概率,以及该序列可能出现的排列方式数量。
其概率质量函数(PMF)为:
$$P(X=x) = \binom{n}{x} p^x (1-p)^{n-x}$$让我们拆解一下每一部分的含义:
- \(\binom{n}{x}\)(读作“n选x”):这是在 \(n\) 次试验中恰好安排 \(x\) 次成功的组合数。使用组合数符号,其中:
$$ \binom{n}{x} = \frac{n!}{x!(n-x)!} $$
别慌!你的计算器可以直接处理这个函数(通常标记为 nCr)。
- \(p^x\):这是获得 \(x\) 次成功的概率。
- \((1-p)^{n-x}\):这是获得剩余 \(n-x\) 次失败的概率。
3.2 逐步示例(使用公式)
假设你抛一枚不均匀的硬币5次,出现正面(成功)的概率为 \(p=0.4\)。我们想求恰好出现3次正面的概率(\(X=3\))。
这里,\(n=5\), \(x=3\), \(p=0.4\), 且 \(1-p = 0.6\)。
第一步:计算排列方式数量(\(\binom{n}{x}\))。
$$ \binom{5}{3} = \frac{5!}{3!(5-3)!} = \frac{120}{6 \times 2} = 10 $$
(有10种独特的序列可以得到3个正面和2个反面,例如:HHHTT, HHTHT 等。)
第二步:计算成功和失败的概率乘积。
$$ p^x (1-p)^{n-x} = (0.4)^3 (0.6)^{5-3} = (0.064)(0.36) = 0.02304 $$
第三步:将结果相乘。
$$ P(X=3) = 10 \times 0.02304 = 0.2304 $$
3.3 使用累积概率表
考试题目经常询问累积概率(例如:获得最多 5次成功的概率)。累积分布表提供了针对不同 \(n\) 和 \(p\) 值的 \(P(X \le x)\)。
使用表格时的关键转换:
- $P(X \le x)$:直接从表中读取。
- $P(X < x)$:等同于 \(P(X \le x-1)\)。(如果小于5,意味着4或更少。)
- $P(X > x)$:计算方法为 \(1 - P(X \le x)\)。(如果超过5,意味着1减去5或更少。)
- $P(X \ge x)$:计算方法为 \(1 - P(X \le x-1)\)。(如果是5或更多,意味着1减去4或更少。)
- $P(a \le X \le b)$:计算方法为 \(P(X \le b) - P(X \le a-1)\)。
要避免的常见错误: 在计算 \(P(X > x)\) 或 \(P(X \ge x)\) 时,要非常注意端点!对于离散变量,\(P(X > 5)\) 并不等于 \(1 - P(X \le 5)\);它应该是 \(1 - P(X \le 4)\)。
4. 二项分布的均值、方差与标准差
计算二项分布的均值和方差比计算一般离散变量(需要求 \(\sum x \cdot P(x)\) 或 \(\sum (x-\mu)^2 \cdot P(x)\))要简单得多。
由于二项分布只是 \(n\) 次独立伯努利试验的总和,我们可以直接将这 \(n\) 次试验的均值和方差相加。
回想一下,伯努利试验的均值为 \(p\),方差为 \(p(1-p)\)。
4.1 均值(期望值)
成功的期望次数 \(E(X)\),简单来说就是试验次数乘以每次试验成功的概率。
$$E(X) = np$$示例:如果你射门20次,进球概率为30%(\(p=0.3\)),那么你的期望进球数为 \(E(X) = 20 \times 0.3 = 6\) 球。
4.2 方差与标准差
总成功次数的方差是试验次数乘以单次伯努利试验的方差。
方差: $$Var(X) = np(1 - p)$$
常记作: $$Var(X) = npq$$
标准差(\(\sigma\)): $$\sigma = \sqrt{np(1 - p)}$$
重点提示: 二项分布的均值和方差公式在教学大纲中被视为伯努利分布的推论,因此你必须能够自信地使用它们!与一般的离散变量计算相比,它们能节省大量时间。
快速复习:伯努利分布 vs. 二项分布
| 特征 | 伯努利分布 | 二项分布 |
|---|---|---|
| 模拟事件 | 单次试验 | 固定次数(\(n\))的独立试验 |
| 符号表示 | 通常无特定符号 | \(X \sim B(n, p)\) |
| 均值 | \(E(X) = p\) | \(E(X) = np\) |
| 方差 | \(Var(X) = p(1-p)\) | \(Var(X) = np(1-p)\) |