欢迎来到S2单元:二项分布与泊松分布!

你好,未来的统计学家!这一章至关重要,因为它不仅能帮助我们描述数据,更能让我们通过建模与预测来洞察现实世界中事件发生的概率。如果之前觉得概率论比较抽象,也不必担心——我们将通过简单易懂的步骤,带你彻底拆解二项分布和泊松分布这两个核心概念。学完之后,你将能够准确判断该使用哪种模型,并掌握计算计数结果概率的方法!

让我们开始吧!


第1节:离散型随机变量快速回顾

在进入具体模型之前,请记住,二项分布和泊松分布处理的对象都是离散型随机变量 (Discrete Random Variables),记作 \(X\)。

  • 离散型随机变量是指其可能取值是可数的(通常为整数)的变量。
  • 它代表的是“计数”,而不是“测量”(如身高或体重)。
  • 例子:投掷10次硬币出现正面的次数、一小时内收到的电子邮件数量。

第2节:二项分布 \(B(n, p)\)

二项分布帮助我们在进行固定次数的独立试验时计算概率,且每项试验只有两种可能的结果。

4.1. 二项分布的条件 (BINS)

随机变量 \(X\) 若要使用二项分布建模,必须满足四个严苛条件。使用助记词 BINS 来记忆它们:

  1. Binary outcomes (二元结果):每次试验必须只能导致“成功”或“失败”。
  2. Independent trials (独立试验):一次试验的结果不影响任何其他试验的结果。
  3. Number of trials is fixed (试验次数固定):我们必须预先知道试验次数 \(n\)。
  4. Same probability (相同概率):成功的概率 \(p\) 在每次试验中必须保持不变。

类比:想象投篮练习。\(n\) 是你投球的总次数(固定的)。\(p\) 是你的进球率(恒定的)。每次投篮都是独立的,且结果非进即出。

4.2. 表示法与公式

如果 \(X\) 服从二项分布,我们记作:

\(X \sim B(n, p)\)

其中:

  • \(n\) 为试验次数。
  • \(p\) 为单次试验中成功的概率。

在 \(n\) 次试验中恰好获得 \(x\) 次成功的概率公式为:

\[ P(X=x) = \binom{n}{x} p^x (1-p)^{n-x} \]

其中:

  • \(\binom{n}{x}\)(读作“n选x”)是在 \(n\) 次试验中排列 \(x\) 次成功的组合数。
  • \(1-p\) 通常记作 \(q\),即失败的概率。
分步计算概率

例子:一枚有偏硬币出现正面的概率为 0.6。若投掷 5 次,恰好出现 3 次正面的概率是多少?

此处 \(n=5\),\(p=0.6\),且我们要求 \(x=3\)。\((1-p) = 0.4\)。

  1. 找出排列组合数:\(\binom{5}{3} = 10\)。
  2. 求 3 次成功的概率:\((0.6)^3 = 0.216\)。
  3. 求 2 次失败的概率:\((0.4)^{5-3} = (0.4)^2 = 0.16\)。
  4. 相乘得到结果:\(P(X=3) = 10 \times 0.216 \times 0.16 = 0.3456\)。

4.3. 期望、方差与标准差

对于二项分布,计算期望次数 \(E(X)\) 和方差 \(Var(X)\) 非常简单,不需要使用处理离散变量的通用公式。

期望 (Mean)

\[ E(X) = np \]

方差 (Variance)

\[ Var(X) = np(1-p) \]

标准差 (Standard Deviation)

\[ SD(X) = \sqrt{np(1-p)} \]

记忆小贴士:期望值正如你直觉所想的那样:试验总次数乘以成功率。而方差则是期望值再乘以失败率 (\(1-p\))。

二项分布快速回顾:
  • 条件: BINS (二元、独立、固定 \(N\)、相同 \(P\))。
  • 表示法: \(X \sim B(n, p)\)。
  • 关键公式: \(E(X) = np\) 和 \(Var(X) = np(1-p)\)。

第3节:泊松分布 \(Po(\lambda)\)

泊松分布用于建模在固定的时间或空间间隔内,事件发生的次数。与二项分布不同,它的计数没有固定的上限 (\(n\))。

5.1. 泊松分布的条件

随机变量 \(X\) 必须满足以下条件:

  1. 事件单独发生(一次一个,不能同时发生)。
  2. 事件以恒定的平均速率发生。
  3. 事件之间彼此独立,且独立于上一次发生的时间。
  4. 事件在时间和空间上随机发生。

类比:试想统计上午 9 点到 10 点之间打入服务台的电话数量。你知道平均速率(\(\lambda\),假设为每小时 5 通),但总数可能是 0、5、10 甚至 100!

5.2. 表示法与公式

如果 \(X\) 服从泊松分布,我们记作:

\(X \sim Po(\lambda)\)

其中 \(\lambda\) (lambda) 是平均发生速率(即在给定的间隔内事件的平均发生次数)。

恰好发生 \(x\) 次的概率公式为:

\[ P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

其中:

  • \(e\) 是自然对数的底数 (\(e \approx 2.71828\))。
  • \(x!\) 是 \(x\) 的阶乘 (\(x \times (x-1) \times \dots \times 1\))。

5.3. 缩放 \(\lambda\)(最常见的错误!)

注意! \(\lambda\) 与题目中指定的间隔直接相关。如果时间或空间间隔发生变化,你必须同步调整 \(\lambda\)。

例子:如果每小时平均收到的短信数量为 \(\lambda = 6\),那么:

  • 对于 30 分钟(半小时)的间隔,新的速率 \(\lambda_{new} = 6 \times 0.5 = 3\)。
  • 对于 2 小时的间隔,新的速率 \(\lambda_{new} = 6 \times 2 = 12\)。

一定要检查 \(\lambda\) 的时间间隔是否与计算概率所需的间隔相匹配。

5.4. 期望与方差

泊松分布的一个定义性特征就是其期望与方差之间的关系。

期望 (Expectation)

\[ E(X) = \lambda \]

方差 (Variance)

\[ Var(X) = \lambda \]

冷知识:因为 \(E(X) = Var(X) = \lambda\),如果你在检验数据是否符合泊松模型,第一步通常就是看样本均值是否大致等于样本方差。

泊松分布快速回顾:
  • 条件: 事件独立、随机、单独发生,且速率恒定。
  • 表示法: \(X \sim Po(\lambda)\)。
  • 关键公式: \(E(X) = \lambda\) 和 \(Var(X) = \lambda\)。
  • 关键步骤: 如果时间/空间间隔改变,务必缩放 \(\lambda\)。

第4节:泊松分布对二项分布的近似

有时我们会遇到二项分布的情况,但数值非常巨大,以至于直接使用二项公式计算概率变得极其困难或耗时(特别是计算 \(\binom{n}{x}\) 时)。

幸运的是,在特定条件下,泊松分布为二项分布提供了一个极佳且简单的近似方法。

6.1. 何时使用近似

当满足以下两个条件时,我们可以用泊松分布 \(Po(\lambda)\) 近似二项分布 \(B(n, p)\):

  1. \(n\) 很大(试验次数很多,通常 \(n > 50\))。
  2. \(p\) 很小(成功概率很低,通常 \(p < 0.1\))。

换个角度想:你有数百万张彩票(巨大的 \(n\)),但中奖概率极小(微小的 \(p\))。这种情况非常符合泊松模型中稀有事件随机发生的模式。

6.2. 近似法则

如果满足条件,我们将二项分布的期望设为等于泊松分布的期望:

\[ 令 \lambda = np \]

因此,近似关系为:

\[ B(n, p) \approx Po(np) \]

然后,我们就可以利用 \(\lambda = np\) 代入泊松公式(或查表)来计算概率了。

近似例子

某工厂生产的产品缺陷率为 0.005。如果检查 1000 个产品,求恰好有 4 个残次品的概率。

  1. 检查条件: \(n=1000\)(大),\(p=0.005\)(小)。近似有效。
  2. 计算 \(\lambda\): \(\lambda = np = 1000 \times 0.005 = 5\)。
  3. 确定分布: \(X \sim Po(5)\)。
  4. 计算 \(P(X=4)\): 使用泊松公式,令 \(\lambda=5\),\(x=4\): \[ P(X=4) = \frac{e^{-5} 5^4}{4!} \]

    这比计算 \(\binom{1000}{4} (0.005)^4 (0.995)^{996}\) 要容易得多。

6.3. 常见陷阱与技巧

使用累计概率表时要小心!

在两种分布中,表格通常给出的是累计概率 \(P(X \le x)\)。请记住以下规则:

  • \(P(X=x) = P(X \le x) - P(X \le x-1)\)
  • \(P(X > x) = 1 - P(X \le x)\)
  • \(P(X \ge x) = 1 - P(X \le x-1)\)

如果起初觉得这些规则容易搞混,不用担心——多练习识别 \(n\)、\(p\) 和 \(\lambda\) 即可。如果题目涉及在大规模群体或长时间内统计稀有事件,就考虑泊松分布!如果题目涉及固定次数的试验且只有成功/失败两种结果,就考虑二项分布!


章节总结:关键点

模型识别清单

| 特征 | 二项分布 \(B(n, p)\) | 泊松分布 \(Po(\lambda)\) | |---|---|---| | 目标 | 统计固定试验次数下的成功次数。 | 统计固定间隔(时间/空间)内的事件发生次数。 | | 试验次数 | 固定 (\(n\))。 | 无限(无固定上限)。 | | 关键参数 | \(n\) (试验次数) 和 \(p\) (成功概率)。 | \(\lambda\) (平均速率)。 | | 期望/方差 | \(E(X) = np\); \(Var(X) = np(1-p)\)。 | \(E(X) = \lambda\); \(Var(X) = \lambda\)。 | | 近似应用 | 若 \(n\) 大且 \(p\) 小,可用泊松近似,令 \(\lambda = np\)。 | 不适用 |