📚 指数分布:连续等待时间 (S2.3)
欢迎来到指数分布 (Exponential Distribution) 章节!这是你在 A-Level 统计学中会遇到的最实用的连续分布之一。泊松分布帮助我们计算在固定时间内发生了多少次事件,而指数分布则帮助我们模拟这些事件之间的时间或距离。
你可以把它看作是“等待时间”的数学描述。理解这一分布对于模拟可靠性、排队论和放射性衰变等实际应用至关重要。
1. 定义指数分布
1.1 什么是连续型随机变量?(快速回顾)
不同于只能取特定整数值的离散变量(如二项分布或泊松分布),连续型随机变量 \(X\) 可以取给定范围内的任何值。由于可能性有无穷多种,我们无法为单个点分配概率,因此我们使用函数:
- 概率密度函数 (PDF), \(f(x)\):用于微积分(积分),计算某个区间内的概率。
- 累积分布函数 (CDF), \(F(x)\):用于计算 \(X\) 小于或等于某个值的概率。
记住:对于任何连续变量 \(X\),取到精确某一点值的概率为零:\(P(X = a) = 0\)。这意味着 \(P(X < a)\) 与 \(P(X \le a)\) 是相同的。
1.2 你需要掌握的公式
指数分布由单一参数 \(\lambda\)(lambda)定义,它表示事件发生的速率。
A. 概率密度函数 (PDF)
指数变量 \(X\) 的 PDF 为:
$$f(x) = \lambda e^{-\lambda x} \quad \text{对于 } x \ge 0$$
注意:变量 \(X\) 必须是非负的,因为你不可能等待负数的时间!
B. 累积分布函数 (CDF)
CDF 是 PDF 从 0 到 \(x\) 的积分。这个公式是你计算概率的捷径:
$$F(x) = P(X \le x) = 1 - e^{-\lambda x}$$
如果 \(X \sim \text{Exp}(\lambda)\),你必须掌握:
- PDF: \(f(x) = \lambda e^{-\lambda x}\)
- CDF: \(F(x) = 1 - e^{-\lambda x}\)
核心要点: 参数 \(\lambda\) 决定了分布的形状,而使用 CDF 是计算绝大多数概率最简单的方法。
2. 应用条件(与泊松分布的联系)
指数分布不是凭空产生的;它与泊松分布有直接的联系。
指数分布用于模拟符合泊松过程的事件之间的间隔长度。
如果事件以恒定的平均速率 \(\lambda\) 随机且独立地发生(泊松过程),那么:
1. 在固定时间间隔内发生的事件数量服从参数为 \(\lambda\) 的泊松分布。
2. 事件之间的时间或距离服从参数为 \(\lambda\) 的指数分布。
举例说明:等公交车
假设公交车以每小时 4 辆的速率到达。
- 泊松分布: 未来 2 小时内有多少辆公交车到达?(\(\lambda_{Poisson} = 4 \times 2 = 8\))
- 指数分布: 你需要等多久才能等到下一辆公交车?(\(\lambda_{Exp} = 4\))
关键在于,两个模型中的速率 \(\lambda\) 相同,但对于指数分布,它必须是单位时间/距离内的事件发生率。
你知道吗? 指数分布是唯一具有无记忆性 (memoryless property) 的连续分布。这意味着如果你正在等待一个事件发生,你再等 5 分钟的概率并不取决于你已经等了多久。该分布实际上会“忘记”过去。
核心要点: 只要你在测量由恒定速率 \(\lambda\) 控制的过程中,直到第一次事件发生的连续时间(或空间),或者连续事件之间的时间,就请使用指数分布。
3. 分步计算概率
计算概率涉及使用 CDF \(F(x) = 1 - e^{-\lambda x}\) 或其补集。
设 \(X\) 为代表等待时间的随机变量。
3.1 三种主要的概率类型
情况 1:小于某值的概率 (\(P(X \le a)\))
这是最直接的计算。直接使用 CDF。
$$P(X \le a) = F(a) = 1 - e^{-\lambda a}$$
例子:如果 \(\lambda = 0.5\),求等待时间小于 3 的概率 (\(P(X \le 3)\))。
$$P(X \le 3) = 1 - e^{-(0.5)(3)} = 1 - e^{-1.5} \approx 0.7769$$
情况 2:大于某值的概率 (\(P(X > a)\))
由于 CDF 给出了 \(P(X \le a)\),我们可以使用补集法则计算等待时间超过 \(a\) 的概率:
$$P(X > a) = 1 - P(X \le a) = 1 - (1 - e^{-\lambda a})$$
简化后得到:
$$P(X > a) = e^{-\lambda a}$$
例子:如果 \(\lambda = 0.5\),求等待时间超过 5 的概率 (\(P(X > 5)\))。
$$P(X > 5) = e^{-(0.5)(5)} = e^{-2.5} \approx 0.0821$$
情况 3:两个值之间的概率 (\(P(a < X < b)\))
利用连续变量的规则:\(P(a < X < b) = F(b) - F(a)\)。
$$P(a < X < b) = (1 - e^{-\lambda b}) - (1 - e^{-\lambda a})$$
简化后得到:
$$P(a < X < b) = e^{-\lambda a} - e^{-\lambda b}$$
常见易错点:千万别忘了参数 \(\lambda\) 是一个速率。确保你的时间单位(小时、分钟、天)与定义 \(\lambda\) 时使用的单位一致。如果 \(\lambda\) 为每分钟 0.5 次,则所有时间值(x, a, b)必须以分钟为单位。
3.2 使用积分(当不使用 CDF 时)
课程大纲允许通过积分 PDF 来计算概率。虽然通常比使用 CDF 慢得多,但你必须了解其原理:
$$P(a < X < b) = \int_{a}^{b} f(x) dx = \int_{a}^{b} \lambda e^{-\lambda x} dx$$
如果一开始觉得这很难也不要担心;记住 \(\lambda e^{-\lambda x}\) 的积分简单地就是 \(-e^{-\lambda x}\)。应用积分上下限 \(a\) 和 \(b\),结果与上面简化的 CDF 公式完全相同!
核心要点: 始终使用 CDF 快捷方式:\(P(X \le a) = 1 - e^{-\lambda a}\) 和 \(P(X > a) = e^{-\lambda a}\)。这在考试中能为你节省宝贵时间。
4. 均值、方差和标准差
对于指数分布,理论上的均值和方差是通过积分导出的(但大纲确认你不需要证明它们——只需记住结论!)。
如果 \(X \sim \text{Exp}(\lambda)\):
4.1 均值(期望值)
期望等待时间 \(E(X)\) 或 \(\mu\) 是速率 \(\lambda\) 的倒数。
$$E(X) = \mu = \frac{1}{\lambda}$$
类比:如果公交车以 \(\lambda = 4\) 次/小时的速率到达,你预期的平均等待时间是 1/4 小时,即 15 分钟。
4.2 方差和标准差
方差 \(Var(X)\) 或 \(\sigma^2\) 以及标准差 \(\sigma\) 也是 \(\lambda\) 的简单函数。
$$\text{方差: } Var(X) = \sigma^2 = \frac{1}{\lambda^2}$$
$$\text{标准差: } \sigma = \sqrt{\frac{1}{\lambda^2}} = \frac{1}{\lambda}$$
在指数分布中,均值和标准差在数学上是同一个值:\(\frac{1}{\lambda}\)。这是一个非常独特的性质!
计算示例
假设某电子元件的寿命(以年为单位)服从参数 \(\lambda = 0.2\) 的指数分布。
- 平均寿命: \(E(X) = \frac{1}{0.2} = 5\) 年。
- 方差: \(Var(X) = \frac{1}{0.2^2} = \frac{1}{0.04} = 25\)。
- 标准差: \(\sigma = \frac{1}{0.2} = 5\) 年。(如预期,与均值相等!)
核心要点: 均值和标准差的公式是 \(1/\lambda\),方差是 \(1/\lambda^2\)。它们很简单,但你必须熟记。
章节总结与备考建议
指数分布对于模拟事件以恒定速率发生的系统中的连续等待时间至关重要。始终将其与泊松分布联系起来,以确定你选取的 \(\lambda\) 是否正确。
考试成功清单
1. 环境检查: 我们是在测量直到事件发生的连续时间/距离吗?(如果是?使用指数分布。)
2. 参数 \(\lambda\): 速率是多少?(如果题目说平均时间是 10 分钟,则 \(\mu = 10\),因此 \(\lambda = 1/10 = 0.1\)。务必小心!)
3. 概率快捷方式:
- \(P(X \le a) = 1 - e^{-\lambda a}\) (CDF)
- \(P(X > a) = e^{-\lambda a}\) (生存函数)
4. 矩:
- 均值 \(E(X) = 1/\lambda\)
- 方差 \(Var(X) = 1/\lambda^2\)
请继续练习那些概率计算——特别是经常在可靠性问题中用到的 \(P(X > a)\)!你一定能行的!