欢迎来到离散概率分布的世界!
在这一章中,我们将跨越基础概率的范畴,探讨如何利用离散概率分布 (Discrete Probability Distributions) 来模拟真实世界的事件。这是高等统计学 1 (Further Statistics 1) 的核心部分。无论你是在计算每小时收到多少封电子邮件,还是玩游戏时需要尝试多少次才能通过某一关,这些分布都能帮助我们预测“长期”的结果。
别担心,这些公式初看之下可能有点吓人!我们会把它们拆解成简单的步骤,并运用类比来帮你轻松记忆。让我们开始吧!
1. 基础概念:平均值与变异数
在研究特定的分布之前,我们需要知道如何找出任何离散随机变量 \(X\) 的“中心”和“离散程度”。
平均值(期望值)
期望值 (Expected Value),写作 \(E(X)\) 或 \(\mu\),本质上就是长期平均值。如果你进行了数千次实验,平均结果会是多少呢?
公式: \(E(X) = \sum x P(X=x)\)
可以这样想: 将每一个可能的结果乘以它发生的概率,然后将它们全部加总起来。
变异数
变异数 (Variance),写作 \(Var(X)\) 或 \(\sigma^2\),用来衡量结果围绕着平均值有多大的“摆动”或分散程度。
公式: \(Var(X) = E(X^2) - [E(X)]^2\)
其中 \(E(X^2) = \sum x^2 P(X=x)\)。
推广至函数:\(E(g(X))\)
有时候,我们需要的不是 \(X\) 的平均值,而是 \(X\) 的函数(如 \(X^2\) 或 \(3X+2\))的平均值。这写作 \(E(g(X))\)。
技巧: 只要将求和中的 \(x\) 替换为函数 \(g(x)\) 即可。
公式: \(E(g(X)) = \sum g(x) P(X=x)\)
快速复习箱:
1. \(E(X)\) 是“平均结果”。
2. \(Var(X)\) 是“分散程度”。永远记住:“平方的平均值减去平均值的平方。”
2. 泊松分布 (Poisson Distribution)
泊松分布非常适合用来模拟在特定时间或空间区间内,以恒定平均速率发生的随机事件。
现实生活例子: 10 分钟内经过某一点的汽车数量,或一页书中的错字数量。
泊松分布的条件
若情况要以 \(X \sim Po(\lambda)\) 进行模拟,事件必须满足:
1. 独立性 (Independently)(一个事件的发生不会影响下一个)。
2. 单一性 (Singly)(两个事件不会在同一瞬间发生)。
3. 恒定平均速率 (\(\lambda\))。
关键特性
若 \(X \sim Po(\lambda)\):
- 平均值: \(E(X) = \lambda\)
- 变异数: \(Var(X) = \lambda\)
你知道吗? 在泊松分布中,平均值与变异数是完全一样的!这是检查一组数据是否适合使用泊松模型的好方法。
可加性 (Additive Property)
如果你有两个独立的泊松变量,\(X \sim Po(\lambda)\) 和 \(Y \sim Po(\mu)\),你可以直接将它们相加!
\(X + Y \sim Po(\lambda + \mu)\)
例子: 如果你每小时收到 2 封电邮 (\(X\)) 和 3 则信息 (\(Y\)),则每小时收到的总通知数为 \(Po(2+3) = Po(5)\)。
重点总结: 当你在固定区间内“计数”发生次数时,请使用泊松分布。
3. 以泊松作为二项分布的近似
在数字非常大时计算二项分布的概率简直是场噩梦。幸运的是,如果你的 \(n\) 很大 且 \(p\) 很小,泊松分布就能派上用场。
规则: 若 \(X \sim B(n, p)\),你可以使用 \(Po(\lambda)\) 来近似,其中 \(\lambda = np\)。
何时使用? 通常在 \(n > 50\) 且 \(np < 5\) 时。这会让你的计算快得多!
4. 几何分布 (Geometric Distribution)
几何分布 (Geometric Distribution),\(X \sim Geo(p)\),其核心在于等待第一次成功。
类比: 想象你在投掷硬币试图得到“正面”。你不断投掷,直到终于得到一次为止。\(X\) 就是你所需的投掷次数。
概率公式
\(P(X=x) = p(1-p)^{x-1}\)
为什么? 因为若要在第 \(x\) 次尝试才获得第一次成功,代表你必须先失败了 \(x-1\) 次,然后在最后一次获得成功。
平均值与变异数
- \(E(X) = \frac{1}{p}\)
- \(Var(X) = \frac{1-p}{p^2}\)
记忆小技巧: 如果赢得游戏的概率是 \(1/10\),你会“预期”玩 10 次才能赢一次。这就是 \(E(X) = 1/(1/10) = 10\)。
5. 负二项分布 (Negative Binomial Distribution)
负二项分布 (Negative Binomial Distribution) 是几何分布的“大哥”。你不只是等待“第一次”成功,而是等待第 \(r\) 次成功。
例子: 一名篮球运动员不断投篮,直到投进 3 球 (\(r=3\)) 为止。\(X\) 是总投篮次数。
概率公式
\(P(X=x) = \binom{x-1}{r-1} p^r (1-p)^{x-r}\)
别惊慌!理解它的方式如下:
1. 最后一次投篮(第 \(x\) 次)必须是成功(这就是为什么有 \(p^r\))。
2. 在之前的 \(x-1\) 次投篮中,你必须以任何顺序获得 \(r-1\) 次成功(这就是 \(\binom{x-1}{r-1}\) 的部分)。
3. 其余的都是失败(即 \((1-p)^{x-r}\))。
平均值与变异数
- \(E(X) = \frac{r}{p}\)
- \(Var(X) = \frac{r(1-p)}{p^2}\)
常见错误: 在负二项分布中,\(x\) 不能小于 \(r\)。你不可能只试了 3 次就获得 5 次成功!
总结检查清单
在继续前进之前,请确保你能:
- 计算任何给定离散表中的 \(E(X)\) 和 \(Var(X)\)。
- 辨识 泊松 情境(恒定速率、独立事件)。
- 当 \(n\) 大且 \(p\) 小时,使用 泊松近似二项分布。
- 区分 几何分布(等待第 1 次成功)与 负二项分布(等待第 \(r\) 次成功)。
- 使用 计算器 找出泊松和二项分布的累积概率 (\(P(X \leq x)\))。
鼓励一下: 离散分布的关键就在于识别模式。一旦你确认了题目在讲哪种“故事”(是速率问题?还是等待问题?),公式自然就会浮现出来!