欢迎来到“选对工具”:选择适合的概率分布

在统计学中,选择合适的概率分布就像厨师选择正确的菜刀一样。如果你用切面包的刀去削苹果,虽然勉强能用,但效果肯定不理想!在本章中,我们将学习如何观察现实生活中的情境,并判断应该选用二项分布 (Binomial Distribution) 还是常态分布 (Normal Distribution) 最为合适。如果刚开始觉得有点抽象,别担心——一旦掌握了当中的“线索”,判断起来就会容易得多!


1. 二项分布:计数模型

二项分布记作 \( X \sim B(n, p) \),当我们在固定的试验次数中统计“成功”次数时,就会使用它。你可以把它想象成一个“是/否”或“合格/不合格”的模型。

何时使用?(BINS 记忆法)

如果你不确定某个情况是否适用二项分布,只需记住 B-I-N-S

  • B – Binary (二元性): 只有两种可能的结果(例如:正面或反面、次品或良品)。
  • I – Independent (独立性): 一次试验的结果不会影响下一次。
  • N – Number of trials (固定试验次数): 有一个明确且固定的试验次数 (\( n \))。
  • S – Success probability (成功概率固定): 每次试验的成功概率 (\( p \)) 保持不变。

现实生活例子

想象你在练习篮球罚球,一共投 10 球。如果你的投篮命中率固定为 70%,且每一球之间互不影响,这就是一个完美的二项分布例子。我们正在统计 10 球中有多少球投进。

快速回顾: 当数据是离散型 (discrete)(你可以数出来的数:0, 1, 2...)且具有固定试验次数与恒定概率时,请选用二项分布。


2. 常态分布:测量模型

常态分布记作 \( X \sim N(\mu, \sigma^2) \),用于连续型 (continuous) 数据。这类数据可以在某个范围内取任何值,例如身高、体重或时间。

何时使用?

当数据符合以下特征时,你应该考虑使用常态分布模型:

  • 连续性 (Continuous): 透过测量得出,而非单纯数出来的。
  • 对称性 (Symmetrical): 图形呈现钟形曲线 (bell-shaped curve)。
  • 集中趋势: 数据围绕着中心的平均值 (\( \mu \)) 分布。
  • 参数已知: 具有已知的方差 (\( \sigma^2 \)) 或标准差 (\( \sigma \))。

现实生活例子

试想一下英国所有 18 岁青少年的身高。大多数人的身高都在平均值附近,极矮或极高的人较少。由于身高可以精确到小数位(例如 175.42cm),它属于连续数据,最适合用常态分布来建模。

你知道吗? 常态分布有时被称为“高斯分布”,是以数学家卡尔·弗里德里希·高斯 (Carl Friedrich Gauss) 的名字命名的。它在自然界中非常普遍,因此常被视为生物测量的预设模型!

重点总结: 对于钟形且对称的连续型数据,请选用常态分布。


3. 如何抉择:比较指南

有时考试会给你一个情境,并要求你证明选择某种分布的原因。以下是一个简单的检查表来帮助你判断:

问自己这些问题:

  1. 数据是离散型还是连续型?
    可数的 (0, 1, 2...) \(\rightarrow\) 二项分布
    可测量的 (1.5, 2.78...) \(\rightarrow\) 常态分布
  2. 是否有固定的试验次数?
    有 (例如:访问了 20 个人) \(\rightarrow\) 二项分布
    没有 (例如:完成某项任务所需的时间) \(\rightarrow\) 常态分布

避免常见误区: 不要仅仅因为题目给出了平均值和标准差,就假设一定适用常态分布。请先检查基础数据是否真的是在“统计成功次数”!


4. 桥梁:利用常态分布近似二项分布

有时候,二项分布的问题规模会变得非常大,以至于它的特征开始接近常态分布。这是一个非常实用的捷径!

为什么要这样做?

如果使用二项分布公式计算 \( X \sim B(1000, 0.5) \) 的 \( P(X \leq 500) \),对计算机来说简直是噩梦。然而,当样本容量够大时,二项分布的条形图“阶梯”会变得非常细小,看起来就像一条平滑的钟形曲线。

何时适用?

当满足以下条件时,我们可以使用常态分布来近似二项分布

  • \( n \) 很大 (通常至少 \( n > 50 \))。
  • \( p \) 接近 0.5 (使分布呈现对称性)。

设定参数

如果你决定使用常态模型来近似 \( X \sim B(n, p) \),你需要计算新的平均值方差

  • 新平均值 (\( \mu \)): \( \mu = np \)
  • 新方差 (\( \sigma^2 \)): \( \sigma^2 = npq \) (其中 \( q = 1 - p \))

快速回顾: 对于大的 \( n \) 且 \( p \approx 0.5 \),我们可以使用 \( X \sim N(np, npq) \)。这会让计算变得简单许多!


5. 模型可能不适用的情况

A Level 数学很重要的一部分就是具备批判性思维。没有完美的模型!你可能会被问到为什么二项分布或常态分布在某些特定情境下可能不适用

二项分布可能失效的情况:

  • 试验不独立: 例如,如果你从一个小袋子中取物且不放回,每次取出的概率就会改变。
  • 概率改变: 例如,天气模型中,明天下雨的概率取决于今天是否下雨。

常态分布可能失效的情况:

  • 数据偏态 (Skewed): 如果数据在某一侧有“长尾巴”(例如房价或收入),对称的钟形曲线就无法精确拟合。
  • 范围受限: 常态分布理论上从 \( -\infty \) 到 \( +\infty \)。如果你的数据不可能为负(例如“叶子的长度”),且平均值太接近零,那么常态模型可能会产生误差。

重点总结: 务必检查假设条件(如独立性或对称性)。如果它们在现实中不成立,该分布就不适用。


成功检查清单

1. 离散数据 + 固定试验次数 + 恒定概率 \(\rightarrow\) 二项分布。
2. 连续数据 + 对称/钟形分布 \(\rightarrow\) 常态分布。
3. 大 \( n \) + \( p \approx 0.5 \) \(\rightarrow\) 可用常态分布近似二项分布。
4. 检查情境! 如果试验不独立或数据有偏态,你的模型可能会“出错”。