M1 学习笔记:二项分布

各位同学好!欢迎来到统计学中最有用的课题笔记之一:二项分布 (The Binomial Distribution)。即使名称听起来很复杂也不用担心,其实它是一个非常实用、很有逻辑的工具,帮助我们理解日常生活中经常遇到的情况。

你有没有想过,在一份多项选择题测验里面,猜中答案的机会有多大?又或者一个篮球运动员投进若干个罚球的概率是多少?二项分布就是解答这些问题的关键!在这一章,你会学到:

  • 什么是“伯努利试验”(Bernoulli trial) (它是最简单的构成要素)。
  • 如何辨识符合二项分布的情况。
  • 如何运用公式来计算概率。
  • 如何快速找到平均值 (期望值) 和方差。

让我们一起深入了解吧,你就会发现它比想象中简单得多!


1. 基础构成:伯努利试验

在我们学会跑之前,我们必须先学会走。“二项分布”的“走”就是“伯努利试验 (Bernoulli trial)”。它的名称听起来很专业,但其实只是一个很简单的概念。

一个伯努利试验是指一个单次实验,而它只有两种可能的结果

我们通常会将这两种结果标记为:

  • 成功 (Success):我们有兴趣计数的结果。
  • 失败 (Failure):另一个可能的结果。

重要提示:“成功”不一定是指一件好事!如果你是研究某件产品有缺陷的概率,那么发现一件“有缺陷”的产品,对这个实验来说就是“成功”。它只是一个标记,用来表示你正在计数的那样东西。

伯努利试验的例子:
  • 掷一枚硬币一次: 成功 = 掷到正面,失败 = 掷到反面。
  • 投一次罚球: 成功 = 投进,失败 = 投失。
  • 生产线上的单一产品: 成功 = 产品有缺陷,失败 = 产品无缺陷。

在任何伯努利试验中,我们会用 p 代表成功的概率,而 1-p 就代表失败的概率。

重点提示

伯努利试验是一个单次实验,只有两个结果:成功或失败。它是二项分布的基本构成部分。


2. 什么是二项分布?

那么当我们连续进行多次伯努利试验的时候,会发生什么事呢?这个时候,我们就会得到一个二项分布 (Binomial distribution)

二项分布描述了在固定次数的独立伯努利试验中,获得特定数目成功的概率。

让我们回到掷硬币的例子。
掷一次是一个伯努利试验。
连续掷五次就是一个二项实验。 我们就可以问类似“在这五次掷硬币中,恰好掷到 3 次正面的概率是多少?”这类问题。

符号表示:X ~ B(n, p)

这是表示一个随机变量符合二项分布的官方写法。它看起来像程序代码,但一拆开就简单易懂了:

  • X:这是我们的离散随机变量,代表我们得到的成功次数。例如,X 可以是“在 5 次掷硬币中,掷到正面的次数”。
  • ~:这条小波浪线只是表示“服从…分布”。
  • B:代表 Binomial (二项)
  • (n, p):这两个是分布的“参数 (parameters)”。
    • n = 总试验次数。
    • p = 任何单次试验成功的概率。

例子:如果我们掷一枚公平的硬币 10 次,以及我们计数掷到正面的次数,那么符号表示就会是 X ~ B(10, 0.5)。在这里,n=10,p=0.5。


3. 如何判断是不是二项分布问题?用 B.I.N.S. 口诀!

你不能将二项分布套用在所有问题上!一个情况必须符合四个特定条件。一个很好的方法去记住它们就是用口诀 B.I.N.S.

B.I.N.S. 清单:

B - Binary (二元):每次试验是不是只有两种可能结果 (成功/失败)?
例子:掷骰子掷到“4”(成功) 和 掷不到“4”(失败)。

I - Independent (独立):一次试验的结果是不是完全不受之前试验结果的影响?
例子:掷硬币是独立的。那枚硬币不会记得上次的结果。
非例子:从一副牌中不放回地抽取两张牌。第二张牌的概率取决于第一张牌是什么。

N - Number of Trials (试验次数):试验次数 n 是不是事先固定了?
例子:“我们会恰好掷硬币 20 次。”(固定)
非例子:“我们会一直掷硬币,直到掷到 3 次正面为止。”(无固定)

S - Same Probability (相同概率):成功的概率 p 是不是每次试验都相同?
例子:掷一个公平骰子掷到“6”的概率永远是 1/6,无论你掷多少次。

常见错误要避免

最常见的错误是在没有检查 B.I.N.S. 条件的情况下,就假设那个问题是二项分布。在开始计算之前,记得永远要在脑海中快速检查一次这份清单!

重点提示

如果一个情况符合所有四个 B.I.N.S. 条件,那么它就是一个二项分布问题。如果其中一个条件都不符合,你就不能用二项分布公式。


4. 公式:你的计算工具

好的,我们已经辨识到一个二项分布问题。那么如何找到概率呢?我们会用到二项概率公式 (Binomial Probability Formula)

如果 X ~ B(n, p),那么得到恰好 k 次成功的概率是:

$$P(X=k) = C_k^n p^k (1-p)^{n-k}$$

不要被它吓到!让我们将它拆成三个简单部分:

  1. $$C_k^n$$ 这个部分告诉我们在“n”次试验中,有“k”次成功的排列方式有多少种。你在核心数学 (Core Maths) 都见过它了!它就是组合公式,你可以在你的计算器上找到它的 nCr 功能键。(例如,C_2^5 意思是“在 5 件物品中,有多少种方法可以选出 2 件?”)

  2. $$p^k$$ 这是得到“k”次成功的概率。如果一次成功的概率是“p”,那么“k”次成功的概率就是 p 乘自己 k 次。

  3. $$(1-p)^{n-k}$$ 这是其余“n-k”次试验为失败的概率。如果成功的概率是“p”,那么失败的概率就是“1-p”。我们需要“n-k”次失败。
逐步示范例子

问题:一个篮球运动员投进任何一个罚球的机会是 70%。如果他投 5 球,他恰好投进 4 球的概率是多少?

步骤 1:识别 n、p 和 k。

  • 这个情况是二项分布 (检查 B.I.N.S.!)。
  • 试验次数,n = 5
  • 成功概率 (投进),p = 0.7
  • 我们想要的成功次数,k = 4
所以,我们想找 P(X=4)。

步骤 2:代入公式。$$P(X=4) = C_4^5 (0.7)^4 (1-0.7)^{5-4}$$

步骤 3:计算每个部分。

  • $C_4^5 = 5$ (用你的计算器的 nCr 功能)
  • $(0.7)^4 = 0.2401$
  • $(1-0.7)^{5-4} = (0.3)^1 = 0.3$

步骤 4:将它们相乘。$$P(X=4) = 5 \times 0.2401 \times 0.3 = 0.36015$$所以,他恰好投进 5 球中的 4 球,大约有 36% 的机会。


5. “恰好”以外:“最少”和“最多”

试题通常会要求你计算多于一个特定数字的概率。它们可能会问“最少 2 次成功”或者“最多 3 次成功”的概率。

“最多 k 个”成功:P(X ≤ k)
这个意思是指 k 次成功、或者 k-1 次、或者 k-2 次、...,一直到 0 次。你需要计算每个概率再将它们加起来。$$P(X \le k) = P(X=0) + P(X=1) + ... + P(X=k)$$

“最少 k 个”成功:P(X ≥ k)
这个意思是指 k 次成功、或者 k+1 次、...,一直到 n 次。你可以将它们全部加起来,但有一个更快的方法:互补事件法则 (complement rule)

所有结果的总概率是 1。所以,“最少 k 次”的概率等于 1 减去“少于 k 次”的概率。$$P(X \ge k) = 1 - P(X < k)$$$$P(X \ge k) = 1 - [P(X=0) + P(X=1) + ... + P(X=k-1)]$$

例子:篮球运动员投进最少 4 球 (总共 5 球) 的概率是多少?
“最少 4 球”意思是指 P(X=4) 或者 P(X=5)。$$P(X \ge 4) = P(X=4) + P(X=5)$$
我们之前已经找到 P(X=4) = 0.36015。
现在我们找 P(X=5):$$P(X=5) = C_5^5 (0.7)^5 (0.3)^0 = 1 \times 0.16807 \times 1 = 0.16807$$
所以,P(X ≥ 4) = 0.36015 + 0.16807 = 0.52822


6. 速学:期望值与方差

有时,我们不需要计算特定的概率。我们只是想知道平均结果,或者结果可能的分散程度。幸运的是,二项分布的期望值和方差公式都非常简单!

期望值,E(X)
这是如果你重复进行实验很多很多次,预期会得到的平均成功次数。$$E(X) = np$$

方差,Var(X)
这个衡量了分布的“分散程度”。方差越大,代表结果越难预测。$$Var(X) = np(1-p)$$

(课程备注:这些公式的证明不是考试要求。你只需要知道它们和如何运用它们!)

例子:

如果你掷一枚公平的硬币 100 次 (n=100, p=0.5),预期掷到正面的次数和方差是多少?

期望值:$$E(X) = np = 100 \times 0.5 = 50$$这个结果完全合理!你预期会掷到 50 次正面。

方差:$$Var(X) = np(1-p) = 100 \times 0.5 \times (1-0.5) = 100 \times 0.5 \times 0.5 = 25$$

你知道吗?

当 p = 0.5 的时候,二项分布的方差是最高的。这个意思是指当成功和失败的机会均等时 (好似掷硬币一样),一个实验的结果最难预测!


章节总结:快速回顾

以下是你对二项分布需要记住的绝对重点。

  • 伯努利试验: 单次实验,只有两个结果 (成功/失败)。
  • 二项条件 (B.I.N.S.):
    • Binary outcomes (二元结果)
    • Independent trials (独立试验)
    • Number of trials is fixed (试验次数固定)
    • Same probability of success (成功概率相同)
  • 符号表示:
    $$X \sim B(n, p)$$
  • 概率公式:
    $$P(X=k) = C_k^n p^k (1-p)^{n-k}$$
  • 期望值:
    $$E(X) = np$$
  • 方差:
    $$Var(X) = np(1-p)$$

就是这么多!透过理解这些核心概念,你就掌握了一个强大的工具,可以解决各种各样的概率问题。勤奋练习使用 B.I.N.S. 清单以及公式,你很快就会精通这个课题了。祝你学习顺利!