欢迎来到统计分布!

在本章中,我们将从观察已收集的数据,进阶到预测未来可能发生的情况。统计分布(Statistical distributions)就像数学上的“蓝图”,告诉我们随机事件中各种结果发生的可能性。无论你是在预测有多少人会点击广告,还是花园里有多少种子会发芽,这些工具都将成为你最好的帮手!

如果公式起初看起来有点吓人,请别担心。我们将一步步拆解它们,你很快就会发现,绝大部分繁琐的计算其实都可以交给计算器完成!


1. 离散概率分布

在深入了解特定的模型之前,我们需要先理解什么是离散随机变量(Discrete Random Variable)

  • 变量(Variable):一个可以改变的量(通常称为 \( X \))。
  • 随机(Random):结果取决于机会。
  • 离散(Discrete):它只能取特定的、分开的数值(例如 0, 1, 2...)。你不可能有 1.5 个兄弟姐妹,也不可能掷硬币 2.3 次!

表示分布的方式

我们可以通过两种主要方式来呈现分布:表格(table)公式(formula)(概率质量函数)。

黄金法则:对于任何离散概率分布,所有个别概率的总和必须等于 1。 \( \sum P(X=x) = 1 \)。如果总和不等于 1,这就不是一个有效的概率分布!

例子(表格):想象一个三面的转盘。
\( x \):1, 2, 3
\( P(X=x) \):0.2, 0.5, 0.3
在这里,\( 0.2 + 0.5 + 0.3 = 1.0 \)。它是有效的!

例子(公式):有时概率会以函数形式给出,例如 \( P(X=x) = kx \),其中 \( x = 1, 2, 3 \)。若要找出 \( k \),你需要将 \( 1k + 2k + 3k \) 相加并令其等于 1。

重点回顾:

核心概念:离散分布处理的是“可数”的结果,且“地图”上的所有概率总和必须恰好为 1。


2. 二项分布

二项分布(Binomial Distribution)是一种特殊类型的分布,用于我们有固定次数的试验,且只有两种可能的结果时:成功(Success)失败(Failure)

我们何时可以使用它?(BINS 记忆法)

要使用二项模型,必须满足四个条件。请记住 BINS

  • B - Binary(二元):只有两种结果(成功或失败)。
  • I - Independent(独立):一次试验的结果不会影响下一次。
  • N - Number(次数):试验次数是固定的(\( n \))。
  • S - Success(成功):每次试验成功的概率(\( p \))都是相同的。

符号表示:我们写作 \( X \sim B(n, p) \)。
其中 \( n \) 是试验次数,\( p \) 是成功概率。

你知道吗?“二项”(Binomial)一词来自“Bi”(两个)和“nom”(名称/项)——指的是那两种结果:成功和失败!


3. 计算二项概率

要找出恰好获得 \( x \) 次成功的概率,有两种方法:使用公式或使用计算器。

公式法

在 \( n \) 次试验中获得恰好 \( x \) 次成功的概率为:
\( P(X=x) = \binom{n}{x} p^x (1-p)^{n-x} \)

让我们拆解一下:

  • \( \binom{n}{x} \):这是安排成功次序的方法数(在计算器上使用 \( nCr \) 按键)。
  • \( p^x \):成功概率的 \( x \) 次方。
  • \( (1-p)^{n-x} \):失败概率的失败次数次方。

使用计算器(专业方法)

在 OCR 考试中,你需要会使用计算器的统计功能。

  • Binomial PD (Probability Density):用于找出精确数值的概率,例如 \( P(X = 3) \)。
  • Binomial CD (Cumulative Distribution):用于找出范围的概率,特别是“不大 于某数”(包含该数),例如 \( P(X \le 3) \)。

常见陷阱:如果题目要求“大于 3”(\( P(X > 3) \)),计算器无法直接运算。你必须计算 \( 1 - P(X \le 3) \)。永远记住总概率是 1!

重点回顾:

核心概念:遇到“成功/失败”的情境请使用 \( X \sim B(n, p) \)。求“恰好”用 PD;求“不大 于”用 CD。随时检查是否需要用 \( 1 - \dots \) 来计算补集。


4. 模型与假设

在考试题目中,你经常会被要求评价(criticise)模型或陈述假设(assumptions)

  • 条件(Condition):数学运作所需的要求(例如:“试验必须是独立的”)。
  • 假设(Assumption):当你在真实情境中假设条件已满足(例如:“我们假设一名学生感冒不会影响另一名学生感冒的概率”)。

例子:如果你从一个非常大的群体中抽取样本,即使我们采取不放回抽样,我们通常也会假设它们是独立的,因为群体实在太大,概率的改变微乎其微。课程大纲指出,除非另有说明,否则你可以假设群体够大,足以进行不放回抽样。

小提醒:语境很重要!在解释假设时,一定要结合题目的背景(例如谈论“种子”、“汽车”或“投票”,而不仅仅是 \( n \) 和 \( p \))。


总结清单

1. 我所有离散概率的总和是否等于 1?
2. 该情境是否符合 BINS
3. 我是否已正确找出 \( n \)(试验次数)和 \( p \)(成功概率)?
4. 求“恰好”时我有使用 PD 吗?求“不大 于”时我有使用 CD 吗?
5. 如果题目问“至少(at least)”,我是用 \( 1 - P(X \le \dots) \) 来计算吗?

你已经完成了统计分布的笔记!持续练习使用计算器——这是熟习这些概念的最佳途径。