欢迎来到统计分布的世界!

在本章中,我们将从分析已有的数据,转向对未来可能发生的情况进行建模 (Modelling)。你可以把分布想象成一张“数学蓝图”,它告诉我们不同结果出现的可能性。无论你是要预测抛 100 次硬币会出现多少次正面,还是预估一个城市中人们的身高,统计分布都是你最好的帮手。

如果刚开始觉得有点抽象,别担心。我们将它拆解为两大类:离散型 (Discrete)(你可以数出来的事物)和 连续型 (Continuous)(你需要测量的事物)。


1. 离散随机变量 (Discrete Random Variables)

离散随机变量 (Discrete Random Variable)(通常记作 \(X\))是指只能取特定、离散数值的变量。例如,一场比赛中射入的球数可以是 0、1 或 2,但绝不可能是 1.5!

离散均匀分布 (The Discrete Uniform Distribution)

这是最简单的分布。当每个结果出现的概率都相等时,就会出现这种分布。 例子:投掷一枚公平的六面骰子。从 1 到 6 的每一个数字出现的概率都刚好是 \(1/6\)。

一般离散分布 (General Discrete Distributions)

分布通常以表格形式呈现,其中所有概率 \(P(X=x)\) 的总和必须等于 1。如果加起来不等于 1,那这就不是一个有效的概率分布!

快速回顾:
  • 离散型:只能取可数的数值。
  • 均匀分布:所有结果的概率相同。
  • 概率总和:\(\sum P(X=x) = 1\)。

2. 二项分布 (The Binomial Distribution) \(X \sim B(n, p)\)

当你进行固定次数的“试验”并想求出“成功”次数的概率时,就会用到二项分布。

什么时候可以使用?(BINS 准则)

要使用二项分布模型,必须满足四个条件。你可以通过缩写 BINS 来记忆:

  • B - Binary (二元):只有两种可能的结果(成功或失败)。
  • I - Independent (独立):一次试验的结果不会影响下一次。
  • N - Number (次数):试验次数是固定的 (\(n\))。
  • S - Success (成功率):每次试验的成功概率 (\(p\)) 保持不变。

使用计算器

对于 9MA0 课程,你不需要死记复杂的公式,善用计算器就够了!你需要熟悉两种模式:

  1. Binomial PD (概率密度):用于计算“刚好”等于某个数值的情况。例如:\(P(X = 5)\)。
  2. Binomial CD (累积概率):用于计算“小于或等于”某个数值的情况。例如:\(P(X \leq 5)\)。

常见错误:如果题目问的是 \(P(X > 5)\),请记住你的计算器只会计算“小于或等于”。你必须计算 \(1 - P(X \leq 5)\)。

重点总结:二项分布用于模拟在 \(n\) 次试验中,以固定概率 \(p\) 获得成功的次数。使用前一定要检查是否符合 BINS 准则!

3. 常态分布 (The Normal Distribution) \(X \sim N(\mu, \sigma^2)\)

如果说二项分布用于计数,那么常态分布就是用于测量身高、体重或时间等连续数值。它是连续型分布,意味着 \(X\) 可以取任何数值(例如 1.752m)。

钟形曲线 (The Bell Curve)

常态分布呈现对称的钟形:

  • 顶峰位于平均值 (Mean) (\(\mu\)) 处。
  • 曲线以平均值为中心完全对称。
  • 曲线下的总面积为 1(代表 100% 的概率)。
  • 曲线的“宽度”由标准差 (Standard Deviation) (\(\sigma\)) 决定。

拐点 (Points of Inflection)

你知道吗?当距离平均值正好一个标准差时,钟形曲线的“弧度”会从向下弯曲变为向上弯曲。 重要点:拐点位于 \(x = \mu + \sigma\) 和 \(x = \mu - \sigma\)。

求概率

请使用计算器的 Normal CD 模式。你需要输入下限 (Lower)、上限 (Upper)、\(\sigma\) 和 \(\mu\)。 例子:要计算 \(P(X > 10)\),将下限设为 10,上限设为一个非常大的数字,如 99,999。

快速回顾:
  • \(\mu\):钟形的中心。
  • \(\sigma\):钟形的宽度。
  • 总面积:永远等于 1。

4. 用常态分布近似二项分布 (Normal Approximation to the Binomial)

有时候,当二项分布的规模非常大时,其形状会变得非常接近常态分布。我们可以使用常态分布来近似二项分布,从而简化计算。

什么时候可以使用这种方法?

只有满足以下条件时,才能用常态分布近似 \(B(n, p)\):

  • \(n\) 很大(通常 \(n > 50\))。
  • \(p\) 接近 0.5(分布不会太过偏斜)。

参数设定

如果 \(X \sim B(n, p)\),那么近似的常态分布 \(Y \sim N(\mu, \sigma^2)\) 的参数为:

  • 平均值:\(\mu = np\)
  • 变异数:\(\sigma^2 = np(1 - p)\)

连续性修正 (Continuity Correction)

这是最让学生头痛的地方!因为我们从离散的“阶梯状”(二项)转变为平滑的“斜坡”(常态),我们必须对数值进行微调。

  • 如果二项题目问 \(P(X \leq 5)\),使用常态分布计算 \(P(Y < 5.5)\)。
  • 如果二项题目问 \(P(X \geq 5)\),使用常态分布计算 \(P(Y > 4.5)\)。
  • 如果二项题目问 \(P(X = 5)\),使用常态分布计算 \(P(4.5 < Y < 5.5)\)。

可以这样想:为了完整包含数字 5 的整个“柱状图区间”,你需要从 4.5 延伸到 5.5。


5. 选择与评估分布模型

在考试中,你可能会被问到为什么某个模型适用。以下是一些常见的原因:

二项分布失效的原因:

  • 试验不独立(例如:从抽屉中取出袜子但不放回)。
  • 概率会随时间改变(例如:天气模式)。

常态分布失效的原因:

  • 数据呈现偏斜 (Skewed)(不对称)。
  • 数据中存在常态模型无法解释的“极端离群值”。
重点总结:现实世界很复杂!模型只是简化。务必留意题目中的“独立 (Independent)”或“随机 (Random)”等关键字,来论证为什么可以使用这些分布。

9MA0 最终考试小撇步

  • 读懂符号:\(N(\mu, \sigma^2)\) 中括号里的是变异数 (Variance)。如果题目说 \(N(10, 16)\),则 \(\sigma = 4\)。别忘了输入计算器前要开根号!
  • 画出曲线:在做常态分布题时,一定要快速画出钟形曲线,并标示出你要找的区域。这有助于避免在上下限设定上犯低级错误。
  • 联立方程:如果需要求 \(\mu\) 和 \(\sigma\),请使用统计分布表或计算器的 Inverse Normal 功能来建立两个方程式求解。
  • 检查边界:对于 Binomial CD,务必检查题目问的是 \(\leq\) 还是 \(<\)。你的计算器只会计算 \(\leq\)。

你一定做得到的!统计分布只是一套工具。一旦你知道该选哪种工具,以及按下计算器上的哪些按钮,分数自然会手到擒来!