Statistical distributions

欢迎来到统计分布的世界！

在本章中，我们将从分析已有的数据，转向对未来可能发生的情况进行建模 (Modelling)。你可以把分布想象成一张“数学蓝图”，它告诉我们不同结果出现的可能性。无论你是要预测抛 100 次硬币会出现多少次正面，还是预估一个城市中人们的身高，统计分布都是你最好的帮手。

如果刚开始觉得有点抽象，别担心。我们将它拆解为两大类：离散型 (Discrete)（你可以数出来的事物）和 连续型 (Continuous)（你需要测量的事物）。

1. 离散随机变量 (Discrete Random Variables)

离散随机变量 (Discrete Random Variable)（通常记作 \(X\)）是指只能取特定、离散数值的变量。例如，一场比赛中射入的球数可以是 0、1 或 2，但绝不可能是 1.5！

离散均匀分布 (The Discrete Uniform Distribution)

这是最简单的分布。当每个结果出现的概率都相等时，就会出现这种分布。 例子：投掷一枚公平的六面骰子。从 1 到 6 的每一个数字出现的概率都刚好是 \(1/6\)。

一般离散分布 (General Discrete Distributions)

分布通常以表格形式呈现，其中所有概率 \(P(X=x)\) 的总和必须等于 1。如果加起来不等于 1，那这就不是一个有效的概率分布！

快速回顾：

离散型：只能取可数的数值。
均匀分布：所有结果的概率相同。
概率总和：\(\sum P(X=x) = 1\)。

2. 二项分布 (The Binomial Distribution) \(X \sim B(n, p)\)

当你进行固定次数的“试验”并想求出“成功”次数的概率时，就会用到二项分布。

什么时候可以使用？（BINS 准则）

要使用二项分布模型，必须满足四个条件。你可以通过缩写 BINS 来记忆：

B - Binary (二元)：只有两种可能的结果（成功或失败）。
I - Independent (独立)：一次试验的结果不会影响下一次。
N - Number (次数)：试验次数是固定的 (\(n\))。
S - Success (成功率)：每次试验的成功概率 (\(p\)) 保持不变。

使用计算器

对于 9MA0 课程，你不需要死记复杂的公式，善用计算器就够了！你需要熟悉两种模式：

Binomial PD (概率密度)：用于计算“刚好”等于某个数值的情况。例如：\(P(X = 5)\)。
Binomial CD (累积概率)：用于计算“小于或等于”某个数值的情况。例如：\(P(X \leq 5)\)。

常见错误：如果题目问的是 \(P(X > 5)\)，请记住你的计算器只会计算“小于或等于”。你必须计算 \(1 - P(X \leq 5)\)。

重点总结：二项分布用于模拟在 \(n\) 次试验中，以固定概率 \(p\) 获得成功的次数。使用前一定要检查是否符合 BINS 准则！

3. 常态分布 (The Normal Distribution) \(X \sim N(\mu, \sigma^2)\)

如果说二项分布用于计数，那么常态分布就是用于测量身高、体重或时间等连续数值。它是连续型分布，意味着 \(X\) 可以取任何数值（例如 1.752m）。

钟形曲线 (The Bell Curve)

常态分布呈现对称的钟形：

顶峰位于平均值 (Mean) (\(\mu\)) 处。
曲线以平均值为中心完全对称。
曲线下的总面积为 1（代表 100% 的概率）。
曲线的“宽度”由标准差 (Standard Deviation) (\(\sigma\)) 决定。

拐点 (Points of Inflection)

你知道吗？当距离平均值正好一个标准差时，钟形曲线的“弧度”会从向下弯曲变为向上弯曲。 重要点：拐点位于 \(x = \mu + \sigma\) 和 \(x = \mu - \sigma\)。

求概率

请使用计算器的 Normal CD 模式。你需要输入下限 (Lower)、上限 (Upper)、\(\sigma\) 和 \(\mu\)。 例子：要计算 \(P(X > 10)\)，将下限设为 10，上限设为一个非常大的数字，如 99,999。

快速回顾：

\(\mu\)：钟形的中心。
\(\sigma\)：钟形的宽度。
总面积：永远等于 1。

4. 用常态分布近似二项分布 (Normal Approximation to the Binomial)

有时候，当二项分布的规模非常大时，其形状会变得非常接近常态分布。我们可以使用常态分布来近似二项分布，从而简化计算。

什么时候可以使用这种方法？

只有满足以下条件时，才能用常态分布近似 \(B(n, p)\)：

\(n\) 很大（通常 \(n > 50\)）。
\(p\) 接近 0.5（分布不会太过偏斜）。

参数设定

如果 \(X \sim B(n, p)\)，那么近似的常态分布 \(Y \sim N(\mu, \sigma^2)\) 的参数为：

平均值：\(\mu = np\)
变异数：\(\sigma^2 = np(1 - p)\)

连续性修正 (Continuity Correction)

这是最让学生头痛的地方！因为我们从离散的“阶梯状”（二项）转变为平滑的“斜坡”（常态），我们必须对数值进行微调。

如果二项题目问 \(P(X \leq 5)\)，使用常态分布计算 \(P(Y < 5.5)\)。
如果二项题目问 \(P(X \geq 5)\)，使用常态分布计算 \(P(Y > 4.5)\)。
如果二项题目问 \(P(X = 5)\)，使用常态分布计算 \(P(4.5 < Y < 5.5)\)。

可以这样想：为了完整包含数字 5 的整个“柱状图区间”，你需要从 4.5 延伸到 5.5。

5. 选择与评估分布模型

在考试中，你可能会被问到为什么某个模型不适用。以下是一些常见的原因：

二项分布失效的原因：

试验不独立（例如：从抽屉中取出袜子但不放回）。
概率会随时间改变（例如：天气模式）。

常态分布失效的原因：

数据呈现偏斜 (Skewed)（不对称）。
数据中存在常态模型无法解释的“极端离群值”。

重点总结：现实世界很复杂！模型只是简化。务必留意题目中的“独立 (Independent)”或“随机 (Random)”等关键字，来论证为什么可以使用这些分布。

9MA0 最终考试小撇步

读懂符号：\(N(\mu, \sigma^2)\) 中括号里的是变异数 (Variance)。如果题目说 \(N(10, 16)\)，则 \(\sigma = 4\)。别忘了输入计算器前要开根号！
画出曲线：在做常态分布题时，一定要快速画出钟形曲线，并标示出你要找的区域。这有助于避免在上下限设定上犯低级错误。
联立方程：如果需要求 \(\mu\) 和 \(\sigma\)，请使用统计分布表或计算器的 Inverse Normal 功能来建立两个方程式求解。
检查边界：对于 Binomial CD，务必检查题目问的是 \(\leq\) 还是 \(<\)。你的计算器只会计算 \(\leq\)。

你一定做得到的！统计分布只是一套工具。一旦你知道该选哪种工具，以及按下计算器上的哪些按钮，分数自然会手到擒来！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。