Probability distributions

欢迎来到概率分布的世界！

在本章中，我们将学习如何超越简单的“掷硬币”概念，开始从“宏观角度”审视数据。概率分布本质上就像一张蓝图或地图，告诉我们在随机过程中各种结果发生的可能性。无论你是要预测有多少人会点击广告，还是要精确测量一盒谷片的重量，这些分布都是你最强大的工具。

别担心，如果有些公式乍看之下很“硬核”，我们会把它们拆解成简单易懂的步骤，每个人都能学会！

1. 随机性的语言

在我们深入计算之前，必须先统一语言。在统计学中，我们使用随机变量 (Random Variables)（通常用大写字母如 \(X\) 表示）来代表取决于机会的结果。

离散与连续

这是你必须掌握的最重要区别：
• 离散随机变量 (Discrete Random Variables)： 这些变量只能取特定的、“可数”的值。想象成楼梯——你可以站在第 1 阶或第 2 阶，但不能站在第 1.5 阶。例子：一场比赛中的进球数，或一个家庭中的子女数量。
• 连续随机变量 (Continuous Random Variables)： 这些变量可以在某个范围内取任何值。想象成滑梯——你随时都可以处于任何高度。例子：跑马拉松所需的时间，或一颗苹果的精确质量。

独立与相关

• 独立 (Independent)： 如果一个事件的发生不会改变下一个事件的概率。
• 相关 (Dependent)： 如果第一个结果会改变第二个结果的“概率”。

快速复习：
• 随机 (Random)： 任何数值取决于机会变异的变量。
• 离散 (Discrete)： 可数的 (1, 2, 3...)。
• 连续 (Continuous)： 可测量的 (1.234...)。

2. 处理离散分布

离散概率分布通常以表格形式呈现，列出 \(x\) 的所有可能值及其对应的概率 \(P(X=x)\)。

黄金法则： 分布中所有概率的总和必须精确等于 1。
\(\sum P(X=x) = 1\)

寻找“平均值”与“离散程度”

在考试中，你常会被要求求出期望值 (Expected Value)（即平均值）和方差 (Variance)（即离散程度）。

期望值 \(E(X)\)

将其视为如果你进行数千次实验后的长期平均值。
公式： \(E(X) = \sum x P(X=x)\)
步骤：
1. 将每个值 \(x\) 乘以其对应的概率。
2. 将所有结果相加。这就是平均值！

方差 \(Var(X)\)

这告诉我们结果偏离平均值的程度。
公式： \(Var(X) = E(X^2) - [E(X)]^2\)
记忆口诀： 记作“平方的平均值，减去平均值的平方”。

常见错误提醒： 学生常忘记在最后将 \(E(X)\) 平方。务必检查方差是否为负数——方差一定要为正数！

3. 连续分布与均匀模型

对于连续数据，我们无法列出每个可能值（因为有无限多个小数！）。相反，我们使用概率密度函数 (Probability Density Function, PDF)。在图表中，曲线下方的总面积必须等于 1。

离散均匀分布 (Discrete Uniform Distribution)

这是最简单的模型。当每个结果发生的可能性都相等时使用。
类比：掷一颗公平的六面骰子。从 1 到 6 的每个数字都有完全相同的概率 (\(1/6\))。

连续均匀分布 (Continuous Uniform Distribution)

这常被称为“矩形分布”。当变量在两点 \(a\) 和 \(b\) 之间任何位置发生的概率都相等时使用。
你知道吗？ 因为矩形的面积是高 × 宽，且面积必须为 1，所以均匀分布的高度总是 \(1 / (b - a)\)。

4. 随机变量的线性组合

有时我们需要组合不同的随机变量。例如，如果你买了一杯咖啡 (\(X\)) 和一个三明治 (\(Y\))，总期望成本和总“风险”（方差）是多少？

期望值的运算规则

期望值非常“友好”，运算规律正如你直觉所想：
\(E(aX \pm bY) = aE(X) \pm bE(Y)\)
例子：如果你将咖啡分量加倍，你的预期成本也会直接加倍。

方差的运算规则（请小心！）

方差比较敏感。重要提醒： 此公式仅在变量为独立时才适用。
\(Var(aX \pm bY) = a^2Var(X) + b^2Var(Y)\)

关键技巧： 注意即使你是将变量相减，也必须将方差相加。为什么？因为结合两个不确定的事物，总会创造出更多的总不确定性（散布），永远不会减少！

快速复习：
• 当你将变量乘以 \(a\) 时，方差会乘以 \(a^2\)。
• 永远相加方差，绝对不要相减。

5. 选择正确的模型

在 Paper 1 中，你需要判断哪种分布适合真实情境。以下是一个快速指南：

• 二项分布 (Binomial)： 用于固定次数试验且只有“成功或失败”的情况。(例如：掷 10 次硬币中正面的次数)。
• 泊松分布 (Poisson)： 用于在时间或空间上以恒定速率发生的事件。(例如：一小时内收到的电子邮件数量)。
• 正态分布 (Normal)： 用于呈现钟形曲线，且数据聚集在平均值附近的情境。(例如：成年男性的身高)。
• 指数分布 (Exponential)： 用于建立泊松过程中事件之间时间间隔的模型。(例如：等待下一班公交车所需的时间)。

考试重点总结

1. 检查总和： 务必确保你的概率总和等于 1。
2. 常数要平方： 计算 \(Var(aX)\) 时，记得它会变成 \(a^2 Var(X)\)。
3. 独立变量： 只有在变量互不影响时，才能将方差相加。
4. 情境最重要： 当被要求“在情境中解释”时，一定要用题目提到的单位（例如：“分钟”、“公斤”或“通话次数”）。

如果起初觉得这些很棘手也不用担心——练习计算小表格的 \(E(X)\) 和 \(Var(X)\)，规律自然就会浮现了！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。