欢迎来到概率分布的世界!

在本章中,我们将学习如何超越简单的“掷硬币”概念,开始从“宏观角度”审视数据。概率分布本质上就像一张蓝图或地图,告诉我们在随机过程中各种结果发生的可能性。无论你是要预测有多少人会点击广告,还是要精确测量一盒谷片的重量,这些分布都是你最强大的工具。

别担心,如果有些公式乍看之下很“硬核”,我们会把它们拆解成简单易懂的步骤,每个人都能学会!

1. 随机性的语言

在我们深入计算之前,必须先统一语言。在统计学中,我们使用随机变量 (Random Variables)(通常用大写字母如 \(X\) 表示)来代表取决于机会的结果。

离散与连续

这是你必须掌握的最重要区别:
离散随机变量 (Discrete Random Variables): 这些变量只能取特定的、“可数”的值。想象成楼梯——你可以站在第 1 阶或第 2 阶,但不能站在第 1.5 阶。例子:一场比赛中的进球数,或一个家庭中的子女数量。
连续随机变量 (Continuous Random Variables): 这些变量可以在某个范围内取任何值。想象成滑梯——你随时都可以处于任何高度。例子:跑马拉松所需的时间,或一颗苹果的精确质量。

独立与相关

独立 (Independent): 如果一个事件的发生不会改变下一个事件的概率。
相关 (Dependent): 如果第一个结果会改变第二个结果的“概率”。

快速复习:
随机 (Random): 任何数值取决于机会变异的变量。
离散 (Discrete): 可数的 (1, 2, 3...)。
连续 (Continuous): 可测量的 (1.234...)。

2. 处理离散分布

离散概率分布通常以表格形式呈现,列出 \(x\) 的所有可能值及其对应的概率 \(P(X=x)\)。

黄金法则: 分布中所有概率的总和必须精确等于 1。
\(\sum P(X=x) = 1\)

寻找“平均值”与“离散程度”

在考试中,你常会被要求求出期望值 (Expected Value)(即平均值)和方差 (Variance)(即离散程度)。

期望值 \(E(X)\)

将其视为如果你进行数千次实验后的长期平均值。
公式: \(E(X) = \sum x P(X=x)\)
步骤:
1. 将每个值 \(x\) 乘以其对应的概率。
2. 将所有结果相加。这就是平均值!

方差 \(Var(X)\)

这告诉我们结果偏离平均值的程度。
公式: \(Var(X) = E(X^2) - [E(X)]^2\)
记忆口诀: 记作“平方的平均值,减去平均值的平方”。

常见错误提醒: 学生常忘记在最后将 \(E(X)\) 平方。务必检查方差是否为负数——方差一定要为正数!

3. 连续分布与均匀模型

对于连续数据,我们无法列出每个可能值(因为有无限多个小数!)。相反,我们使用概率密度函数 (Probability Density Function, PDF)。在图表中,曲线下方的总面积必须等于 1。

离散均匀分布 (Discrete Uniform Distribution)

这是最简单的模型。当每个结果发生的可能性都相等时使用。
类比:掷一颗公平的六面骰子。从 1 到 6 的每个数字都有完全相同的概率 (\(1/6\))。

连续均匀分布 (Continuous Uniform Distribution)

这常被称为“矩形分布”。当变量在两点 \(a\) 和 \(b\) 之间任何位置发生的概率都相等时使用。
你知道吗? 因为矩形的面积是高 × 宽,且面积必须为 1,所以均匀分布的高度总是 \(1 / (b - a)\)。

4. 随机变量的线性组合

有时我们需要组合不同的随机变量。例如,如果你买了一杯咖啡 (\(X\)) 和一个三明治 (\(Y\)),总期望成本和总“风险”(方差)是多少?

期望值的运算规则

期望值非常“友好”,运算规律正如你直觉所想:
\(E(aX \pm bY) = aE(X) \pm bE(Y)\)
例子:如果你将咖啡分量加倍,你的预期成本也会直接加倍。

方差的运算规则(请小心!)

方差比较敏感。重要提醒: 此公式仅在变量为独立时才适用。
\(Var(aX \pm bY) = a^2Var(X) + b^2Var(Y)\)

关键技巧: 注意即使你是将变量相减,也必须将方差相加。为什么?因为结合两个不确定的事物,总会创造出更多的总不确定性(散布),永远不会减少!

快速复习:
• 当你将变量乘以 \(a\) 时,方差会乘以 \(a^2\)。
• 永远相加方差,绝对不要相减。

5. 选择正确的模型

在 Paper 1 中,你需要判断哪种分布适合真实情境。以下是一个快速指南:

二项分布 (Binomial): 用于固定次数试验且只有“成功或失败”的情况。(例如:掷 10 次硬币中正面的次数)。
泊松分布 (Poisson): 用于在时间或空间上以恒定速率发生的事件。(例如:一小时内收到的电子邮件数量)。
正态分布 (Normal): 用于呈现钟形曲线,且数据聚集在平均值附近的情境。(例如:成年男性的身高)。
指数分布 (Exponential): 用于建立泊松过程中事件之间时间间隔的模型。(例如:等待下一班公交车所需的时间)。

考试重点总结

1. 检查总和: 务必确保你的概率总和等于 1。
2. 常数要平方: 计算 \(Var(aX)\) 时,记得它会变成 \(a^2 Var(X)\)。
3. 独立变量: 只有在变量互不影响时,才能将方差相加。
4. 情境最重要: 当被要求“在情境中解释”时,一定要用题目提到的单位(例如:“分钟”、“公斤”或“通话次数”)。

如果起初觉得这些很棘手也不用担心——练习计算小表格的 \(E(X)\) 和 \(Var(X)\),规律自然就会浮现了!