欢迎来到随机变量的线性组合!

你好!今天我们将探讨如何结合不同的随机变量。你可以把这一章想象成“统计学的乐高积木”。我们将个别的数据库(例如一个学生的身高)组合在一起,或者将其扩大倍数(例如全班学生的总身高),来看看会发生什么变化。

如果起初觉得有些抽象也不用担心。学完这些笔记后,你会发现这其实只是遵循几条黄金法则而已。让我们开始吧!

1. 单个变量的缩放与平移

假设你有一个随机变量 \(X\),这可以是苹果的重量。如果我们将会每个苹果的重量加倍 (\(2X\)),或者给每个苹果贴上一个 10g 的标签 (\(X + 10\)),会发生什么事呢?

期望值 (Mean)

期望值,即 \(E(X)\),非常“听话”。它会完全按照你的预期运作。如果你将数据乘以 \(a\) 再加上 \(b\),平均值也会进行相同的运算。

公式: \(E(aX + b) = aE(X) + b\)

方差 (Variance)

方差,即 \(Var(X)\),是用来衡量数据的离散程度。如果你给每个数值加上一个常数 \(b\),离散程度是不会改变的(整个图形只是平移了)。然而,如果你乘以一个常数 \(a\),离散程度会变为原来的 \(a^2\) 倍。

公式: \(Var(aX + b) = a^2Var(X)\)

例子: 如果 \(E(X) = 10\) 且 \(Var(X) = 4\),那么 \(3X + 5\) 的平均值和方差分别是多少?
1. 新平均值: \(3(10) + 5 = 35\)
2. 新方差: \(3^2 \times 4 = 9 \times 4 = 36\)

小贴士: 在计算方差时,记得一定要将乘数平方!在计算方差时,常数 \(b\) 会被忽略,因为平移数据并不会让它变得更“分散”或更“集中”。

重点总结: 平均值完全遵循公式;方差则忽略加减运算,并将乘数平方。

2. 结合两个或多个变量

现在,如果我们有两个不同的变量 \(X\) 和 \(Y\) 呢?例如,\(X\) 是麦片盒的重量,\(Y\) 是里面玩具的重量。

和的期望值

再一次,平均值是非常友好的。要找出总平均值,只需将个别的平均值相加即可。

\(E(X + Y) = E(X) + E(Y)\)
\(E(X - Y) = E(X) - E(Y)\)

和的方差(针对独立变量)

这是学生最容易绊倒的地方!如果 \(X\) 和 \(Y\) 是独立的(意味着一个变量不会影响另一个),那么它们的方差永远是相加的,即使是在进行变量相减的情况下也是如此。

公式:
\(Var(X + Y) = Var(X) + Var(Y)\)
\(Var(X - Y) = Var(X) + Var(Y)\)

类比:“不确定性”规则
将方差想象成“不确定性”或“误差”。如果你将两个项目加在一起,你的不确定性会增加。如果你从一个项目中减去另一个,你仍然有两个误差来源,所以总体的不确定性仍然会增加。你不能减去不确定性!

你知道吗? 在剑桥 9709 课程大纲中,只有当变量独立时,你才能使用这些方差公式。做题时一定要留意这个关键词!

重点总结: 平均值可以相加或相减。方差则永远相加(前提是变量必须是独立的)。

3. “加倍”与“两个不同变量”的陷阱

这是整个章节中最常见的错误。请务必仔细看!

情况 A: \(2X\)(单个项目加倍)
这是一个苹果,我们透过魔法让它变得两倍重。
\(Var(2X) = 2^2 \times Var(X) = 4Var(X)\)

情况 B: \(X_1 + X_2\)(两个不同的苹果)
这是从同一棵树上摘下的两个独立苹果。它们是相互独立的。
\(Var(X_1 + X_2) = Var(X_1) + Var(X_2) = 2Var(X)\)

注意区别: \(4Var(X)\) 远大于 \(2Var(X)\)。将一个变量加倍,比将两个独立变量相加要“风险更大”(离散程度更高)。

重点总结: 将一个变量乘以 \(n\) 与将该变量的 \(n\) 个独立副本相加并不相同。

4. 正态分布的线性组合

如果你的变量 \(X\) 和 \(Y\) 服从正态分布,那么它们的任何线性组合(例如 \(2X + 3Y\))也将服从正态分布。这非常有用,因为这意味着我们仍然可以使用 Z-表!

正态分布问题的解题步骤:
1. 求新平均值: 使用 \(E(aX + bY)\) 规则。
2. 求新方差: 使用 \(Var(aX + bY)\) 规则。
3. 写出新分布: \(W \sim N(\mu_{new}, \sigma^2_{new})\)。
4. 标准化: 使用 \(Z = \frac{W - \mu}{\sigma}\)(记得使用标准差,即新方差的平方根)。
5. 求概率: 在正态分布表中查出对应数值。

例子:
设 \(X \sim N(10, 4)\) 且 \(Y \sim N(12, 9)\)。求 \(P(X + Y > 25)\)。
- 新平均值: \(10 + 12 = 22\)
- 新方差: \(4 + 9 = 13\)
- 新分布: \(S \sim N(22, 13)\)
- 标准化: \(Z = \frac{25 - 22}{\sqrt{13}} = \frac{3}{3.606} = 0.832\)
- 现在像平时一样求解 \(P(Z > 0.832)\)。

重点总结: 如果输入是正态分布,输出也一定是正态分布。只需先算出新的平均值和方差即可!

5. 独立泊松变量之和

如果你有两个独立的泊松变量 \(X \sim Po(\lambda_1)\) 和 \(Y \sim Po(\lambda_2)\),它们的和也服从泊松分布!

公式: \(X + Y \sim Po(\lambda_1 + \lambda_2)\)

注意:这仅适用于变量相加,不适用于减法或乘以常数。

避免常见错误

忘记对 \(a\) 平方: 在方差中,\(Var(3X)\) 是 \(9Var(X)\),而不是 \(3Var(X)\)。
相减方差: 即使题目要求的是 \(Var(X - Y)\),你也必须相加方差。
标准差与方差: 正态分布的符号是 \(N(\mu, \sigma^2)\)。如果题目说标准差是 5,那么你的方差是 25!开始计算前,一定要检查你手上的是哪一个。
混淆 \(nX\) 与 \(X_1 + X_2 + ... + X_n\): 仔细读题。你是将一个测量值乘以 \(n\),还是将 \(n\) 个独立的测量值相加?

速查箱

期望值: \(E(aX + bY + c) = aE(X) + bE(Y) + c\)
方差: \(Var(aX \pm bY \pm c) = a^2Var(X) + b^2Var(Y)\)(仅限独立时)
正态分布: 正态变量的组合永远是正态分布。
泊松分布: 泊松变量之和仍是泊松分布(直接相加 \(\lambda\) 值)。

你一定可以做到的!跟着这些步骤练习几道题目,你会发现这些“线性组合”其实只是一套合乎逻辑的规则。祝你学习顺利!