欢迎来到均匀分布的世界!
你好,未来的高等数学学生!均匀分布 (Uniform Distribution) 这一章是你深入研究 FS1 统计模块中连续随机变量的第一站。别担心,这是最平易近人、最友好的分布之一!
我们称之为“均匀”,是因为它绝对公平——在特定范围内,每一个值都有完全相同的概率密度。掌握这一概念至关重要,不仅是为了在考试中取得好成绩,更是为了打好基础,以便后续理解正态分布或指数分布等更复杂的分布。
准备好掌握公式、理解应用条件并攻克推导过程了吗?我们出发吧!
引言核心要点
均匀分布模拟的是一种特定区间内所有结果等可能性 (equally likely) 的情形。
1. 理解连续均匀分布 (FS1.2: 应用条件)
由于其概率图呈现的形状,均匀分布通常也被称为矩形分布 (Rectangular Distribution)。
使用它的条件是什么?
如果随机变量 \(X\) 在特定区间(比如从 \(a\) 到 \(b\))遵循均匀分布,则必须满足:
- \(X\) 是一个连续型随机变量。这意味着 \(X\) 可以取该范围内的任何值(例如时间、距离、温度),而不仅仅是离散的整数。
- 在 \(a \le x \le b\) 的范围内,概率密度是恒定 (constant) 的。
- 在此范围之外,概率密度为零。
符号表示: 我们记作 \(X \sim U(a, b)\),其中 \(a\) 和 \(b\) 分别是最小值和最大值,且 \(a < b\)。
类比:公交车到达时间
想象一下,一辆公交车随机在上午 8:00 (\(a=0\)) 到 8:10 (\(b=10\)) 之间到达车站。如果到达时间确实是完全随机的,不受交通状况或时刻表影响,那么到达时间(以 8:00 之后经过的分钟数计算)就服从均匀分布,即 \(X \sim U(0, 10)\)。无论你是 8:01:05 还是 8:07:32 到达,该特定时间点的密度都是一样的。
在现实世界中,“绝对均匀”的分布很罕见,但它们常被用来模拟随机误差、舍入偏差,或那些没有任何物理理由偏好某一结果的进程(比如计算机生成的随机数)。
第 1 节核心要点
如果一个变量 \(X\) 的概率密度在两个界限 \(a\) 和 \(b\) 之间是平坦(恒定)的,那么该变量服从均匀分布。
2. 概率密度函数 (PDF)
对于任何连续分布,其曲线(或图形)下的总面积必须始终等于 1(代表 100% 的概率)。
由于均匀分布在绘图时形成一个矩形,其面积计算非常简单:
$$\text{面积} = \text{高} \times \text{宽}$$
我们已知面积必须等于 1。矩形的宽度即为区间长度,即 \((b - a)\)。
$$\text{高} \times (b - a) = 1$$
因此,高度(即概率密度函数,\(f(x)\))必须是:
$$f(x) = \frac{1}{b-a}$$
PDF 的公式
\(X \sim U(a, b)\) 的概率密度函数 (PDF) 的完整定义为:
$$f(x) = \begin{cases} \frac{1}{b-a} & \text{对于 } a \le x \le b \\ 0 & \text{其他情况} \end{cases}$$
记忆小窍门: 想想切蛋糕!如果你要切一块长度为 \((b-a)\) 的蛋糕,使得总面积(体积)为 1,那么切片的高度必须是长度的倒数:\(1/(b-a)\)。
第 2 节核心要点
PDF,即 \(f(x)\),本质上就是概率矩形的高度,等于 1 除以区间长度 \((b-a)\)。
3. 计算概率 (FS1.2: 概率计算)
要寻找 \(X\) 落入子区间 \([c, d]\)(其中 \(a \le c \le d \le b\))的概率,我们只需计算该子区间所对应的矩形面积。
$$P(c \le X \le d) = \text{子矩形的面积}$$
$$\text{面积} = \text{高} \times \text{子区间宽度}$$
$$P(c \le X \le d) = f(x) \times (d - c)$$
代入 PDF 公式:
$$P(c \le X \le d) = \left(\frac{1}{b-a}\right) \times (d-c) = \frac{d-c}{b-a}$$
关于连续变量的说明
不必纠结于不等式是严格的 (\(<\)) 还是非严格的 (\(\le\))。因为 \(X\) 是连续的,任何单个精确值的概率都为零。
$$P(X=c) = 0$$
因此:
$$P(c < X < d) = P(c \le X < d) = P(c \le X \le d)$$
逐步示例
机器生成的随机数 \(X\) 介于 2 和 8 之间。求该数介于 3 和 5 之间的概率。 (\(X \sim U(2, 8)\)。所以 \(a=2\),\(b=8\))。
- 求区间长度: \(b - a = 8 - 2 = 6\)。
- 求 PDF(高): \(f(x) = 1/6\)。
- 求目标子区间的宽度: \(d - c = 5 - 3 = 2\)。
- 计算概率(面积):
$$P(3 < X < 5) = \text{高} \times \text{宽} = \frac{1}{6} \times 2 = \frac{2}{6} = \frac{1}{3}$$
避免常见错误!
学生有时会混淆离散和连续均匀分布。在连续均匀分布中,不要对概率求和;要计算面积。始终使用从几何意义导出的公式(面积 = 宽 * 高)。
第 3 节核心要点
概率可以通过计算目标子区间长度占总区间长度的比例来获得:\(\frac{\text{目标区间长度}}{\text{总区间长度}}\)。
4. 期望与方差 (FS1.2: 期望与方差 - 要求掌握及推导)
对于均匀分布,期望和方差的公式都包含在你的公式册中,但大纲明确指出要求进行推导。这意味着你必须知道如何使用积分来证明这些结果。
记住,对于任何连续分布:
- 期望 \(E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx\)
- 方差 \(Var(X) = \sigma^2 = E(X^2) - [E(X)]^2\)
由于 \(f(x) = \frac{1}{b-a}\) 仅在 \(a\) 和 \(b\) 之间存在,我们的积分限变得简单了。
4.1 期望 \(E(X)\)
从直觉上看,由于分布是完全对称的,期望必须是区间 \([a, b]\) 的中点。
要求掌握的结果: $$\mu = E(X) = \frac{a+b}{2}$$
推导过程(证明):
$$E(X) = \int_a^b x f(x) dx = \int_a^b x \left(\frac{1}{b-a}\right) dx$$
由于 \(\frac{1}{b-a}\) 是常数,我们可以把它提出来:
$$E(X) = \frac{1}{b-a} \int_a^b x dx$$
对 \(x\) 积分:
$$E(X) = \frac{1}{b-a} \left[ \frac{x^2}{2} \right]_a^b$$
代入积分限:
$$E(X) = \frac{1}{b-a} \left( \frac{b^2}{2} - \frac{a^2}{2} \right)$$
提取 \(\frac{1}{2}\):
$$E(X) = \frac{1}{2(b-a)} (b^2 - a^2)$$
利用平方差公式:\(b^2 - a^2 = (b-a)(b+a)\):
$$E(X) = \frac{1}{2(b-a)} (b-a)(b+a)$$
抵消 \((b-a)\) 项:
$$E(X) = \frac{a+b}{2}$$
第一个推导完成!做得好!
4.2 方差 \(Var(X)\)
为了求方差,我们首先需要计算 \(E(X^2)\)。
$$E(X^2) = \int_a^b x^2 f(x) dx = \int_a^b x^2 \left(\frac{1}{b-a}\right) dx$$
$$E(X^2) = \frac{1}{b-a} \int_a^b x^2 dx$$
对 \(x^2\) 积分:
$$E(X^2) = \frac{1}{b-a} \left[ \frac{x^3}{3} \right]_a^b$$
代入积分限:
$$E(X^2) = \frac{1}{b-a} \left( \frac{b^3}{3} - \frac{a^3}{3} \right) = \frac{1}{3(b-a)} (b^3 - a^3)$$
现在利用立方差公式:\(b^3 - a^3 = (b-a)(a^2 + ab + b^2)\):
$$E(X^2) = \frac{1}{3(b-a)} (b-a)(a^2 + ab + b^2)$$
抵消 \((b-a)\) 项:
$$E(X^2) = \frac{a^2 + ab + b^2}{3}$$
现在应用方差公式:\(Var(X) = E(X^2) - [E(X)]^2\):
$$Var(X) = \frac{a^2 + ab + b^2}{3} - \left(\frac{a+b}{2}\right)^2$$
展开均值项的平方:
$$Var(X) = \frac{a^2 + ab + b^2}{3} - \frac{a^2 + 2ab + b^2}{4}$$
通分(分母为 12):
$$Var(X) = \frac{4(a^2 + ab + b^2) - 3(a^2 + 2ab + b^2)}{12}$$
展开括号:
$$Var(X) = \frac{(4a^2 + 4ab + 4b^2) - (3a^2 + 6ab + 3b^2)}{12}$$
合并同类项:
$$Var(X) = \frac{(4a^2 - 3a^2) + (4ab - 6ab) + (4b^2 - 3b^2)}{12}$$
$$Var(X) = \frac{a^2 - 2ab + b^2}{12}$$
识别出分子是一个完全平方:\(a^2 - 2ab + b^2 = (b-a)^2\):
要求掌握的结果: $$Var(X) = \frac{(b-a)^2}{12}$$
方差推导的代数运算有点繁琐,但重点在于关键步骤:计算 \(E(X^2)\),利用立方差公式,以及使用方差公式进行通分。多加练习,直到滚瓜烂熟!
快速回顾:均匀分布公式
PDF: \(f(x) = \frac{1}{b-a}\)
期望 (\(\mu\)): \(E(X) = \frac{a+b}{2}\)
方差 (\(\sigma^2\)): \(Var(X) = \frac{(b-a)^2}{12}\)
标准差 (\(\sigma\)): \(\sigma = \sqrt{\frac{(b-a)^2}{12}} = \frac{b-a}{\sqrt{12}}\)
5. 标准差的应用
一旦你有了期望和方差,计算标准差 (SD) 就直接了:它是方差的平方根。
应用示例
机器被编程为切割长度为 \(L\) 的金属棒(单位:cm)。由于轻微误差,实际长度 \(X\) 在 19.8 cm 到 20.2 cm 之间均匀分布。(\(X \sim U(19.8, 20.2)\))。
- 求金属棒长度的期望。
- 求长度的方差和标准差。
使用期望公式:\(a=19.8\),\(b=20.2\)。
$$E(X) = \frac{19.8 + 20.2}{2} = \frac{40}{2} = 20 \text{ cm}$$这非常有道理——平均值正好等于目标长度。
首先计算 \((b-a)\):\(20.2 - 19.8 = 0.4\)
方差:
$$Var(X) = \frac{(b-a)^2}{12} = \frac{(0.4)^2}{12} = \frac{0.16}{12} = \frac{1}{75}$$标准差:
$$\sigma = \sqrt{\frac{1}{75}} \approx 0.115 \text{ cm (3位有效数字)}$$预备知识检查:连续 vs. 离散
如果你觉得这个话题有挑战性,简单回顾一下连续随机变量和离散随机变量的基本区别:
- 离散(例如二项分布、泊松分布): 使用求和符号 (\(\sum\))、概率质量函数,以及计算 \(P(X=x)\)。
- 连续(例如均匀分布): 使用积分 (\(\int\)) 或几何(面积)、概率密度函数 \(f(x)\),且 \(P(X=x)=0\)。
均匀分布本质上是连续概率规则的最简单应用,这使它成为加深对“通过对 PDF 积分求期望”这一理解的绝佳起点!
现在你已经涵盖了均匀分布的所有核心内容——从基本的常数 PDF 到期望和方差所需的积分推导。继续练习那些推导过程吧!