欢迎来到连续分布:理解概率的“流动”!

你好,未来的统计学家!本章“连续分布”标志着我们将从计数型随机变量(离散变量,例如抛硬币正面出现的次数)过渡到测量型随机变量(连续变量,例如身高、体重或时间)。

如果涉及积分的公式让你感到害怕,请不必担心。我们将一步步拆解它们。记住,积分本质上就是求曲线下的面积,而在统计学中,曲线下的面积就代表了概率。相信自己,你一定能行!

什么是连续型随机变量(CRV)?

连续型随机变量(Continuous Random Variable, CRV),记作 \(X\),是指在一个给定的范围内可以取任何值的变量。

  • 例子: 学生完成测试所需的时间(如 50.1 分钟、50.1003 分钟等),或者是室内的温度。
  • 与离散变量的区别: 离散变量在整数值之间跳跃(如 1, 2, 3)。而连续变量则是平滑流动的。
关键概念提醒! 单点的概率

在连续分布中,变量取某一个精确特定值的概率始终为零。

$$P(X = x) = 0$$

为什么呢? 想象一下,试图测量一棵树的高度,精确到无限多位小数。得到“那个精确的无限小数”的概率几乎为零。正因如此,在处理连续变量时:

$$P(a \le X \le b) = P(a < X < b) = P(a \le X < b)$$

端点处是否包含(等号)并不影响结果!这通常能简化我们的计算。

第 1 部分:概率密度函数 (PDF)

任何连续分布的核心都是它的概率密度函数 (Probability Density Function, PDF),通常记作 \(f(x)\)。

你可以把 PDF 想象成分布的“形状”或“配方”。它描述了概率是如何在可能取值的范围内“分布”的。

PDF \(f(x)\) 的关键性质

1. 函数必须是非负的

因为 \(f(x)\) 描述的是结果的可能性,函数本身绝不能为负。

$$f(x) \ge 0 \quad \text{对所有 } x \text{ 成立}$$

2. 曲线下的总面积必须等于 1

所有可能结果的总概率必须为 1(即 100%)。用微积分术语来说,这意味着在整个定义域 \(R\) 上对 PDF 进行积分,结果必须为 1。

$$\int_R f(x) \, dx = 1$$

这个性质通常用于求给定 PDF 定义中未知的常数(如 'k')!

利用 PDF 计算概率

变量 \(X\) 落在两个值 \(a\) 和 \(b\) 之间的概率,就是 \(f(x)\) 在这些点之间曲线下的面积

$$P(a < X < b) = \int_a^b f(x) \, dx$$

分步操作:求概率
  1. 确定积分限: 找出你需要计算概率的下限 \(a\) 和上限 \(b\)。
  2. 积分: 计算 PDF \(f(x)\) 在这些限值之间的定积分。
  3. 求解: 将限值代入积分函数,得出最终的数值结果。

快速回顾: PDF 给出了分布的“形状”。概率始终通过计算“面积”(使用积分)来获得。

第 2 部分:累积分布函数 (CDF)

虽然 PDF 告诉你某一点的密度,但累积分布函数 (Cumulative Distribution Function, CDF),记作 \(F(x)\),告诉你累积到该点 \(x\) 为止的概率。

CDF \(F(x)\) 的定义

CDF 是随机变量 \(X\) 取值小于或等于某个特定值 \(x\) 的概率。

$$F(x) = P(X \le x)$$

PDF 与 CDF 的关系(积分与微分)

\(f(x)\) 与 \(F(x)\) 之间的关系正是微积分基本定理的体现:

  1. 从 PDF 到 CDF:积分 $$F(x) = \int_{-\infty}^{x} f(t) \, dt$$ (注意:在实际操作中,我们从 \(f(x)\) 有定义的最小边界(比如 \(a\))开始积到 \(x\) 为止。)
  2. 从 CDF 到 PDF:微分 $$f(x) = F'(x) = \frac{d}{dx} F(x)$$ 这是验证你计算结果的一个绝佳技巧!

CDF 的性质

  1. 起点: CDF 从 0 开始。如果最小值是 \(a\),那么 \(F(a) = 0\)。
  2. 终点: CDF 以 1 结束。如果最大值是 \(b\),那么 \(F(b) = 1\)。
  3. 非递减性: 随着 \(x\) 增大,\(F(x)\) 绝不会减小(累积概率只会增加或保持不变)。

利用 CDF 计算概率

如果你已经有了 CDF,那么计算概率比积分要简单得多!

$$P(a < X < b) = F(b) - F(a)$$

类比: 如果 \(F(b)\) 是袋子里直到 \(b\) 点的面粉总重量,\(F(a)\) 是直到 \(a\) 点的重量,那么 \(F(b) - F(a)\) 就是 \(a\) 和 \(b\) 之间那部分面粉的重量。

避免常见错误

计算 CDF \(F(x)\) 时,一定要记得加上积分常数 \(C\)。然而,由于我们将积分下限定义为 \(X\) 的最小值,所以我们通常能算出 \(C=0\)。

一定要检查: 如果 \(X\) 定义在 \(x \ge a\) 上,那么设定 \(F(a) = 0\) 可以帮你求出 \(C\)。

快速回顾框

PDF (\(f(x)\)): 描述密度。使用积分求概率。

CDF (\(F(x)\)): 描述累积概率。使用减法 (\(F(b) - F(a)\)) 求概率。

第 3 部分:期望、方差与中位数

期望(均值)

期望均值,记作 \(E(X)\) 或 \(\mu\),是随机变量的长期平均值。它是分布的“平衡点”。

就像离散变量中我们计算 \(\sum x P(X=x)\) 一样,这里我们将求和替换为积分,并将概率 \(P(X=x)\) 替换为密度函数 \(f(x)\)。

$$E(X) = \mu = \int x f(x) \, dx$$

函数的期望

如果你需要求 \(X\) 的某个函数 \(g(X)\) 的期望:

$$E(g(X)) = \int g(x) f(x) \, dx$$

最重要的情况是通过设定 \(g(x) = x^2\) 来求 \(E(X^2)\):

$$E(X^2) = \int x^2 f(x) \, dx$$

方差

方差,\(\text{Var}(X)\),衡量分布在均值附近的散布或离散程度。

其公式与离散变量完全相同:

$$\text{Var}(X) = E(X^2) - [E(X)]^2$$

标准差为 \(\sigma = \sqrt{\text{Var}(X)}\)。

中位数 (m)

中位数 \(m\) 是将分布平分为两半的数值。一半的概率质量在它之下,另一半在它之上。

因此,中位数 \(m\) 满足:

$$P(X \le m) = 0.5$$

你可以通过解以下任一方程来找到中位数:

$$\int_{-\infty}^{m} f(x) \, dx = 0.5 \quad \text{或} \quad F(m) = 0.5$$

提示:如果你已经算出了 \(F(x)\),使用 CDF 方法 \(F(m) = 0.5\) 几乎总是更简单。

第 4 部分:连续均匀分布(矩形分布)

连续均匀分布是最简单的连续分布。它假设随机变量在定义的区间内取任何值的可能性相等,但在区间外不存在。

我们将其记作:$$X \sim U(a, b)$$ 其中 \(a\) 是最小值,\(b\) 是最大值。

\(U(a, b)\) 的 PDF

因为概率是“均匀”(平摊)分布的,PDF 看上去像一个矩形。

矩形的高度 \(f(x)\) 必须保证总面积为 1。宽度为 \((b-a)\)。

$$f(x) = \frac{1}{\text{宽度}} = \frac{1}{b-a} \quad \text{对于 } a \le x \le b$$ $$f(x) = 0 \quad \text{其他情况}$$

在均匀分布中计算概率

对于均匀分布,计算概率不需要积分!因为形状是矩形,概率仅仅是:

$$P(x_1 < X < x_2) = \text{高} \times \text{宽}$$ $$P(x_1 < X < x_2) = \left(\frac{1}{b-a}\right) \times (x_2 - x_1)$$

\(U(a, b)\) 的 CDF

CDF 是 \(a\) 和 \(b\) 之间的一条递增直线。

  • 对于 \(x < a\),\(F(x) = 0\)
  • 对于 \(a \le x \le b\),$$F(x) = \frac{x-a}{b-a}$$
  • 对于 \(x > b\),\(F(x) = 1\)

均值与方差的快速公式

识别出均匀分布的一大优势在于,你可以直接使用这些快捷公式,而不必进行复杂的 \(xf(x)\) 和 \(x^2f(x)\) 积分运算。

均值(期望)

均值就是区间的中心点。

$$E(X) = \mu = \frac{a+b}{2}$$

方差

$$\text{Var}(X) = \frac{(b-a)^2}{12}$$

记忆技巧: 方差公式中包含 12,是因为 12 是同时能被 3 和 4 整除的最小整数,而 3 和 4 在计算均匀分布的 \(E(X)\) 和 \(E(X^2)\) 时会出现在积分过程中。记住这个迷人的数字 12 就行了!

最终复习与要点总结

连续分布习题检查清单

  1. 识别函数: 是通用 PDF(需要积分)还是均匀分布(可以使用面积法/快捷公式)?
  2. 总面积检查: 务必确认 \(\int f(x) \, dx = 1\)。如果定义中有常数 (k),先把它找出来!
  3. 概率: 若使用 PDF,则对 \(f(x)\) 积分。若使用 CDF,则相减 \(F(b) - F(a)\)。
  4. 均值/方差: 记住使用公式 \(E(X) = \int x f(x) \, dx\),然后使用 \(\text{Var}(X) = E(X^2) - [E(X)]^2\)。

你知道吗? 你之后可能学习的正态分布也是一种连续分布。它大概是统计学中最著名的曲线!它的 PDF 非常复杂,这就是为什么我们依靠统计表或计算器来求其概率,而不是直接积分。

继续练习你的积分技巧! 在统计学 2 中,数学往往只是应用微积分。概念是逻辑性的,而执行力需要通过练习来提升。你正在掌握代数、微积分与现实世界统计学之间复杂的联系。做得好!


*** 学习笔记结束 ***