Continuous random variables

单元 S2：统计学 2 – 连续型随机变量

你好，统计学爱好者！开启连续型分布的学习之旅

欢迎来到 S2 模块中最基础的章节之一：连续型随机变量 (Continuous Random Variables, CRVs)。如果那些涉及积分的公式让你感到头疼，不用担心——本章的本质其实就是运用你的微积分技巧（积分与微分）来解决概率问题！我们现在要跨越简单的计数（离散变量），开始测量时间、高度和温度等连续性指标。

为什么这很重要？ 现实世界中的现象往往无法被归入整齐的计数箱中。如果你测量电池的寿命，它可能是 100.5 小时、100.51 小时或 100.5103 小时。连续型随机变量 (CRVs) 能帮助我们准确地建模这些情况。

1. 理解连续型随机变量 (CRVs)

什么是连续型变量？

一个随机变量，我们记作 $X$，如果是连续的，意味着它可以在指定的范围内（区间）取任何值。与离散变量不同（离散变量中 $X$ 只能取 0, 1, 2, 3...），CRV 在任意两点之间可以取无限多个值。

示例： 顾客在排队时等待的时间 $T$。$T$ 可以是 2 分钟、2.3 分钟、2.3001 分钟等。

关键区别：单点概率

这是一个学生经常感到困惑的核心概念：

由于存在无限多个可能值，连续型变量取任意精确特定值的概率总是零。

$$P(X = x) = 0$$

类比： 想象一下试图击中长线上一个极小的点。击中那个精确、无限小位置的机会是零。

这对计算意味着什么：

$$P(a < X < b) = P(a \leq X \leq b) = P(a < X \leq b)$$

是否包含端点并不重要，因为 $P(X=a)=0$ 且 $P(X=b)=0$。

核心结论： CRVs 处理的是区间，概率是通过测量曲线下的面积而非对单个点求和得到的。

2. 概率密度函数 (PDF), $f(x)$

因为我们无法为单个点分配概率，所以我们使用函数 $f(x)$ 来描述概率如何在可能值的范围内分布。这就是概率密度函数 (Probability Density Function, PDF)。

有效 PDF 的性质

对于任何函数 $f(x)$，要成为随机变量 $X$ 的有效 PDF，必须满足：

非负性： 函数在其定义域内的任何 $x$ 值处都不得为负。（概率不可能为负！）
$$f(x) \geq 0 \text{ 对所有 } x \text{ 成立}$$
总面积为一： 曲线下的总面积必须等于 1（代表所有可能结果的 100%）。
$$\int_{-\infty}^{\infty} f(x) dx = 1$$ 注意：由于大多数 PDF 仅在特定区间（例如 $[a, b]$）内定义，这通常简化为： $$\int_{a}^{b} f(x) dx = 1$$

使用 PDF 计算概率

在 $a$ 和 $b$ 之间取值的概率就是 PDF 曲线在这些限制范围下的面积。

$$P(a < X < b) = \int_{a}^{b} f(x) dx$$

分步示例：求常数 'k'

假设 PDF 定义为 $f(x) = kx$，且 $0 \leq x \leq 2$，其他情况为 0。

应用总面积规则： 定义区间上的积分必须等于 1。
$$\int_{0}^{2} kx \ dx = 1$$
积分： $$ \left[ \frac{kx^2}{2} \right]_{0}^{2} = 1 $$
代入限值： $$ \left( \frac{k(2)^2}{2} \right) - \left( \frac{k(0)^2}{2} \right) = 1 $$ $$ 2k - 0 = 1 $$
求解 k： $$ k = \frac{1}{2} $$

你知道吗？ 概率密度的概念正是我们使用积分的原因。积分是专门用于测量曲线下方面积的数学工具！

常见错误： 忘记检查积分限值。在进行计算时，务必使用 PDF 定义的特定限值。

核心结论： PDF, $f(x)$ 告诉我们分布的形状。概率即面积，通过积分计算得出。

3. 累积分布函数 (CDF), $F(x)$

累积分布函数 (Cumulative Distribution Function, CDF), $F(x)$，给出了随机变量 $X$ 小于或等于特定值 $x$ 的概率。

$$F(x) = P(X \leq x)$$

根据 PDF 计算 CDF

要找到 $F(x)$，你需要将 PDF $f(t)$ 从可能的最小值积分到点 $x$。我们使用 $t$ 作为积分变量，以避免与限值 $x$ 混淆。

$$F(x) = \int_{\text{最小值}}^{x} f(t) dt$$

重要要求：分段定义 $F(x)$

CDF 必须为所有实数定义，因此通常需要三部分：

$$F(x) = 0 \text{，当 } x < \text{下界时}$$
$$F(x) = \int f(t) dt \text{，当 } \text{下界} \leq x \leq \text{上界时}$$
$$F(x) = 1 \text{，当 } x > \text{上界时}$$

使用 CDF 求概率

如果你已有 CDF，计算区间概率会快得多，通常无需再次积分：

$$P(a < X < b) = F(b) - F(a)$$

逆过程：从 CDF 到 PDF

由于 CDF 是 PDF 的积分，那么 PDF 必须是 CDF 的导数！

$$f(x) = \frac{d}{dx} F(x) = F'(x)$$

技巧： 记住积分（求 CDF）和微分（求 PDF）是互逆运算，就像在纯数学中一样。

核心结论： CDF 是概率的运行总量。它总是从 0 开始，到 1 结束。

4. 位置度量（众数、中位数、均值）

这些指标告诉我们分布的中心或峰值在哪里。

4.1 众数 (Mode)

众数是概率密度函数 $f(x)$ 达到最大值时的 $x$ 值（曲线的峰值）。

如果 $f(x)$ 是简单函数（如二次或三次函数），通过令一阶导数为零 $f'(x) = 0$ 来找到众数，并确认它是范围内的最大值。
如果 $f(x)$ 是分段函数（在不同范围内由不同函数定义），你必须检查边界处以及函数定义域内的最大值。

4.2 中位数 (Median, $m$)

中位数是平分分布的那个值 $m$。50% 的概率位于 $m$ 以下，50% 位于 $m$ 以上。

我们通过求解以下方程之一来找到中位数 $m$：

使用 CDF：$$F(m) = 0.5$$
使用 PDF：$$\int_{\text{下界}}^{m} f(x) dx = 0.5$$

不必担心！ 如果你已经计算出 CDF，使用它通常会更快。

4.3 均值（期望值, $E[X]$）

均值，即期望值 ($E[X]$ 或 $\mu$)，是分布的“质心”。它是所有可能值的加权平均，权重由密度 $f(x)$ 决定。

均值公式为：

$$E[X] = \mu = \int_{-\infty}^{\infty} x f(x) dx$$

函数的期望值

如果你需要求 $X$ 的某个函数 $g(X)$（如 $X^2$ 或 $3X+5$）的期望值，通用公式为：

$$E[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) dx$$

记忆辅助 (针对 E[X])： 请记住，对于离散变量，$E[X] = \sum x P(X=x)$。对于连续变量，求和符号 ($\sum$) 变成了积分符号 ($\int$)，而 $P(X=x)$ 变成了 $f(x) dx$。你只需将 $x$ 插入积分内部，与 $f(x)$ 并列即可。

核心结论： 位置度量通过微分（众数）、令 CDF 等于 0.5（中位数）或对 $x f(x)$ 积分（均值）求得。

5. 离散度度量（方差和标准差）

这些指标告诉我们分布围绕均值的离散程度。

5.1 方差 ($\text{Var}[X]$)

方差是观测值与均值之差的平方的平均值。计算方差通常包括两个步骤：

求 $E[X]$（均值，$\mu$）。
求 $E[X^2]$。

步骤 1：计算 $E[X^2]$

使用期望值的通用公式，令 $g(x) = x^2$：

$$E[X^2] = \int_{-\infty}^{\infty} x^2 f(x) dx$$

步骤 2：应用公式

我们使用方差的计算公式（这比对 $(x-\mu)^2 f(x)$ 积分要容易得多）：

$$\text{Var}[X] = E[X^2] - (E[X])^2$$

或

$$\text{Var}[X] = \left( \int x^2 f(x) dx \right) - \mu^2$$

5.2 标准差 ($\sigma$)

标准差仅仅是方差的平方根。它更受偏好，因为它与 $X$ 和均值 $\mu$ 的测量单位相同。

$$\sigma = \sqrt{\text{Var}[X]}$$

快速回顾：计算方差的步骤

通过积分 $x f(x)$ 计算 $\mu = E[X]$。
通过积分 $x^2 f(x)$ 计算 $E[X^2]$。
计算 $\text{Var}[X] = E[X^2] - (E[X])^2$。

重要提示： 不要对中间数值进行四舍五入！保留 $E[X]$ 和 $E[X^2]$ 的分数或精确小数，直到最后一步，以确保最终方差答案的准确性。

核心结论： 离散程度通过方差测量，这需要利用密度函数求出 $E[X]$ 和 $E[X^2]$。

6. 核心技能总结（微积分工具箱）

连续型随机变量完全依赖于在统计框架内运用微积分技能。请确保你对以下操作感到得心应手：

目标	数学运算	微积分联系
求概率 $P(a < X < b)$	PDF 下的面积	积分 $\int_{a}^{b} f(x) dx$
求 CDF $F(x)$	累积面积	积分 $\int_{\text{下界}}^{x} f(t) dt$
求 PDF $f(x)$	CDF 的变化率	微分 $F'(x)$
求均值 $E[X]$	加权积分	积分 $\int x f(x) dx$
求众数	密度峰值	微分 $f'(x) = 0$

坚持练习你的积分技巧，特别是涉及多项式的积分（这在本单元的 PDF 中非常常见！）。你可以做到的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

单元 S2：统计学 2 – 连续型随机变量

你好，统计学爱好者！开启连续型分布的学习之旅

1. 理解连续型随机变量 (CRVs)

什么是连续型变量？

关键区别：单点概率

2. 概率密度函数 (PDF), \(f(x)\)

有效 PDF 的性质

使用 PDF 计算概率

分步示例：求常数 'k'

3. 累积分布函数 (CDF), \(F(x)\)

根据 PDF 计算 CDF

重要要求：分段定义 \(F(x)\)

使用 CDF 求概率

逆过程：从 CDF 到 PDF

4. 位置度量（众数、中位数、均值）

4.1 众数 (Mode)

4.2 中位数 (Median, \(m\))

4.3 均值（期望值, \(E[X]\)）

函数的期望值

5. 离散度度量（方差和标准差）

5.1 方差 (\(\text{Var}[X]\))

步骤 1：计算 \(E[X^2]\)

步骤 2：应用公式

5.2 标准差 (\(\sigma\))

快速回顾：计算方差的步骤

6. 核心技能总结（微积分工具箱）

准备好测试自己了吗？

更多Further Mathematics (YFM01)章节

立即实践所学

目标	数学运算	微积分联系
求概率 \(P(a < X < b)\)	PDF 下的面积	积分 \(\int_{a}^{b} f(x) dx\)
求 CDF \(F(x)\)	累积面积	积分 \(\int_{\text{下界}}^{x} f(t) dt\)
求 PDF \(f(x)\)	CDF 的变化率	微分 \(F'(x)\)
求均值 \(E[X]\)	加权积分	积分 \(\int x f(x) dx\)
求众数	密度峰值	微分 \(f'(x) = 0\)