单元 S2:统计学 2 – 连续型随机变量

你好,统计学爱好者!开启连续型分布的学习之旅

欢迎来到 S2 模块中最基础的章节之一:连续型随机变量 (Continuous Random Variables, CRVs)。如果那些涉及积分的公式让你感到头疼,不用担心——本章的本质其实就是运用你的微积分技巧(积分与微分)来解决概率问题!我们现在要跨越简单的计数(离散变量),开始测量时间、高度和温度等连续性指标。

为什么这很重要? 现实世界中的现象往往无法被归入整齐的计数箱中。如果你测量电池的寿命,它可能是 100.5 小时、100.51 小时或 100.5103 小时。连续型随机变量 (CRVs) 能帮助我们准确地建模这些情况。


1. 理解连续型随机变量 (CRVs)

什么是连续型变量?

一个随机变量,我们记作 \(X\),如果是连续的,意味着它可以在指定的范围内(区间)取任何值。与离散变量不同(离散变量中 \(X\) 只能取 0, 1, 2, 3...),CRV 在任意两点之间可以取无限多个值。

示例: 顾客在排队时等待的时间 \(T\)。\(T\) 可以是 2 分钟、2.3 分钟、2.3001 分钟等。

关键区别:单点概率

这是一个学生经常感到困惑的核心概念:

由于存在无限多个可能值,连续型变量取任意精确特定值的概率总是零。

$$P(X = x) = 0$$

类比: 想象一下试图击中长线上一个极小的点。击中那个精确、无限小位置的机会是零。

这对计算意味着什么:

$$P(a < X < b) = P(a \leq X \leq b) = P(a < X \leq b)$$

是否包含端点并不重要,因为 \(P(X=a)=0\) 且 \(P(X=b)=0\)。

核心结论: CRVs 处理的是区间,概率是通过测量曲线下的面积而非对单个点求和得到的。


2. 概率密度函数 (PDF), \(f(x)\)

因为我们无法为单个点分配概率,所以我们使用函数 \(f(x)\) 来描述概率如何在可能值的范围内分布。这就是概率密度函数 (Probability Density Function, PDF)。

有效 PDF 的性质

对于任何函数 \(f(x)\),要成为随机变量 \(X\) 的有效 PDF,必须满足:

  1. 非负性: 函数在其定义域内的任何 \(x\) 值处都不得为负。(概率不可能为负!)
    $$f(x) \geq 0 \text{ 对所有 } x \text{ 成立}$$
  2. 总面积为一: 曲线下的总面积必须等于 1(代表所有可能结果的 100%)。
    $$\int_{-\infty}^{\infty} f(x) dx = 1$$ 注意:由于大多数 PDF 仅在特定区间(例如 \([a, b]\))内定义,这通常简化为: $$\int_{a}^{b} f(x) dx = 1$$

使用 PDF 计算概率

在 \(a\) 和 \(b\) 之间取值的概率就是 PDF 曲线在这些限制范围下的面积。

$$P(a < X < b) = \int_{a}^{b} f(x) dx$$

分步示例:求常数 'k'

假设 PDF 定义为 \(f(x) = kx\),且 \(0 \leq x \leq 2\),其他情况为 0。

  1. 应用总面积规则: 定义区间上的积分必须等于 1。
  2. $$\int_{0}^{2} kx \ dx = 1$$
  3. 积分: $$ \left[ \frac{kx^2}{2} \right]_{0}^{2} = 1 $$
  4. 代入限值: $$ \left( \frac{k(2)^2}{2} \right) - \left( \frac{k(0)^2}{2} \right) = 1 $$ $$ 2k - 0 = 1 $$
  5. 求解 k: $$ k = \frac{1}{2} $$

你知道吗? 概率密度的概念正是我们使用积分的原因。积分是专门用于测量曲线下方面积的数学工具!

常见错误: 忘记检查积分限值。在进行计算时,务必使用 PDF 定义的特定限值。

核心结论: PDF, \(f(x)\) 告诉我们分布的形状。概率即面积,通过积分计算得出。


3. 累积分布函数 (CDF), \(F(x)\)

累积分布函数 (Cumulative Distribution Function, CDF), \(F(x)\),给出了随机变量 \(X\) 小于或等于特定值 \(x\) 的概率。

$$F(x) = P(X \leq x)$$

根据 PDF 计算 CDF

要找到 \(F(x)\),你需要将 PDF \(f(t)\) 从可能的最小值积分到点 \(x\)。我们使用 \(t\) 作为积分变量,以避免与限值 \(x\) 混淆。

$$F(x) = \int_{\text{最小值}}^{x} f(t) dt$$

重要要求:分段定义 \(F(x)\)

CDF 必须为所有实数定义,因此通常需要三部分:

  1. $$F(x) = 0 \text{,当 } x < \text{下界时}$$
  2. $$F(x) = \int f(t) dt \text{,当 } \text{下界} \leq x \leq \text{上界时}$$
  3. $$F(x) = 1 \text{,当 } x > \text{上界时}$$

使用 CDF 求概率

如果你已有 CDF,计算区间概率会快得多,通常无需再次积分:

$$P(a < X < b) = F(b) - F(a)$$

逆过程:从 CDF 到 PDF

由于 CDF 是 PDF 的积分,那么 PDF 必须是 CDF 的导数!

$$f(x) = \frac{d}{dx} F(x) = F'(x)$$

技巧: 记住积分(求 CDF)和微分(求 PDF)是互逆运算,就像在纯数学中一样。

核心结论: CDF 是概率的运行总量。它总是从 0 开始,到 1 结束。


4. 位置度量(众数、中位数、均值)

这些指标告诉我们分布的中心或峰值在哪里。

4.1 众数 (Mode)

众数是概率密度函数 \(f(x)\) 达到最大值时的 \(x\) 值(曲线的峰值)。

  • 如果 \(f(x)\) 是简单函数(如二次或三次函数),通过令一阶导数为零 \(f'(x) = 0\) 来找到众数,并确认它是范围内的最大值。
  • 如果 \(f(x)\) 是分段函数(在不同范围内由不同函数定义),你必须检查边界处以及函数定义域内的最大值。

4.2 中位数 (Median, \(m\))

中位数是平分分布的那个值 \(m\)。50% 的概率位于 \(m\) 以下,50% 位于 \(m\) 以上。

我们通过求解以下方程之一来找到中位数 \(m\):

  1. 使用 CDF:$$F(m) = 0.5$$
  2. 使用 PDF:$$\int_{\text{下界}}^{m} f(x) dx = 0.5$$

不必担心! 如果你已经计算出 CDF,使用它通常会更快。

4.3 均值(期望值, \(E[X]\))

均值,即期望值 (\(E[X]\) 或 \(\mu\)),是分布的“质心”。它是所有可能值的加权平均,权重由密度 \(f(x)\) 决定。

均值公式为:

$$E[X] = \mu = \int_{-\infty}^{\infty} x f(x) dx$$

函数的期望值

如果你需要求 \(X\) 的某个函数 \(g(X)\)(如 \(X^2\) 或 \(3X+5\))的期望值,通用公式为:

$$E[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) dx$$

记忆辅助 (针对 E[X]): 请记住,对于离散变量,\(E[X] = \sum x P(X=x)\)。对于连续变量,求和符号 (\(\sum\)) 变成了积分符号 (\(\int\)),而 \(P(X=x)\) 变成了 \(f(x) dx\)。你只需将 \(x\) 插入积分内部,与 \(f(x)\) 并列即可。

核心结论: 位置度量通过微分(众数)、令 CDF 等于 0.5(中位数)或对 \(x f(x)\) 积分(均值)求得。


5. 离散度度量(方差和标准差)

这些指标告诉我们分布围绕均值的离散程度。

5.1 方差 (\(\text{Var}[X]\))

方差是观测值与均值之差的平方的平均值。计算方差通常包括两个步骤:

  1. 求 \(E[X]\)(均值,\(\mu\))。
  2. 求 \(E[X^2]\)。
步骤 1:计算 \(E[X^2]\)

使用期望值的通用公式,令 \(g(x) = x^2\):

$$E[X^2] = \int_{-\infty}^{\infty} x^2 f(x) dx$$

步骤 2:应用公式

我们使用方差的计算公式(这比对 \((x-\mu)^2 f(x)\) 积分要容易得多):

$$\text{Var}[X] = E[X^2] - (E[X])^2$$

$$\text{Var}[X] = \left( \int x^2 f(x) dx \right) - \mu^2$$

5.2 标准差 (\(\sigma\))

标准差仅仅是方差的平方根。它更受偏好,因为它与 \(X\) 和均值 \(\mu\) 的测量单位相同。

$$\sigma = \sqrt{\text{Var}[X]}$$

快速回顾:计算方差的步骤

  1. 通过积分 \(x f(x)\) 计算 \(\mu = E[X]\)。
  2. 通过积分 \(x^2 f(x)\) 计算 \(E[X^2]\)。
  3. 计算 \(\text{Var}[X] = E[X^2] - (E[X])^2\)。

重要提示: 不要对中间数值进行四舍五入!保留 \(E[X]\) 和 \(E[X^2]\) 的分数或精确小数,直到最后一步,以确保最终方差答案的准确性。

核心结论: 离散程度通过方差测量,这需要利用密度函数求出 \(E[X]\) 和 \(E[X^2]\)。


6. 核心技能总结(微积分工具箱)

连续型随机变量完全依赖于在统计框架内运用微积分技能。请确保你对以下操作感到得心应手:

目标 数学运算 微积分联系
求概率 \(P(a < X < b)\) PDF 下的面积 积分 \(\int_{a}^{b} f(x) dx\)
求 CDF \(F(x)\) 累积面积 积分 \(\int_{\text{下界}}^{x} f(t) dt\)
求 PDF \(f(x)\) CDF 的变化率 微分 \(F'(x)\)
求均值 \(E[X]\) 加权积分 积分 \(\int x f(x) dx\)
求众数 密度峰值 微分 \(f'(x) = 0\)

坚持练习你的积分技巧,特别是涉及多项式的积分(这在本单元的 PDF 中非常常见!)。你可以做到的!