Unit S2: Statistics 2 - 章节笔记:连续型分布

欢迎来到连续概率的世界!

你好!本章标志着我们从离散型分布(如二项分布和泊松分布,我们统计的是 0, 1, 2, 3... 等具体数值)转向了连续型分布。连续型分布处理的是测量值——即在一定范围内可以取任意值的数据,例如身高、时间或温度。

如果这听起来让你有些压力,别担心!我们将把统计学背景下的积分和导数计算拆解开来。如果你对微积分比较有信心,那么你已经领先了一大步;如果没有,这正好是一个绝佳的机会来磨练你的数学技能!

核心要点: 在连续型分布中,我们关注的是概率密度,而不是某个精确点的概率。

第1节:概率密度函数 (PDF)

定义 \(f(x)\)

对于连续型随机变量 \(X\),我们定义概率密度函数 (Probability Density Function, PDF),记作 \(f(x)\)。

类比: 你可以将 \(f(x)\) 想象成一张地图,显示了概率在每个点 \(x\) 处的“密度”。\(f(x)\) 的图像越高,该位置的结果就越有可能发生。

所有 PDF 必须满足的两个基本准则

任何函数 \(f(x)\) 要成为一个合法的 PDF,必须满足以下两个条件:

  1. 非负性: 密度函数的值绝不能为负。
    $$f(x) \ge 0 \quad \text{对于所有 } x \text{ 的值}$$
  2. 总面积为一: 在整个定义域(所有可能取值的范围)内,总概率必须等于 1。
    $$\int_{-\infty}^{\infty} f(x) \, dx = 1$$

    在实际操作中,积分的上下限通常由题目给出的范围定义(例如 \(\int_{0}^{5} f(x) \, dx = 1\))。

计算概率

由于我们处理的是密度,随机变量 \(X\) 落入两个点 \(a\) 和 \(b\) 之间的概率,就是该区间内曲线下方的面积

$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$

!!! 关键概念预警 !!!

对于任何连续型分布,随机变量 \(X\) 恰好等于某一个特定值的概率为零。
$$P(X = x) = 0$$

想一想:单个点的宽度为零,因此它上方的面积也为零。这意味着对于连续变量,我们不需要纠结不等号是否包含等号:

$$P(a < X < b) = P(a \le X \le b) = P(a < X \le b)$$

第2节:累积分布函数 (CDF)

PDF 告诉我们在某一点的概率密度,而累积分布函数 (Cumulative Distribution Function, CDF),记作 \(F(x)\),告诉我们直到某一点 \(x\) 为止的累积概率。

CDF 的定义,\(F(x)\)

CDF 是随机变量 \(X\) 小于或等于特定值 \(x\) 的概率。

$$F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) \, dt$$

(注意:我们使用 \(t\) 作为积分变量,以避免与上限 \(x\) 混淆。)

PDF 与 CDF 之间的关系

由于 CDF 是通过对 PDF 积分得到的,我们反过来可以通过求导来得到 PDF:

$$f(x) = \frac{d}{dx} F(x)$$

记忆助手:
F (CDF) 是通过 Integrating (积分) \(f(x)\) 得到的。
Differentiate (求导) \(F(x)\) 得到 f(x) (PDF)。

使用 CDF 计算概率

一旦你得到了 CDF,计算概率比每次都对 PDF 进行积分要快得多。

概率计算快速步骤

要计算 \(P(a < X < b)\):

  1. 计算 \(F(b)\)(直到 \(b\) 为止的累积概率)。
  2. 计算 \(F(a)\)(直到 \(a\) 为止的累积概率)。
  3. 两者相减:
    $$P(a < X < b) = F(b) - F(a)$$

第3节:关键统计量

正如离散型分布一样,我们需要描述连续型分布的中心位置和离散程度。

1. 期望值 (均值),\(E(X)\)

期望值 \(\mu\) 是变量的长期平均值。对于连续型分布,公式为:

$$E(X) = \mu = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$$

小贴士:将其与离散型分布对比,离散分布我们使用求和:\(\sum x P(X=x)\)。这里,积分取代了求和,而 \(f(x) \, dx\) 取代了 \(P(X=x)\)。

2. 方差与标准差

方差 \(\text{Var}(X)\) 衡量数据围绕均值的离散程度。我们使用与离散型分布相同的恒等式:

$$\text{Var}(X) = E(X^2) - [E(X)]^2$$

为了求 \(E(X^2)\),我们调整期望值的公式:

$$E(X^2) = \int_{-\infty}^{\infty} x^2 \cdot f(x) \, dx$$

标准差 (\(\sigma\)) 仅仅是方差的平方根。

3. 中位数,\(m\)

中位数 (\(m\)) 是将分布恰好平分为两半的值。一半的概率分布在 \(m\) 以下,另一半在 \(m\) 以上。

要找到中位数,你必须使用 PDF 或 CDF 来求解 \(m\):

使用 CDF:$$F(m) = 0.5$$ 使用 PDF:$$\int_{-\infty}^{m} f(x) \, dx = 0.5$$

4. 众数

众数 是概率密度函数 \(f(x)\) 达到最大高度时对应的 \(x\) 值。它代表了发生可能性最大的单个结果。

求众数的步骤:

  1. 如果 \(f(x)\) 比较简单(例如线性或二次函数),你可以通过观察图像直接找到最高点。
  2. 如果 \(f(x)\) 比较复杂,请使用微分法(标准的微积分优化):
    a) 求导:\(\frac{d}{dx} f(x)\)
    b) 令导数等于零并求解 \(x\):\(\frac{d}{dx} f(x) = 0\)
    c) 检查求得的 \(x\) 值是否在该分布定义的范围内。
统计量快速回顾
  • 均值: 需要计算 \(\int x f(x) \, dx\)
  • 方差: 需要计算 \(\int x^2 f(x) \, dx\) 和 \(\int x f(x) \, dx\)
  • 中位数: 需要求解 \(F(m) = 0.5\)
  • 众数: 需要找到 \(f(x)\) 的最大值(通常通过求导)

第4节:均匀分布 (矩形分布)

均匀分布是最简单的连续型分布,其概率密度在给定区间内是恒定的。

如果随机变量 \(X\) 在区间 \([a, b]\) 上服从均匀分布,我们记作 \(X \sim U(a, b)\)。

定义 \(U(a, b)\) 的 PDF

PDF 的图像看起来像一个矩形。由于总面积必须等于 1,高度(恒定的密度 \(k\))乘以宽度 (\(b-a\)) 必须等于 1。

$$k \times (b - a) = 1 \quad \Rightarrow \quad k = \frac{1}{b-a}$$

因此,PDF 为:

$$ f(x) = \begin{cases} \frac{1}{b-a} & \text{对于 } a \le x \le b \\ 0 & \text{其他} \end{cases} $$
在 \(U(a, b)\) 中计算概率

因为分布是恒定的,计算概率实际上就是计算面积(矩形面积 = 高 × 宽),通常不需要复杂的积分。

例子:如果公交车在 0 到 10 分钟之间均匀到达,即 \(U(0, 10)\)。高度为 \(1/10\)。你等待的时间在 2 到 5 分钟之间的概率为 \((5-2) \times (1/10) = 3/10\)。

\(U(a, b)\) 的均值与方差

我们可以通过积分公式推导均值和方差,但对于均匀分布,这些简化公式至关重要,请务必背诵:

均值(期望值): 由于密度是对称的,均值恰好位于中间。
$$E(X) = \frac{a+b}{2}$$

方差:
$$\text{Var}(X) = \frac{(b-a)^2}{12}$$

你知道吗? 分母 12 是均匀分布所独有的,这有助于你把它与以后学到的其他公式区分开来!

\(U(a, b)\) 的众数与中位数

由于密度在区间 \([a, b]\) 上是恒定的:

  • 众数: 区间 \(a\) 到 \(b\) 之间的每一个值都是众数(我们称之为多峰或平坦分布)。
  • 中位数: 中位数与均值相等:\(\frac{a+b}{2}\)。

总结与学习建议

掌握连续型分布在很大程度上依赖于你对微分和积分的熟练程度。如果你觉得题目很棘手,那通常是微积分的问题,而不是统计学的问题!

避免常见错误

  • 忘记积分限: 始终使用由 PDF 或特定概率范围定义的正确积分限。
  • 混淆 PDF 与 CDF: 记住,如果题目要求计算中位数或概率 \(P(X \le x)\),CDF (\(F(x)\)) 通常是最有效的工具。
  • 积分常数: 通过对 PDF (\(f(x)\)) 积分来寻找 CDF (\(F(x)\)) 时,记得利用定义域的边界来确定积分常数。至关重要的是:\(F(\text{下限}) = 0\) 且 \(F(\text{上限}) = 1\)。
  • 错误的 \(E(X)\) 公式: 计算均值时,别忘了在积分中将 \(f(x)\) 乘以 \(x\)!(\(\int x f(x) \, dx\))

坚持练习积分技巧,你会发现这些问题都遵循可预测的模式。祝你好运!