Continuous distributions

Unit S2: Statistics 2 - 章节笔记：连续型分布

欢迎来到连续概率的世界！

你好！本章标志着我们从离散型分布（如二项分布和泊松分布，我们统计的是 0, 1, 2, 3... 等具体数值）转向了连续型分布。连续型分布处理的是测量值——即在一定范围内可以取任意值的数据，例如身高、时间或温度。

如果这听起来让你有些压力，别担心！我们将把统计学背景下的积分和导数计算拆解开来。如果你对微积分比较有信心，那么你已经领先了一大步；如果没有，这正好是一个绝佳的机会来磨练你的数学技能！

核心要点： 在连续型分布中，我们关注的是概率密度，而不是某个精确点的概率。

第1节：概率密度函数 (PDF)

定义 $f(x)$

对于连续型随机变量 $X$，我们定义概率密度函数 (Probability Density Function, PDF)，记作 $f(x)$。

类比： 你可以将 $f(x)$ 想象成一张地图，显示了概率在每个点 $x$ 处的“密度”。$f(x)$ 的图像越高，该位置的结果就越有可能发生。

所有 PDF 必须满足的两个基本准则

任何函数 $f(x)$ 要成为一个合法的 PDF，必须满足以下两个条件：

非负性： 密度函数的值绝不能为负。
$$f(x) \ge 0 \quad \text{对于所有 } x \text{ 的值}$$
总面积为一： 在整个定义域（所有可能取值的范围）内，总概率必须等于 1。
$$\int_{-\infty}^{\infty} f(x) \, dx = 1$$
在实际操作中，积分的上下限通常由题目给出的范围定义（例如 $\int_{0}^{5} f(x) \, dx = 1$）。

计算概率

由于我们处理的是密度，随机变量 $X$ 落入两个点 $a$ 和 $b$ 之间的概率，就是该区间内曲线下方的面积。

$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$

!!! 关键概念预警 !!!

对于任何连续型分布，随机变量 $X$ 恰好等于某一个特定值的概率为零。
$$P(X = x) = 0$$

想一想：单个点的宽度为零，因此它上方的面积也为零。这意味着对于连续变量，我们不需要纠结不等号是否包含等号：

$$P(a < X < b) = P(a \le X \le b) = P(a < X \le b)$$

第2节：累积分布函数 (CDF)

PDF 告诉我们在某一点的概率密度，而累积分布函数 (Cumulative Distribution Function, CDF)，记作 $F(x)$，告诉我们直到某一点 $x$ 为止的累积概率。

CDF 的定义，$F(x)$

CDF 是随机变量 $X$ 小于或等于特定值 $x$ 的概率。

$$F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) \, dt$$

（注意：我们使用 $t$ 作为积分变量，以避免与上限 $x$ 混淆。）

PDF 与 CDF 之间的关系

由于 CDF 是通过对 PDF 积分得到的，我们反过来可以通过求导来得到 PDF：

$$f(x) = \frac{d}{dx} F(x)$$

记忆助手：
F (CDF) 是通过 Integrating (积分) $f(x)$ 得到的。
Differentiate (求导) $F(x)$ 得到 f(x) (PDF)。

使用 CDF 计算概率

一旦你得到了 CDF，计算概率比每次都对 PDF 进行积分要快得多。

概率计算快速步骤

要计算 $P(a < X < b)$：

计算 $F(b)$（直到 $b$ 为止的累积概率）。
计算 $F(a)$（直到 $a$ 为止的累积概率）。
两者相减：
$$P(a < X < b) = F(b) - F(a)$$

第3节：关键统计量

正如离散型分布一样，我们需要描述连续型分布的中心位置和离散程度。

1. 期望值 (均值)，$E(X)$

期望值 $\mu$ 是变量的长期平均值。对于连续型分布，公式为：

$$E(X) = \mu = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$$

小贴士：将其与离散型分布对比，离散分布我们使用求和：$\sum x P(X=x)$。这里，积分取代了求和，而 $f(x) \, dx$ 取代了 $P(X=x)$。

2. 方差与标准差

方差 $\text{Var}(X)$ 衡量数据围绕均值的离散程度。我们使用与离散型分布相同的恒等式：

$$\text{Var}(X) = E(X^2) - [E(X)]^2$$

为了求 $E(X^2)$，我们调整期望值的公式：

$$E(X^2) = \int_{-\infty}^{\infty} x^2 \cdot f(x) \, dx$$

标准差 ($\sigma$) 仅仅是方差的平方根。

3. 中位数，$m$

中位数 ($m$) 是将分布恰好平分为两半的值。一半的概率分布在 $m$ 以下，另一半在 $m$ 以上。

要找到中位数，你必须使用 PDF 或 CDF 来求解 $m$：

使用 CDF：$$F(m) = 0.5$$ 使用 PDF：$$\int_{-\infty}^{m} f(x) \, dx = 0.5$$

4. 众数

众数是概率密度函数 $f(x)$ 达到最大高度时对应的 $x$ 值。它代表了发生可能性最大的单个结果。

求众数的步骤：

如果 $f(x)$ 比较简单（例如线性或二次函数），你可以通过观察图像直接找到最高点。
如果 $f(x)$ 比较复杂，请使用微分法（标准的微积分优化）：
a) 求导：$\frac{d}{dx} f(x)$
b) 令导数等于零并求解 $x$：$\frac{d}{dx} f(x) = 0$
c) 检查求得的 $x$ 值是否在该分布定义的范围内。

统计量快速回顾

均值： 需要计算 $\int x f(x) \, dx$
方差： 需要计算 $\int x^2 f(x) \, dx$ 和 $\int x f(x) \, dx$
中位数： 需要求解 $F(m) = 0.5$
众数： 需要找到 $f(x)$ 的最大值（通常通过求导）

第4节：均匀分布 (矩形分布)

均匀分布是最简单的连续型分布，其概率密度在给定区间内是恒定的。

如果随机变量 $X$ 在区间 $[a, b]$ 上服从均匀分布，我们记作 $X \sim U(a, b)$。

定义 $U(a, b)$ 的 PDF

PDF 的图像看起来像一个矩形。由于总面积必须等于 1，高度（恒定的密度 $k$）乘以宽度 ($b-a$) 必须等于 1。

$$k \times (b - a) = 1 \quad \Rightarrow \quad k = \frac{1}{b-a}$$

因此，PDF 为：

$$\nf(x) = \begin{cases}\n \frac{1}{b-a} & \text{对于 } a \le x \le b \\\n 0 & \text{其他}\n\end{cases}\n$$

在 $U(a, b)$ 中计算概率

因为分布是恒定的，计算概率实际上就是计算面积（矩形面积 = 高 × 宽），通常不需要复杂的积分。

例子：如果公交车在 0 到 10 分钟之间均匀到达，即 $U(0, 10)$。高度为 $1/10$。你等待的时间在 2 到 5 分钟之间的概率为 $(5-2) \times (1/10) = 3/10$。

$U(a, b)$ 的均值与方差

我们可以通过积分公式推导均值和方差，但对于均匀分布，这些简化公式至关重要，请务必背诵：

均值（期望值）： 由于密度是对称的，均值恰好位于中间。
$$E(X) = \frac{a+b}{2}$$

方差：
$$\text{Var}(X) = \frac{(b-a)^2}{12}$$

你知道吗？ 分母 12 是均匀分布所独有的，这有助于你把它与以后学到的其他公式区分开来！

$U(a, b)$ 的众数与中位数

由于密度在区间 $[a, b]$ 上是恒定的：

众数： 区间 $a$ 到 $b$ 之间的每一个值都是众数（我们称之为多峰或平坦分布）。
中位数： 中位数与均值相等：$\frac{a+b}{2}$。

总结与学习建议

掌握连续型分布在很大程度上依赖于你对微分和积分的熟练程度。如果你觉得题目很棘手，那通常是微积分的问题，而不是统计学的问题！

避免常见错误

忘记积分限： 始终使用由 PDF 或特定概率范围定义的正确积分限。
混淆 PDF 与 CDF： 记住，如果题目要求计算中位数或概率 $P(X \le x)$，CDF ($F(x)$) 通常是最有效的工具。
积分常数： 通过对 PDF ($f(x)$) 积分来寻找 CDF ($F(x)$) 时，记得利用定义域的边界来确定积分常数。至关重要的是：$F(\text{下限}) = 0$ 且 $F(\text{上限}) = 1$。
错误的 $E(X)$ 公式： 计算均值时，别忘了在积分中将 $f(x)$ 乘以 $x$！($\int x f(x) \, dx$)

坚持练习积分技巧，你会发现这些问题都遵循可预测的模式。祝你好运！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

Unit S2: Statistics 2 - 章节笔记：连续型分布

欢迎来到连续概率的世界！

第1节：概率密度函数 (PDF)

定义 \(f(x)\)

所有 PDF 必须满足的两个基本准则

计算概率

第2节：累积分布函数 (CDF)

CDF 的定义，\(F(x)\)

PDF 与 CDF 之间的关系

使用 CDF 计算概率

概率计算快速步骤

第3节：关键统计量

1. 期望值 (均值)，\(E(X)\)

2. 方差与标准差

3. 中位数，\(m\)

4. 众数

统计量快速回顾

第4节：均匀分布 (矩形分布)

定义 \(U(a, b)\) 的 PDF

在 \(U(a, b)\) 中计算概率

\(U(a, b)\) 的均值与方差

\(U(a, b)\) 的众数与中位数

总结与学习建议

避免常见错误

准备好测试自己了吗？

更多Further Mathematics (YFM01)章节

立即实践所学