Unit S2: Statistics 2 - 章节笔记:连续型分布
欢迎来到连续概率的世界!
你好!本章标志着我们从离散型分布(如二项分布和泊松分布,我们统计的是 0, 1, 2, 3... 等具体数值)转向了连续型分布。连续型分布处理的是测量值——即在一定范围内可以取任意值的数据,例如身高、时间或温度。
如果这听起来让你有些压力,别担心!我们将把统计学背景下的积分和导数计算拆解开来。如果你对微积分比较有信心,那么你已经领先了一大步;如果没有,这正好是一个绝佳的机会来磨练你的数学技能!
核心要点: 在连续型分布中,我们关注的是概率密度,而不是某个精确点的概率。
第1节:概率密度函数 (PDF)
定义 \(f(x)\)
对于连续型随机变量 \(X\),我们定义概率密度函数 (Probability Density Function, PDF),记作 \(f(x)\)。
类比: 你可以将 \(f(x)\) 想象成一张地图,显示了概率在每个点 \(x\) 处的“密度”。\(f(x)\) 的图像越高,该位置的结果就越有可能发生。
所有 PDF 必须满足的两个基本准则
任何函数 \(f(x)\) 要成为一个合法的 PDF,必须满足以下两个条件:
- 非负性: 密度函数的值绝不能为负。
$$f(x) \ge 0 \quad \text{对于所有 } x \text{ 的值}$$ - 总面积为一: 在整个定义域(所有可能取值的范围)内,总概率必须等于 1。
$$\int_{-\infty}^{\infty} f(x) \, dx = 1$$在实际操作中,积分的上下限通常由题目给出的范围定义(例如 \(\int_{0}^{5} f(x) \, dx = 1\))。
计算概率
由于我们处理的是密度,随机变量 \(X\) 落入两个点 \(a\) 和 \(b\) 之间的概率,就是该区间内曲线下方的面积。
$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$
!!! 关键概念预警 !!!
对于任何连续型分布,随机变量 \(X\) 恰好等于某一个特定值的概率为零。
$$P(X = x) = 0$$
想一想:单个点的宽度为零,因此它上方的面积也为零。这意味着对于连续变量,我们不需要纠结不等号是否包含等号:
$$P(a < X < b) = P(a \le X \le b) = P(a < X \le b)$$第2节:累积分布函数 (CDF)
PDF 告诉我们在某一点的概率密度,而累积分布函数 (Cumulative Distribution Function, CDF),记作 \(F(x)\),告诉我们直到某一点 \(x\) 为止的累积概率。
CDF 的定义,\(F(x)\)
CDF 是随机变量 \(X\) 小于或等于特定值 \(x\) 的概率。
$$F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) \, dt$$(注意:我们使用 \(t\) 作为积分变量,以避免与上限 \(x\) 混淆。)
PDF 与 CDF 之间的关系
由于 CDF 是通过对 PDF 积分得到的,我们反过来可以通过求导来得到 PDF:
$$f(x) = \frac{d}{dx} F(x)$$
记忆助手:
F (CDF) 是通过 Integrating (积分) \(f(x)\) 得到的。
Differentiate (求导) \(F(x)\) 得到 f(x) (PDF)。
使用 CDF 计算概率
一旦你得到了 CDF,计算概率比每次都对 PDF 进行积分要快得多。
概率计算快速步骤
要计算 \(P(a < X < b)\):
- 计算 \(F(b)\)(直到 \(b\) 为止的累积概率)。
- 计算 \(F(a)\)(直到 \(a\) 为止的累积概率)。
- 两者相减:
$$P(a < X < b) = F(b) - F(a)$$
第3节:关键统计量
正如离散型分布一样,我们需要描述连续型分布的中心位置和离散程度。
1. 期望值 (均值),\(E(X)\)
期望值 \(\mu\) 是变量的长期平均值。对于连续型分布,公式为:
$$E(X) = \mu = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$$小贴士:将其与离散型分布对比,离散分布我们使用求和:\(\sum x P(X=x)\)。这里,积分取代了求和,而 \(f(x) \, dx\) 取代了 \(P(X=x)\)。
2. 方差与标准差
方差 \(\text{Var}(X)\) 衡量数据围绕均值的离散程度。我们使用与离散型分布相同的恒等式:
$$\text{Var}(X) = E(X^2) - [E(X)]^2$$为了求 \(E(X^2)\),我们调整期望值的公式:
$$E(X^2) = \int_{-\infty}^{\infty} x^2 \cdot f(x) \, dx$$标准差 (\(\sigma\)) 仅仅是方差的平方根。
3. 中位数,\(m\)
中位数 (\(m\)) 是将分布恰好平分为两半的值。一半的概率分布在 \(m\) 以下,另一半在 \(m\) 以上。
要找到中位数,你必须使用 PDF 或 CDF 来求解 \(m\):
使用 CDF:$$F(m) = 0.5$$ 使用 PDF:$$\int_{-\infty}^{m} f(x) \, dx = 0.5$$
4. 众数
众数 是概率密度函数 \(f(x)\) 达到最大高度时对应的 \(x\) 值。它代表了发生可能性最大的单个结果。
求众数的步骤:
- 如果 \(f(x)\) 比较简单(例如线性或二次函数),你可以通过观察图像直接找到最高点。
- 如果 \(f(x)\) 比较复杂,请使用微分法(标准的微积分优化):
a) 求导:\(\frac{d}{dx} f(x)\)
b) 令导数等于零并求解 \(x\):\(\frac{d}{dx} f(x) = 0\)
c) 检查求得的 \(x\) 值是否在该分布定义的范围内。
统计量快速回顾
- 均值: 需要计算 \(\int x f(x) \, dx\)
- 方差: 需要计算 \(\int x^2 f(x) \, dx\) 和 \(\int x f(x) \, dx\)
- 中位数: 需要求解 \(F(m) = 0.5\)
- 众数: 需要找到 \(f(x)\) 的最大值(通常通过求导)
第4节:均匀分布 (矩形分布)
均匀分布是最简单的连续型分布,其概率密度在给定区间内是恒定的。
如果随机变量 \(X\) 在区间 \([a, b]\) 上服从均匀分布,我们记作 \(X \sim U(a, b)\)。
定义 \(U(a, b)\) 的 PDF
PDF 的图像看起来像一个矩形。由于总面积必须等于 1,高度(恒定的密度 \(k\))乘以宽度 (\(b-a\)) 必须等于 1。
$$k \times (b - a) = 1 \quad \Rightarrow \quad k = \frac{1}{b-a}$$
因此,PDF 为:
$$ f(x) = \begin{cases} \frac{1}{b-a} & \text{对于 } a \le x \le b \\ 0 & \text{其他} \end{cases} $$在 \(U(a, b)\) 中计算概率
因为分布是恒定的,计算概率实际上就是计算面积(矩形面积 = 高 × 宽),通常不需要复杂的积分。
例子:如果公交车在 0 到 10 分钟之间均匀到达,即 \(U(0, 10)\)。高度为 \(1/10\)。你等待的时间在 2 到 5 分钟之间的概率为 \((5-2) \times (1/10) = 3/10\)。
\(U(a, b)\) 的均值与方差
我们可以通过积分公式推导均值和方差,但对于均匀分布,这些简化公式至关重要,请务必背诵:
均值(期望值): 由于密度是对称的,均值恰好位于中间。
$$E(X) = \frac{a+b}{2}$$
方差:
$$\text{Var}(X) = \frac{(b-a)^2}{12}$$
你知道吗? 分母 12 是均匀分布所独有的,这有助于你把它与以后学到的其他公式区分开来!
\(U(a, b)\) 的众数与中位数
由于密度在区间 \([a, b]\) 上是恒定的:
- 众数: 区间 \(a\) 到 \(b\) 之间的每一个值都是众数(我们称之为多峰或平坦分布)。
- 中位数: 中位数与均值相等:\(\frac{a+b}{2}\)。
总结与学习建议
掌握连续型分布在很大程度上依赖于你对微分和积分的熟练程度。如果你觉得题目很棘手,那通常是微积分的问题,而不是统计学的问题!
避免常见错误
- 忘记积分限: 始终使用由 PDF 或特定概率范围定义的正确积分限。
- 混淆 PDF 与 CDF: 记住,如果题目要求计算中位数或概率 \(P(X \le x)\),CDF (\(F(x)\)) 通常是最有效的工具。
- 积分常数: 通过对 PDF (\(f(x)\)) 积分来寻找 CDF (\(F(x)\)) 时,记得利用定义域的边界来确定积分常数。至关重要的是:\(F(\text{下限}) = 0\) 且 \(F(\text{上限}) = 1\)。
- 错误的 \(E(X)\) 公式: 计算均值时,别忘了在积分中将 \(f(x)\) 乘以 \(x\)!(\(\int x f(x) \, dx\))
坚持练习积分技巧,你会发现这些问题都遵循可预测的模式。祝你好运!