欢迎来到连续概率分布!
在之前的学习中,你已经接触过离散随机变量——即可以数出来的数值,例如掷硬币出现正面的次数,或是掷骰子的点数。在本章中,我们将进入连续随机变量的世界。这些变量通常是通过测量所得,例如时间、身高或温度。由于测量值可以是任何数值(例如 1.5 秒、1.51 秒或 1.5123... 秒),我们需要一套稍微不同的工具来处理它们。如果起初觉得有点困难,不用担心;这基本上只是把你已经掌握的积分与微分技巧应用到统计学领域而已!
1. 概率密度函数 (PDF)
对于连续变量,我们使用一个称为概率密度函数 (Probability Density Function) 的函数,通常记作 \(f(x)\)。
可以这样理解:想象一个直方图,当柱状越来越窄,直到形成一条平滑的曲线。那条曲线就是你的 PDF。最重要的一点是:对于连续变量,曲线下的面积代表概率。
\(f(x)\) 的关键性质:
1. 函数值永远不会是负数:对于所有 \(x\),\(f(x) \geq 0\)。
2. 整个曲线下的总面积必须等于 1:\(\int_{-\infty}^{\infty} f(x) dx = 1\)。
3. 变量 \(X\) 落在两个数值 \(a\) 和 \(b\) 之间的概率,就是两者之间的面积:\(P(a < X \leq b) = \int_{a}^{b} f(x) dx\)。
避免常见错误:在连续分布中,变量恰好等于某一个值的概率是零!例如,\(P(X = 5) = 0\)。这是因为单一点的“面积”为零。因此,\(P(X < 5)\) 与 \(P(X \leq 5)\) 是完全一样的。
快速回顾:若要找出概率,只需在你设定的两个极限之间对 PDF 进行积分即可!
2. 累积概率分布函数 (CDF)
累积概率分布函数 (Cumulative Distribution Function),记作 \(F(x)\),告诉我们变量小于或等于某个数值的概率。
类比:想象往桶子里注水。PDF 告诉我们水在任何时刻流动的速度,而 CDF 则告诉我们在时间 \(x\) 时桶子里总共有多少水。
如何计算 CDF:
\(F(x_0) = P(X \leq x_0) = \int_{-\infty}^{x_0} f(x) dx\)
当你计算 \(F(x)\) 时,通常会得到一个分段函数 (piecewise function)。它会从 0 开始,随着概率的“累积”而增加,并且当你考虑了所有可能的 \(x\) 值后,函数值最终必须达到 1。
3. PDF 与 CDF 之间的转换
PDF (\(f(x)\)) 与 CDF (\(F(x)\)) 之间的关系是本章最有用的工具之一,这其实就是简单的微积分!
1. 从 PDF 转换到 CDF:使用积分!\(F(x) = \int f(x) dx\)。
2. 从 CDF 转换到 PDF:使用微分!\(f(x) = \frac{dF(x)}{dx}\)。
记忆小撇步:
Differentiate (微分) 去得到 Down (较低的阶层,即从总量 \(F(x)\) 到密度 \(f(x)\))。
Integrate (积分) 去 Increase (增加,即从密度 \(f(x)\) 到累积总量 \(F(x)\))。
关键要点:如果题目给出 CDF 并要求你计算 PDF,只需对函数的每个区间分别求导即可。
4. 平均值、方差与期望值
就像离散变量一样,我们想找出数据的“平均值”(Mean) 和“离散程度”(Variance)。
公式:
平均值(期望值): \(E(X) = \mu = \int x f(x) dx\)
函数的期望值: \(E(g(X)) = \int g(x) f(x) dx\)
方差: \(Var(X) = \sigma^2 = E(X^2) - [E(X)]^2\),其中 \(E(X^2) = \int x^2 f(x) dx\)。
计算方差的步骤:
1. 计算 \(\int x \times f(x) dx\) 以求出 \(E(X)\)。
2. 计算 \(\int x^2 \times f(x) dx\) 以求出 \(E(X^2)\)。
3. 用第二个结果减去第一个结果的平方。别忘了要把平均值平方!这是最容易失分的地方。
5. 众数、中位数与四分位数
这些是描述分布“中心”或“位置”的不同方式。
众数 (Mode):这是在 PDF \(f(x)\) 取得最大值时的 \(x\) 值。
如何寻找:观察该函数。如果是简单曲线,使用微分找出驻点 (\(f'(x) = 0\))。如果是直线,它会位于边界处。
中位数 (Median, \(m\)):这是一个数值,使一半的面积在其左侧,另一半在其右侧。
如何寻找:解方程 \(F(m) = 0.5\)。
四分位数与百分位数:计算方式与中位数相同。对于下四分位数 (\(Q_1\)),解 \(F(Q_1) = 0.25\)。对于第 90 百分位数,解 \(F(x) = 0.90\)。
关键要点:务必使用 CDF (\(F(x)\)) 来寻找中位数和四分位数。这比每次都从头积分要简单得多!
6. 偏度 (Skewness)
偏度描述了分布的“倾斜”方向。通常你可以通过观察图形形状看出偏度,但你可能需要使用已计算出的数值来佐证你的判断。
正偏 (Positive Skew):“尾巴”在右侧。通常 \(Mode < Median < Mean\)。
负偏 (Negative Skew):“尾巴”在左侧。通常 \(Mean < Median < Mode\)。
零偏 (Zero Skew):分布完全对称。\(Mean = Median = Mode\)。
你知道吗?许多现实世界的测量数据,例如家庭收入,都呈现正偏,因为少数人拥有极高的收入,这把“平均值”拉向了右侧!
7. 连续均匀分布 (Continuous Uniform Distribution)
这是一个特殊且简单的情况,概率在特定范围 \([a, b]\) 内是常数。它也称为矩形分布 (Rectangular Distribution),因为它的 PDF 看起来像一个矩形。
\(X \sim U(a, b)\) 的关键事实:
PDF: \(f(x) = \frac{1}{b - a}\),适用于 \(a \leq x \leq b\)。 (因为高度 \(\times\) 宽度必须等于 1)。
平均值: \(E(X) = \frac{a + b}{2}\) (正好在中间!)。
方差: \(Var(X) = \frac{(b - a)^2}{12}\)。
CDF: \(F(x) = \frac{x - a}{b - a}\),适用于 \(a \leq x \leq b\)。
小提示:考试常要求你推导均匀分布的平均值和方差。若要这样做,只需使用标准的 \(E(X)\) 和 \(Var(X)\) 积分公式,代入 PDF \(f(x) = \frac{1}{b-a}\) 即可。
本章总结核对表
你会...吗?
- 对 PDF 积分以求出概率或常数 \(k\) 的值?
- 利用微分和积分在 PDF 与 CDF 之间转换?
- 使用积分公式计算平均值和方差?
- 找出给定分布的中位数和众数?
- 识别并使用连续均匀分布的快捷公式?
- 以清晰的依据来描述分布的偏度?
别害怕积分!大多数考试题目使用的都是 \(x\) 的简单幂次,所以只要你掌握 \(\int kx^n dx = \frac{kx^{n+1}}{n+1}\),你就已经在掌握本章的道路上了!