欢迎来到连续随机变量的世界!
在你的 A Level 数学旅程中,你已经认识了离散随机变量 (Discrete Random Variables)——即那些可以数得出来的数值,例如掷硬币时正面出现的次数。现在,我们要踏入统计学中“平滑”的一面:连续随机变量 (Continuous Random Variables, 简称 CRVs)。
试想一下走楼梯(离散的阶梯)与从坡道滑下(连续的路径)之间的差别。CRVs 适用于我们通过“测量”而非“计算”所得的数据,例如你等巴士的精确时间、树木的高度,或是苹果的重量。如果最初接触到相关的微积分觉得有点吃力,别担心;我们会一步一步把它拆解开来!
1. 概率密度函数 (Probability Density Function, PDF)
概率密度函数记作 \(f(x)\),是一个描述连续分配形状的公式。与离散变量不同,CRV 取得“某个精确数值”(例如刚好 1.50000... 厘米)的概率在技术上为零。相反,我们会观察数值落在某个区间 (range) 内的概率。
PDF 的关键性质:
- 函数值永远非负:对于所有 \(x\),\(f(x) \ge 0\)。
- 黄金法则:曲线下的总面积必须等于 1。数学表示为:\(\int_{-\infty}^{\infty} f(x) dx = 1\)。
- 概率即面积:\(X\) 落在 \(a\) 与 \(b\) 之间的概率,就是曲线在这两点之间的下方面积:\(P(a \le X \le b) = \int_{a}^{b} f(x) dx\)。
比喻:想象 PDF 就像一堆铺在线上的沙子。沙子的总量是“1 个单位”。要找出某个区间的概率,你只需要测量该区间对应的线上铺了多少沙子即可。
常见错误:别以为 \(f(x)\) 本身就是概率。它不是!面积才是概率。如果你计算出的面积大于 1 或出现负数,请务必重新检查你的积分过程!
快速回顾:
1. \(f(x) \ge 0\)
2. 总面积 = 1
3. \(P(a < X < b) = P(a \le X \le b\)(在 CRVs 中,边界点不会增加额外的概率!)
2. 累积分布函数 (Cumulative Distribution Function, CDF)
累积分布函数记作 \(F(x)\),告诉我们变量小于或等于某个特定数值的概率。
\(F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) dt\)
PDF 与 CDF 的关系:
这是一条“双向道”:
- 从 PDF 到 CDF:进行积分。
- 从 CDF 到 PDF:进行微分。\(f(x) = \frac{d}{dx}F(x)\)。
你知道吗? CDF 的起点总是 0(在最左侧),终点总是 1(在最右侧),因为它在过程中不断累积所有的概率。
关键重点: CDF 是你的好帮手,能让你快速找到概率,而不需要每次都重新进行积分。
3. 期望值与方差 (Expectation and Variance)
就像离散变量一样,我们想知道数据的“平均值”(Mean) 与“散布程度”(Variance)。因为我们处理的是连续曲线,所以我们用积分取代加总。
公式:
- 平均值(期望值): \(E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx\)
- 方差: \(Var(X) = \sigma^2 = E(X^2) - [E(X)]^2\),其中 \(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)
- 函数 \(g(X)\) 的期望值: \(E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dx\)
记忆小撇步:计算平均值时,“乘以 \(x\) 再积分”。计算 \(E(X^2)\) 时,“乘以 \(x^2\) 再积分”。切记在计算方差的最后一步,一定要减去平均值的平方!
4. 中位数、四分位数与百分位数
有时我们想找出“中间”的数值或“前 10%”的门槛。
- 中位数 (Median, \(m\)) 是左侧面积占一半、右侧面积也占一半的数值。解方程:\(F(m) = 0.5\)。
- 下四分位数 (Lower Quartile, \(Q_1\)) 是数据累积至 25% 的数值。解方程:\(F(Q_1) = 0.25\)。
- 上四分位数 (Upper Quartile, \(Q_3\)) 是数据累积至 75% 的数值。解方程:\(F(Q_3) = 0.75\)。
步骤流程:
1. 对 PDF 进行积分,求出 CDF,即 \(F(x)\)。
2. 令 \(F(x) = \text{目标概率}\)(例如中位数为 0.5)。
3. 解出 \(x\)。确保你的答案落在该函数的有效定义域内!
5. 特殊分布
除了正态分布,OCR 大纲还强调了另外两种你需要掌握的分布。
A. 连续均匀分布 (Continuous Uniform Distribution)
这是一种“公平”的分布,区间 \([a, b]\) 内每个数值出现的概率都相同。其 PDF 看起来像一个矩形。
- PDF: \(f(x) = \frac{1}{b-a}\) (当 \(a \le x \le b\) 时)。
- 平均值: \(E(X) = \frac{a+b}{2}\)(刚好在中间!)。
- 方差: \(Var(X) = \frac{(b-a)^2}{12}\)。
B. 指数分布 (Exponential Distribution)
这常用于模拟事件之间的时间间隔(例如放射性衰变的时间间隔,或是顾客抵达商店的时间间隔)。
- PDF: \(f(x) = \lambda e^{-\lambda x}\) (当 \(x \ge 0\) 时)。
- 平均值: \(E(X) = \frac{1}{\lambda}\)。
- 方差: \(Var(X) = \frac{1}{\lambda^2}\)。
有趣的链接:指数分布与泊松分布 (Poisson distribution) 密切相关。如果事件依照速率 \(\lambda\) 的泊松过程发生,那么事件之间的时间间隔就会遵循同样 \(\lambda\) 的指数分布。
6. 随机变量的函数
有时候你知道 \(X\) 的分布,但想求出相关变量(例如 \(Y = X^3\) 或 \(Y = 2X + 5\))的分布。
解题方法:
- 从 \(Y\) 的 CDF 开始:\(F_Y(y) = P(Y \le y)\)。
- 代入关系式:\(P(g(X) \le y)\)。
- 整理算式使 \(X\) 独立:\(P(X \le g^{-1}(y))\)。
- 这现在变成了 \(X\) 在某一点的 CDF 值!
- 得到新的 CDF (\(F_Y(y)\)) 后,对其进行微分即可求出新的 PDF (\(f_Y(y)\))。
范例:若 \(Y = X^3\),则 \(P(Y \le y) = P(X^3 \le y) = P(X \le y^{1/3}) = F_X(y^{1/3})\)。
关键重点:在变量转换时,务必从 CDF 开始。这比直接跳到 PDF 的逻辑更稳妥、更不容易出错。
最后快速复习箱
CRV 核心要点:
- 积分 PDF 可得概率或 CDF。
- 微分 CDF 可得 PDF。
- 总面积必须为 1。
- 平均值就是“平均数”(\(\int x f(x) dx\))。
- 中位数是 CDF 上 0.5 的那个点。
你一定没问题的!连续变量听起来可能很抽象,但它们其实只是用数学方式来描述现实世界中无穷变化的工具。勤加练习积分,统计学的概念自然就会融会贯通!