Continuous random variables 学习笔记

欢迎来到连续随机变量的世界！

在之前的课程（单元 S1）中，你已经学过离散随机变量 (discrete random variables)——也就是可以数得出来的数值，比如掷硬币时出现的人头数。在这个章节，我们将进入「无限」的世界，探讨连续随机变量 (continuous random variables)。这些变量通常是透过「测量」得出的，例如灯泡坏掉前的时长，或是树木的精确高度。由于测量永远可以更精确（例如：1.5米、1.52米、1.5234米……），这些变量可以在某个范围内取任何数值。如果一开始觉得很抽象，不用担心！我们将运用你已有的微积分知识（积分与微分）来把它拆解得清清楚楚！

1. 什么是连续随机变量？

连续随机变量 (CRV) 是一个可以取给定区间内任何值的变量 \( X \)。
例子：一颗苹果的重量。它可以是 150克、150.1克，甚至是 150.115克。

重要概念：单一点的概率
你知道吗？ 对于连续随机变量来说，变量等于「特定单一点」的概率永远是零，即 \( P(X = 2) = 0 \)。
你可以这样想像：如果你试着往数线上投掷飞镖，想要刚好击中 2.000000...（有无穷多个零）那个点是不可能的。因此，我们总是关注落在某个范围 (range) 内的概率，例如 \( P(1.9 < X < 2.1) \)。

快速重温：离散 vs 连续

离散： 可数的数值。使用概率分布表。
连续： 可测量的数值。使用概率密度函数 (pdf)。

2. 概率密度函数 (pdf)

概率密度函数记作 \( f(x) \)，用来描述分布的形状。它本身并不是概率，但其曲线下的面积 (area) 代表了概率。

\( f(x) \) 的两大金科玉律：
1. 函数值永远不能为负：对于所有的 \( x \)，都有 \( f(x) \ge 0 \)。
2. 曲线下的总面积必须等于 1： \( \int_{-\infty}^{\infty} f(x) dx = 1 \)。

若要找出 \( X \) 落在两个数值 \( a \) 和 \( b \) 之间的概率，我们只需计算该曲线在这些点之间的面积：
\( P(a < X \le b) = \int_{a}^{b} f(x) dx \)

记忆小撇步： 把 pdf 想成是一张「密度图」。图形越高的地方，该数值出现的可能性就越高。而这张地图的总「质量」永远是 1。

3. 累积分配函数 (cdf)

累积分配函数记作 \( F(x) \)，它告诉我们变量小于或等于某个值 \( x_0 \) 的概率。
\( F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx \)

连结 \( f(x) \) 与 \( F(x) \) 的「桥梁」

你可以运用微积分技巧在两个函数之间转换：
- 从 pdf 到 cdf：对 \( f(x) \) 进行积分 (integrate)。
- 从 cdf 到 pdf：对 \( F(x) \) 进行微分 (differentiate)。
\( f(x) = \frac{dF(x)}{dx} \)

常见错误： 当你积分 \( f(x) \) 来求 \( F(x) \) 时，千万别忘了加上积分常数 \( +C \)。你通常可以透过 \( F(\text{下限}) = 0 \) 或 \( F(\text{上限}) = 1 \) 的条件来求出 \( C \)。

核心观念： \( f(x) \) 是概率的「斜率」或变化率，而 \( F(x) \) 是概率的「累积总数」。

4. 位置测度：众数、中位数与四分位数

就像在 S1 一样，我们想找出数据的「中心」。

众数 (Mode)

众数是使 pdf \( f(x) \) 达到最大值的 \( x \) 值。
如何寻找：观察图形。如果是简单的曲线，就使用微分：令 \( f'(x) = 0 \) 并解出 \( x \)。别忘了检查范围的边界，因为最大值可能出现在端点上！

中位数与四分位数

中位数 (Median) \( m \) 是使左侧面积占一半、右侧面积占一半的数值。
令 \( F(m) = 0.5 \) 并解出 \( m \)。

对于四分位数 (Quartiles) 也是如此：
- 下四分位数 (\( Q_1 \))： 令 \( F(Q_1) = 0.25 \)。
- 上四分位数 (\( Q_3 \))： 令 \( F(Q_3) = 0.75 \)。

中位数计算步骤：
1. 找出 cdf \( F(x) \) 的表达式。
2. 将该表达式令为 0.5。
3. 解出 \( x \)。这个值就是你的中位数！

5. 平均值与变异数

平均值（或称期望值 expectation）与变异数 (variance) 告诉我们数据的平均水平以及数据的离散程度。

平均值 (期望值)

在离散数学中，你用的是 \( \sum x P(X=x) \)。而在连续数学中，我们使用积分：
\( E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx \)

变异数

变异数的公式与 S1 相同，但我们使用积分来计算各个部分：
\( Var(X) = \sigma^2 = E(X^2) - [E(X)]^2 \)
其中 \( E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx \)。

如果觉得这部分很复杂，别担心！ 只要记住，如果要找「任何东西」的期望值，只要把那个「东西」放进积分式里，并乘以 \( f(x) \) 即可。
例子：要求 \( E(X^2) \)，就对 \( x^2 \times f(x) \) 进行积分。

6. 运算总结表

如果你想找出…… 使用此方法：
- 概率 \( P(a < X < b) \)： 对 \( f(x) \) 从 \( a \) 到 \( b \) 积分，或计算 \( F(b) - F(a) \)。
- 期望值 \( E(X) \)： 对 \( x \times f(x) \) 积分。
- 众数： 找出使 \( f(x) \) 最大的 \( x \) 值。
- 中位数： 解方程式 \( F(x) = 0.5 \)。
- 关系： \( f(x) \) 是 \( F(x) \) 的导数。

核心总结： 积分是你在这个章节最好的朋友！做完题目后，务必检查总概率是否等于 1，以确保没有计算错误。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

Continuous random variables