Statistics and probability - Mathematics - Applications and Interpretation - IB Diploma Programme (DP) - SL & HL

📊 欢迎来到数据世界：统计学与概率论 🎲

各位未来的数据分析师们，你们好！本章“统计学与概率论”是 IB 数学：应用与解释（AI）课程的核心。为什么这么说呢？因为我们生活在一个数据驱动的时代，理解如何收集、分析和解读这些数据，是你所能掌握的最强大的技能之一。

如果数字和图表让你感到头疼，不用担心！我们将把每一个概念拆解开来，一步步学习。我们会重点关注如何高效地使用你的绘图计算器（GDC），最重要的是，学会如何在现实背景下解读这些数字的含义。让我们一起开启数据解读的艺术之旅吧！

第 1 节：描述性统计 – 数据概括

1.1 数据类型

在进行任何计算之前，我们必须明确数据的类型，因为这决定了我们该如何分析它。

定性数据 (Qualitative Data)（类别数据）：描述性质或特征（例如：最喜欢的颜色、出生国家）。
定量数据 (Quantitative Data)（数值数据）：涉及数字。
- 离散数据 (Discrete Data)：只能取特定、可数的值（通常是整数）。例子：班级的人数、经过某个路口的车辆数。
- 连续数据 (Continuous Data)：在给定范围内可以取任何值（通过测量而非计数获得）。例子：身高、温度、跑完一场比赛所需的时间。

小贴士： 离散数据靠“数”出来，连续数据靠“量”出来。

1.2 集中趋势的度量（“中间位置”）

这些度量指标告诉我们数据的中心在哪里。

平均值 (Mean, \(\bar{x}\) 或 \(\mu\))： 即算术平均数。将所有数值相加，然后除以总个数。
比喻：如果每个人把钱放在一起平分，每个人分到的金额就是平均值。
中位数 (Median)： 数据按从小到大排列后处于中间位置的数值。如果数据个数是偶数，则取中间两个数的平均值。
提示： 中位数的优点在于它不受极端值（异常值）的影响，而极端值往往会拉偏平均值。
众数 (Mode)： 出现频率最高的数值。

1.3 离散程度的度量（“分散程度”）

这些指标告诉我们数据分布得有多广或有多分散。

极差 (Range)： 最大值减去最小值。计算简单，但极易受到极端值的影响。
四分位距 (IQR)： 第三个四分位数 (\(Q_3\)) 与第一个四分位数 (\(Q_1\)) 之差。它涵盖了中间 50% 的数据。
\(IQR = Q_3 - Q_1\)
标准差 (Standard Deviation, \(\sigma\))： 这是最重要的离散程度度量！它告诉我们数据点平均偏离平均值多远。
核心概念： 标准差小，说明数据点紧密聚集在平均值周围；标准差大，说明数据分布非常分散。

分步指南：使用 GDC 进行统计计算

在 AI 课程中，几乎所有此类计算都要依赖 GDC：

将数据输入列表 (L1)。
运行 单变量统计 (1-Var Stats)。
GDC 会立即给出 \(\bar{x}\)（平均值）、\(\sigma x\)（标准差）、Med（中位数）、\(Q_1\) 和 \(Q_3\)。

第 1 节重点回顾： 描述性统计能帮助我们观察数据的集中趋势（代表性数值）和离散程度（波动性）。标准差是你衡量离散度时的最好朋友。

第 2 节：双变量数据与回归

当我们同时观察两个变量时（双变量数据），我们通常想知道它们之间是否存在关系。

2.1 相关性 (Correlation)

相关性描述了两个变量之间线性关系的强弱和方向，通常在散点图 (Scatter plot) 上展示。

正相关： 一个变量增加，另一个变量也随之增加（斜向上）。例子：学习时长与考试分数。
负相关： 一个变量增加，另一个变量随之减少（斜向下）。例子：室外气温与热可可的销量。
零相关/弱相关： 没有明显的线性关系。例子：鞋码与收入。

2.2 相关系数 (\(r\))

衡量线性相关性强弱和方向的数值称为皮尔逊积矩相关系数 (Pearson product moment correlation coefficient, \(r\))。

\(r\) 的值始终在 \(-1\) 到 \(+1\) 之间。
\(r = +1\)：完全正线性相关。
\(r = -1\)：完全负线性相关。
\(r = 0\)：无线性相关。
数值越接近 1 或 -1，说明相关性越强。

常见误区： 相关性并不意味着因果关系！仅仅因为两件事同时发生，并不代表其中一件导致了另一件。例子：冰淇淋销量和犯罪率在夏天都会升高，但冰淇淋销量并不会导致犯罪。

2.3 回归直线 (LSRL)

最小二乘回归直线 (Least Squares Regression Line, LSRL) 是最能代表数据趋势的直线。我们利用这条直线来进行预测。

IB AI 课程中通用的表达式通常为：
\[y = ax + b\]

\(a\) 是斜率（变化率）。
\(b\) 是 \(y\) 轴截距（当 \(x=0\) 时 \(y\) 的值）。

预测与警示

内插法 (Interpolation)： 在原始数据范围之内进行预测。通常比较可靠。
外推法 (Extrapolation)： 在原始数据范围之外进行预测。这很有风险，因为我们不确定该趋势在测量范围之外是否依然成立。

第 2 节重点回顾： 回归分析使我们能够建立模型并进行预测。一定要检查 \(r\) 值来评估预测的可靠性，并谨慎使用外推法！

第 3 节：概率基础

3.1 基本术语

试验 (Experiment)： 结果不确定的过程（如掷骰子）。
结果 (Outcome)： 试验的一个可能结果（如掷出 4）。
样本空间 (Sample Space, \(S\))： 所有可能结果的集合。
事件 (Event, \(A\))： 特定结果的集合（如掷出偶数）。
事件 \(A\) 的概率记作 \(P(A)\)。所有概率都在 0 到 1 之间。

3.2 组合事件与运算法则

加法法则

用于计算事件 A 或 (OR) 事件 B 发生的概率。

\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

我们需要减去 \(P(A \cap B)\)（交集，A 且 B），因为我们在计算 P(A) 和 P(B) 时重复计算了这些结果。

互斥事件 (Mutually Exclusive Events)： 不能同时发生的事件。如果 A 和 B 互斥，则 \(P(A \cap B) = 0\)。
此时，公式简化为：\(P(A \cup B) = P(A) + P(B)\)。

条件概率与独立性

条件概率 (Conditional Probability) 指在已知事件 B 已经发生的前提下，事件 A 发生的概率。

\[P(A|B) = \frac{P(A \cap B)}{P(B)}\]

独立事件 (Independent Events)： 一个事件的发生不影响另一个事件的概率。

如果 A 和 B 独立，乘法法则非常简单：
\[P(A \cap B) = P(A) \times P(B)\]

你知道吗？

互斥事件不可能独立。如果 A 和 B 互斥，那么知道 A 发生了，就意味着 B 一定没有发生（这极大地影响了概率！）。

第 3 节重点回顾： 概率论的核心在于判断事件是同时发生（交集）还是任一发生（并集），以及一个事件的发生是否影响另一个（条件概率/独立性）。

第 4 节：离散概率分布（二项分布模型）

4.1 随机变量

随机变量 (Random Variable, \(X\)) 是一个其取值为随机现象的数值结果的变量。

离散随机变量： 通常是计数的产物（如 10 次投硬币中正面的次数）。
连续随机变量： 测量的产物（如随机抽取的人的身高）。

4.2 期望值（平均值）

离散随机变量的期望值 (Expected Value, \(E(X)\)) 是理论上的长期平均结果。它是每个结果 (\(x\)) 与其对应概率 (\(P(X=x)\)) 乘积的总和。

\[E(X) = \sum x P(X=x)\]

比喻：如果你玩一个游戏 1000 次，期望值告诉你每局游戏的平均输赢。

4.3 二项分布 (Binomial Distribution)

二项分布用于对满足特定条件的离散概率进行建模（称为伯努利试验）：

试验次数固定 (\(n\))。
每次试验只有两个结果：成功或失败。
每次试验成功的概率 (\(p\)) 保持不变。
各次试验相互独立。

我们记作 \(X \sim B(n, p)\)，其中 \(n\) 是试验次数，\(p\) 是成功概率。

GDC 功能至关重要！

你需要使用 GDC 来进行以下计算：

二项概率分布函数 (PDF)： 当你想计算精确成功次数的概率时使用。\(P(X = k)\)。例子：10 次投硬币中恰好有 5 次正面的概率。
二项累积分布函数 (CDF)： 当你想计算累积概率或一系列结果的概率时使用。\(P(X \le k)\)（达到 k 次成功及以下）。例子：10 次投硬币中正面次数不超过 5 次的概率。

记忆窍门： P(D)F 用于 Precise（精确点），C(D)F 用于 Cumulative（累积范围）。

第 4 节重点回顾： 二项分布是处理“成功/失败”情境的强大模型。记住确定 \(n\) 和 \(p\)，并分清何时在计算器上使用 PDF（精确值）或 CDF（范围值）。

第 5 节：连续概率分布（正态分布模型）

5.1 正态分布 (Normal Distribution)

正态分布是统计学中最重要的连续分布，它能模拟许多自然现象（身高、血压、考试成绩）。

我们记作 \(X \sim N(\mu, \sigma^2)\)，其中：

\(\mu\) (mu)： 平均值（由于其完美对称，它也是中位数和众数）。
\(\sigma^2\) (sigma squared)： 方差。\(\sigma\) 为标准差。

正态曲线（钟形曲线）的特征

关于平均值 \(\mu\) 对称。
曲线下的总面积等于 1。
曲线向两侧无限延伸（但无限趋近于 0）。

5.2 数据标准化（Z-分数）

Z-分数 (Z-score) 告诉你在某个数据点 (\(x\)) 距离平均值 (\(\mu\)) 有多少个标准差。

\[Z = \frac{x - \mu}{\sigma}\]

正的 Z-分数意味着数值高于平均值。
负的 Z-分数意味着数值低于平均值。
标准正态分布是 \(Z \sim N(0, 1)\)（平均值为 0，标准差为 1）。

5.3 使用 GDC 计算正态分布

由于无法手动计算连续概率，GDC 是必不可少的。

Normal CDF： 用于计算两个数值之间，或高于/低于某个特定值的概率（曲线下的面积）。
Inverse Normal (逆正态)： 当已知概率（面积）并需要找到对应的具体数据值 (\(x\)) 或 Z-分数时使用。
关键点： 逆正态函数计算的始终是从最左侧开始的累计面积（左尾）。

给同学的建议： 一定要画出钟形曲线！标出你想求的区域，这样可以防止在设置 Normal CDF 函数的上下界时出错。

第 5 节重点回顾： 正态分布是连续数据的关键模型。Z-分数允许你比较不同数据集的结果，而你的计算器（Normal CDF/Inverse Normal）是解决这些问题的必备工具。

第 6 节：统计推断与检验（HL 和进阶 SL 重点）

统计推断是通过仅有的样本数据，对整个大总体做出结论的过程。

6.1 假设检验介绍

假设检验利用样本数据在两个关于总体的竞争性陈述之间做出抉择：

零假设 (\(H_0\))： 现状；假设没有影响、没有差异或没有关系。（我们先假定它是真的）。
备择假设 (\(H_1\))： 要检验的声明；假设有影响、差异或关系。

我们的目标是收集足够的证据来推翻 \(H_0\)，进而支持 \(H_1\)。

显著性水平 (\(\alpha\)) 与 P 值

显著性水平 (\(\alpha\))： 概率阈值（通常为 5% 或 0.05）。如果检验结果发生的概率比这个阈值更稀有，我们就得出结论认为结果显著。
P 值 (P-value)： 在假设零假设 \(H_0\) 为真的前提下，获得当前观察到的样本数据（或更极端数据）的概率。

判定规则：

如果 P 值 \(\lt \alpha\)，我们拒绝 \(H_0\)。（结果在统计学上是显著的。）
如果 P 值 \(\ge \alpha\)，我们不拒绝 \(H_0\)。（没有足够的证据支持 \(H_1\)。）

6.2 卡方检验 (\(\chi^2\))

AI 课程中使用卡方检验来测试两个分类变量之间的独立性或关联性，数据通常呈现在列联表 (Contingency table) 中。

独立性检验

此检验用于判断两个变量之间是否存在关系（例如：“最喜欢的运动”是否与“性别”独立？）。

陈述假设：
\(H_0\)：两个变量是独立的（无关联）。

\(H_1\)：两个变量是不独立的（有关联）。
计算期望频数： 这些是我们假设 \(H_0\) 为真时所期望看到的数值。
计算检验统计量 (\(\chi^2\))： 输入观测数据矩阵后，使用 GDC 的“Chi-squared Test”功能自动计算。
确定自由度 (\(df\))：
\[df = (\text{行数} - 1) \times (\text{列数} - 1)\]
比较 P 值与 \(\alpha\)： 根据判定规则做出结论（对比 P 值与 \(\alpha\)）。

解读结论

一定要记得在问题的背景下陈述你的结论。例如：“由于 P 值 (0.015) 小于显著性水平 (0.05)，我们拒绝 \(H_0\)。有足够的证据表明，最喜欢的运动与性别之间存在关联。”

第 6 节重点回顾： 统计检验提供了一种正式的框架，用于判断观察到的差异或关联是偶然产生的还是具有统计学意义的。重点在于设定正确的假设，并准确解读最后的 P 值。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。