📊 欢迎来到数据世界:统计学与概率论 🎲
各位未来的数据分析师们,你们好!本章“统计学与概率论”是 IB 数学:应用与解释(AI)课程的核心。为什么这么说呢?因为我们生活在一个数据驱动的时代,理解如何收集、分析和解读这些数据,是你所能掌握的最强大的技能之一。
如果数字和图表让你感到头疼,不用担心!我们将把每一个概念拆解开来,一步步学习。我们会重点关注如何高效地使用你的绘图计算器(GDC),最重要的是,学会如何在现实背景下解读这些数字的含义。让我们一起开启数据解读的艺术之旅吧!
第 1 节:描述性统计 – 数据概括
1.1 数据类型
在进行任何计算之前,我们必须明确数据的类型,因为这决定了我们该如何分析它。
- 定性数据 (Qualitative Data)(类别数据):描述性质或特征(例如:最喜欢的颜色、出生国家)。
-
定量数据 (Quantitative Data)(数值数据):涉及数字。
- 离散数据 (Discrete Data):只能取特定、可数的值(通常是整数)。例子:班级的人数、经过某个路口的车辆数。
- 连续数据 (Continuous Data):在给定范围内可以取任何值(通过测量而非计数获得)。例子:身高、温度、跑完一场比赛所需的时间。
小贴士: 离散数据靠“数”出来,连续数据靠“量”出来。
1.2 集中趋势的度量(“中间位置”)
这些度量指标告诉我们数据的中心在哪里。
-
平均值 (Mean, \(\bar{x}\) 或 \(\mu\)): 即算术平均数。将所有数值相加,然后除以总个数。
比喻:如果每个人把钱放在一起平分,每个人分到的金额就是平均值。
-
中位数 (Median): 数据按从小到大排列后处于中间位置的数值。如果数据个数是偶数,则取中间两个数的平均值。
提示: 中位数的优点在于它不受极端值(异常值)的影响,而极端值往往会拉偏平均值。
- 众数 (Mode): 出现频率最高的数值。
1.3 离散程度的度量(“分散程度”)
这些指标告诉我们数据分布得有多广或有多分散。
- 极差 (Range): 最大值减去最小值。计算简单,但极易受到极端值的影响。
-
四分位距 (IQR): 第三个四分位数 (\(Q_3\)) 与第一个四分位数 (\(Q_1\)) 之差。它涵盖了中间 50% 的数据。
\(IQR = Q_3 - Q_1\)
-
标准差 (Standard Deviation, \(\sigma\)): 这是最重要的离散程度度量!它告诉我们数据点平均偏离平均值多远。
核心概念: 标准差小,说明数据点紧密聚集在平均值周围;标准差大,说明数据分布非常分散。
分步指南:使用 GDC 进行统计计算
在 AI 课程中,几乎所有此类计算都要依赖 GDC:
- 将数据输入列表 (L1)。
- 运行 单变量统计 (1-Var Stats)。
- GDC 会立即给出 \(\bar{x}\)(平均值)、\(\sigma x\)(标准差)、Med(中位数)、\(Q_1\) 和 \(Q_3\)。
第 1 节重点回顾: 描述性统计能帮助我们观察数据的集中趋势(代表性数值)和离散程度(波动性)。标准差是你衡量离散度时的最好朋友。
第 2 节:双变量数据与回归
当我们同时观察两个变量时(双变量数据),我们通常想知道它们之间是否存在关系。
2.1 相关性 (Correlation)
相关性描述了两个变量之间线性关系的强弱和方向,通常在散点图 (Scatter plot) 上展示。
- 正相关: 一个变量增加,另一个变量也随之增加(斜向上)。例子:学习时长与考试分数。
- 负相关: 一个变量增加,另一个变量随之减少(斜向下)。例子:室外气温与热可可的销量。
- 零相关/弱相关: 没有明显的线性关系。例子:鞋码与收入。
2.2 相关系数 (\(r\))
衡量线性相关性强弱和方向的数值称为皮尔逊积矩相关系数 (Pearson product moment correlation coefficient, \(r\))。
- \(r\) 的值始终在 \(-1\) 到 \(+1\) 之间。
- \(r = +1\):完全正线性相关。
- \(r = -1\):完全负线性相关。
- \(r = 0\):无线性相关。
- 数值越接近 1 或 -1,说明相关性越强。
常见误区: 相关性并不意味着因果关系!仅仅因为两件事同时发生,并不代表其中一件导致了另一件。例子:冰淇淋销量和犯罪率在夏天都会升高,但冰淇淋销量并不会导致犯罪。
2.3 回归直线 (LSRL)
最小二乘回归直线 (Least Squares Regression Line, LSRL) 是最能代表数据趋势的直线。我们利用这条直线来进行预测。
IB AI 课程中通用的表达式通常为:
\[y = ax + b\]
- \(a\) 是斜率(变化率)。
- \(b\) 是 \(y\) 轴截距(当 \(x=0\) 时 \(y\) 的值)。
预测与警示
- 内插法 (Interpolation): 在原始数据范围之内进行预测。通常比较可靠。
- 外推法 (Extrapolation): 在原始数据范围之外进行预测。这很有风险,因为我们不确定该趋势在测量范围之外是否依然成立。
第 2 节重点回顾: 回归分析使我们能够建立模型并进行预测。一定要检查 \(r\) 值来评估预测的可靠性,并谨慎使用外推法!
第 3 节:概率基础
3.1 基本术语
- 试验 (Experiment): 结果不确定的过程(如掷骰子)。
- 结果 (Outcome): 试验的一个可能结果(如掷出 4)。
- 样本空间 (Sample Space, \(S\)): 所有可能结果的集合。
- 事件 (Event, \(A\)): 特定结果的集合(如掷出偶数)。
- 事件 \(A\) 的概率记作 \(P(A)\)。所有概率都在 0 到 1 之间。
3.2 组合事件与运算法则
加法法则
用于计算事件 A 或 (OR) 事件 B 发生的概率。
\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]
我们需要减去 \(P(A \cap B)\)(交集,A 且 B),因为我们在计算 P(A) 和 P(B) 时重复计算了这些结果。
-
互斥事件 (Mutually Exclusive Events): 不能同时发生的事件。如果 A 和 B 互斥,则 \(P(A \cap B) = 0\)。
此时,公式简化为:\(P(A \cup B) = P(A) + P(B)\)。
条件概率与独立性
条件概率 (Conditional Probability) 指在已知事件 B 已经发生的前提下,事件 A 发生的概率。
\[P(A|B) = \frac{P(A \cap B)}{P(B)}\]
独立事件 (Independent Events): 一个事件的发生不影响另一个事件的概率。
如果 A 和 B 独立,乘法法则非常简单:
\[P(A \cap B) = P(A) \times P(B)\]
你知道吗?
互斥事件不可能独立。如果 A 和 B 互斥,那么知道 A 发生了,就意味着 B 一定没有发生(这极大地影响了概率!)。
第 3 节重点回顾: 概率论的核心在于判断事件是同时发生(交集)还是任一发生(并集),以及一个事件的发生是否影响另一个(条件概率/独立性)。
第 4 节:离散概率分布(二项分布模型)
4.1 随机变量
随机变量 (Random Variable, \(X\)) 是一个其取值为随机现象的数值结果的变量。
- 离散随机变量: 通常是计数的产物(如 10 次投硬币中正面的次数)。
- 连续随机变量: 测量的产物(如随机抽取的人的身高)。
4.2 期望值(平均值)
离散随机变量的期望值 (Expected Value, \(E(X)\)) 是理论上的长期平均结果。它是每个结果 (\(x\)) 与其对应概率 (\(P(X=x)\)) 乘积的总和。
\[E(X) = \sum x P(X=x)\]
比喻:如果你玩一个游戏 1000 次,期望值告诉你每局游戏的平均输赢。
4.3 二项分布 (Binomial Distribution)
二项分布用于对满足特定条件的离散概率进行建模(称为伯努利试验):
- 试验次数固定 (\(n\))。
- 每次试验只有两个结果:成功或失败。
- 每次试验成功的概率 (\(p\)) 保持不变。
- 各次试验相互独立。
我们记作 \(X \sim B(n, p)\),其中 \(n\) 是试验次数,\(p\) 是成功概率。
GDC 功能至关重要!
你需要使用 GDC 来进行以下计算:
- 二项概率分布函数 (PDF): 当你想计算精确成功次数的概率时使用。\(P(X = k)\)。例子:10 次投硬币中恰好有 5 次正面的概率。
- 二项累积分布函数 (CDF): 当你想计算累积概率或一系列结果的概率时使用。\(P(X \le k)\)(达到 k 次成功及以下)。例子:10 次投硬币中正面次数不超过 5 次的概率。
记忆窍门: P(D)F 用于 Precise(精确点),C(D)F 用于 Cumulative(累积范围)。
第 4 节重点回顾: 二项分布是处理“成功/失败”情境的强大模型。记住确定 \(n\) 和 \(p\),并分清何时在计算器上使用 PDF(精确值)或 CDF(范围值)。
第 5 节:连续概率分布(正态分布模型)
5.1 正态分布 (Normal Distribution)
正态分布是统计学中最重要的连续分布,它能模拟许多自然现象(身高、血压、考试成绩)。
我们记作 \(X \sim N(\mu, \sigma^2)\),其中:
- \(\mu\) (mu): 平均值(由于其完美对称,它也是中位数和众数)。
- \(\sigma^2\) (sigma squared): 方差。\(\sigma\) 为标准差。
正态曲线(钟形曲线)的特征
- 关于平均值 \(\mu\) 对称。
- 曲线下的总面积等于 1。
- 曲线向两侧无限延伸(但无限趋近于 0)。
5.2 数据标准化(Z-分数)
Z-分数 (Z-score) 告诉你在某个数据点 (\(x\)) 距离平均值 (\(\mu\)) 有多少个标准差。
\[Z = \frac{x - \mu}{\sigma}\]
- 正的 Z-分数意味着数值高于平均值。
- 负的 Z-分数意味着数值低于平均值。
- 标准正态分布是 \(Z \sim N(0, 1)\)(平均值为 0,标准差为 1)。
5.3 使用 GDC 计算正态分布
由于无法手动计算连续概率,GDC 是必不可少的。
- Normal CDF: 用于计算两个数值之间,或高于/低于某个特定值的概率(曲线下的面积)。
-
Inverse Normal (逆正态): 当已知概率(面积)并需要找到对应的具体数据值 (\(x\)) 或 Z-分数时使用。
关键点: 逆正态函数计算的始终是从最左侧开始的累计面积(左尾)。
给同学的建议: 一定要画出钟形曲线!标出你想求的区域,这样可以防止在设置 Normal CDF 函数的上下界时出错。
第 5 节重点回顾: 正态分布是连续数据的关键模型。Z-分数允许你比较不同数据集的结果,而你的计算器(Normal CDF/Inverse Normal)是解决这些问题的必备工具。
第 6 节:统计推断与检验(HL 和进阶 SL 重点)
统计推断是通过仅有的样本数据,对整个大总体做出结论的过程。
6.1 假设检验介绍
假设检验利用样本数据在两个关于总体的竞争性陈述之间做出抉择:
- 零假设 (\(H_0\)): 现状;假设没有影响、没有差异或没有关系。(我们先假定它是真的)。
- 备择假设 (\(H_1\)): 要检验的声明;假设有影响、差异或关系。
我们的目标是收集足够的证据来推翻 \(H_0\),进而支持 \(H_1\)。
显著性水平 (\(\alpha\)) 与 P 值
- 显著性水平 (\(\alpha\)): 概率阈值(通常为 5% 或 0.05)。如果检验结果发生的概率比这个阈值更稀有,我们就得出结论认为结果显著。
- P 值 (P-value): 在假设零假设 \(H_0\) 为真的前提下,获得当前观察到的样本数据(或更极端数据)的概率。
判定规则:
如果 P 值 \(\lt \alpha\),我们拒绝 \(H_0\)。(结果在统计学上是显著的。)
如果 P 值 \(\ge \alpha\),我们不拒绝 \(H_0\)。(没有足够的证据支持 \(H_1\)。)
6.2 卡方检验 (\(\chi^2\))
AI 课程中使用卡方检验来测试两个分类变量之间的独立性或关联性,数据通常呈现在列联表 (Contingency table) 中。
独立性检验
此检验用于判断两个变量之间是否存在关系(例如:“最喜欢的运动”是否与“性别”独立?)。
-
陈述假设:
\(H_0\):两个变量是独立的(无关联)。
\(H_1\):两个变量是不独立的(有关联)。
- 计算期望频数: 这些是我们假设 \(H_0\) 为真时所期望看到的数值。
- 计算检验统计量 (\(\chi^2\)): 输入观测数据矩阵后,使用 GDC 的“Chi-squared Test”功能自动计算。
-
确定自由度 (\(df\)):
\[df = (\text{行数} - 1) \times (\text{列数} - 1)\]
- 比较 P 值与 \(\alpha\): 根据判定规则做出结论(对比 P 值与 \(\alpha\))。
解读结论
一定要记得在问题的背景下陈述你的结论。例如:“由于 P 值 (0.015) 小于显著性水平 (0.05),我们拒绝 \(H_0\)。有足够的证据表明,最喜欢的运动与性别之间存在关联。”
第 6 节重点回顾: 统计检验提供了一种正式的框架,用于判断观察到的差异或关联是偶然产生的还是具有统计学意义的。重点在于设定正确的假设,并准确解读最后的 P 值。