Statistics and probability

统计与概率：理解数据与机遇

各位数学家们，大家好！欢迎来到统计与概率这片激动人心的领域。如果数字有时让你感到头大，别担心；本章的核心在于解读我们周围的世界——从天气预报到分析调查结果，无所不包。

我们将学习如何收集、整理、展示和分析数据。同时，我们还将掌握概率规律，让你具备计算各类事件发生可能性的能力。准备好成为一名“数据侦探”了吗？让我们开始吧！

第 1 节：数据的处理与呈现

1.1 数据类型

统计学的第一步是认清你所处理的是什么信息。数据通常分为两大类：

定性数据 (Qualitative Data)：

描述性质或特征（例如：喜欢的颜色、汽车品牌）。
它不是数值化的。

定量数据 (Quantitative Data)：

涉及数值（例如：身高、年龄、宠物数量）。
这是我们在计算中最常处理的数据类型。

定量数据又可细分为两个重要子类：

a) 离散数据 (Discrete Data)：

只能取特定的、独立的值。通常是通过计数得出的。
示例：学生人数（你不可能有 3.5 个学生）。

b) 连续数据 (Continuous Data)：

在给定的范围内可以取任何值。通常是通过测量得出的。
示例：身高、体重、温度（一个人的身高可能是 170.1 厘米）。

1.2 离散数据的呈现

我们经常使用图表来使数据更直观、易懂。

频数表 (Frequency Tables)：

用于显示每个数值出现的频率。
如果数据量很大，我们可以将其分组为组距 (Class Intervals)（例如：0–10, 11–20）。

条形图 (Bar Charts)：

用于离散数据或定性数据。
条形的高度代表频数。
重要提示： 条形之间必须有间隔！

饼图 (Pie Charts)：

显示各类别占整体的比例。
计算扇区角度的公式：
\(\text{角度} = \left(\frac{\text{频数}}{\text{总频数}}\right) \times 360^\circ\)

1.3 连续数据的呈现：直方图 (Histograms)

直方图专为已分组为组距的连续数据设计。它们看起来像条形图，但有本质区别！

核心特征：面积与频数成正比

在直方图中，是条形的面积而不是高度代表频数。因为面积 = 宽度 × 高度，所以我们通过一个新的术语来计算高度：

频数密度 (Frequency Density, FD)：

\[ \text{频数密度} = \frac{\text{频数}}{\text{组宽}} \]

绘制直方图的步骤：

计算每一组的组宽（上限 - 下限）。
计算每一组的频数密度。
将频数密度绘于垂直轴 (y轴)，将数据值绘于水平轴 (x轴)。
画出条形。因为数据是连续的，所以条形之间必须紧密相连！

常见错误：混淆直方图与条形图。记住：条形图有间隔，直方图没有。直方图的高度是频数密度，而不是频数！

1.4 累积频数 (Cumulative Frequency)

这用于找出有多少数据点小于某个特定值。

累积频数 (CF)：即频数的逐项累加总和。

绘制累积频数图的步骤：

在表格中添加“累积频数”列。从第一个频数开始，依次加上下一个频数。
将 CF 值对应各组的组上限进行绘制。
图像应从（第一组下限，0）开始，并呈现向上弯曲的 S 形曲线。
图上的最高点应等于数据总项数 (N)。

第 1 节重点回顾：认清你的数据类型。条形图用于离散数据且有间隔；直方图用于连续数据，其高度为频数密度。

第 2 节：数据分析——平均数与离散程度

2.1 集中趋势度量（平均数）

平均数反映了数据的“中心”位置。

a) 众数 (Mode)：

出现次数最多的值。
最容易找，但没有利用到所有数据。

b) 中位数 (Median)：

将数据按从小到大排列后的中间值。
若 N（项数）为奇数，位置为 \((N+1)/2\)。
若 N 为偶数，则是中间两项的平均值。
比平均数更不易受极端值的影响。

c) 平均数 (\(\bar{x}\))：

所有数值之和除以数值个数。
原始数据公式：\(\bar{x} = \frac{\sum x}{n}\)
利用了每一项数据，因此非常可靠。

从频数表中计算平均数：

如果 \(x\) 是数据值，\(f\) 是频数： \[ \bar{x} = \frac{\sum fx}{\sum f} \]

***处理分组数据（估算）***

当数据被分组时（如 10-20），我们无法得知具体值。为了估算平均数，必须使用组距的中点 (m) 来代表该组内的所有数据。

\[ \text{估算平均数} = \frac{\sum fm}{\sum f} \]

别担心！这只是一个估算值，计算时必须使用中点。

2.2 离散程度度量（离散度）

离散度告诉我们数据分布的疏密程度。数据是聚集在一起还是分散开来的？

a) 全距/极差 (Range)：

\(\text{极差} = \text{最大值} - \text{最小值}\)。
非常简单，但极易受极端值（离群点）影响。

b) 四分位距 (Interquartile Range, IQR)：

衡量中间 50% 数据的离散程度，因此忽略了极端高值和低值。

\[ \text{IQR} = Q_3 - Q_1 \]

其中：

\(Q_1\)（下四分位数）：位于数据 25% 位置处的值。
\(Q_2\)（中位数）：位于数据 50% 位置处的值。
\(Q_3\)（上四分位数）：位于数据 75% 位置处的值。

利用累积频数图寻找四分位数：

若总频数为 \(N\)：

在累积频数轴上从 \(N/4\) 处横向对应找到 \(Q_1\)。
从 \(N/2\) 处横向对应找到 \(Q_2\)（中位数）。
从 \(3N/4\) 处横向对应找到 \(Q_3\)。

c) 标准差 (\(\sigma\))：

这是衡量离散程度最准确的方法。它表示数据值偏离平均数的平均幅度。

类比： 如果平均数是你的目标，标准差则告诉你你的射击偏离目标的平均距离有多远。

IGCSE Spec B 中通常使用的公式为： \[ \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \]

标准差计算步骤（流程至关重要！）：

计算数据集的平均数 (\(\bar{x}\))。
计算离差 (Deviation)：从每个数据点中减去平均数 (\(x - \bar{x}\))。
平方离差：\((x - \bar{x})^2\)。（消除负号影响。）
计算离差平方的总和：\(\sum (x - \bar{x})^2\)。
将总和除以数据个数 (\(n\))。（得到方差）。
对结果进行开方。这就是 \(\sigma\)！

分析小贴士：

平均数：最好的平均指标，但受离群点影响大。
中位数/IQR：存在极端离群点时，使用这两个指标。
标准差：告诉你数据点平均偏离平均数多远。

第 3 节：概率

概率是研究可能性的学科，用于衡量事件发生的可能性。

3.1 基本概率与符号

概率值始终在 0 和 1 之间。

\(P=0\)：不可能事件。
\(P=1\)：必然事件。

概率的基本定义：

\[ P(A) = \frac{\text{有利结果数量}}{\text{可能结果总数}} \]

互补事件：

如果 \(A\) 是一个事件，\(A'\)（读作“A的补集”或“非A”）是 \(A\) 不发生的事件。

\[ P(A') = 1 - P(A) \]

示例：如果下雨的概率是 0.3，那么不下雨的概率是 \(1 - 0.3 = 0.7\)。

3.2 事件组合（或与且）

a) 互斥事件（“或”规则）：

指不可能同时发生的事件。（例如：投掷一枚骰子，同时掷出 3 和 5。）

求 A 或 B 发生的概率，需将概率相加： \[ P(A \text{ 或 } B) = P(A) + P(B) \]

b) 独立事件（“且”规则）：

指一个事件的结果不影响另一个事件结果的事件。（例如：抛两次硬币。）

求 A 且 B 发生的概率，需将概率相乘： \[ P(A \text{ 且 } B) = P(A) \times P(B) \]

3.3 树状图 (Tree Diagrams)

树状图是可视化两个或多个连续事件的绝佳工具。

使用树状图的步骤：

为第一个事件画出分支，并在每个分支上标出概率。
在这些分支的末端，画出第二个事件的分支，同样标出概率。
求组合路径（如：先成功后失败）的概率时，沿路径相乘（“且”规则）。
求多种成功情况（如：成功/失败或失败/成功）的概率时，将最终结果的概率相加（“或”规则）。

谨记从属关系：如果你处理的是“无放回”情况（例如：从一副牌中抽取两张），第二个分支的概率必须发生改变，因为总数减少了！

3.4 条件概率 (Conditional Probability)

这是指在已知事件 B 已经发生的前提下，事件 A 发生的概率。

记作 \(P(A | B)\)，读作“在 B 发生的条件下，A 发生的概率”。

如何解决条件概率问题：

关键在于意识到条件 (B) 缩小了样本空间。你不再看所有的可能性，而只需关注 B 发生的那个世界。

正式定义为： \[ P(A | B) = \frac{P(A \text{ 且 } B)}{P(B)} \]

示例：已知某学生乘坐校车 (B)，那么该学生为女生 (A) 的概率是多少？只需关注所有坐校车的学生，忽略其他人。

冷知识： 独立事件的公式实际上是条件概率的一种特殊情况。如果 A 和 B 是独立的，那么 \(P(A | B) = P(A)\)，因为 B 不影响 A！

第 3 节重点回顾：互斥意味着相加（或）。独立意味着相乘（且）。树状图用于组织连续事件。条件概率将你的关注点限定在缩小后的群体中。

结语

统计学和概率论是非常实用的学科。掌握了这些工具，你就具备了批判性评估数据的能力，这在课堂之外也至关重要。继续练习那些直方图和标准差计算吧——你完全没问题的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

统计与概率：理解数据与机遇

第 1 节：数据的处理与呈现

1.1 数据类型

1.2 离散数据的呈现

1.3 连续数据的呈现：直方图 (Histograms)

1.4 累积频数 (Cumulative Frequency)

第 2 节：数据分析——平均数与离散程度

2.1 集中趋势度量（平均数）

2.2 离散程度度量（离散度）

第 3 节：概率

3.1 基本概率与符号

3.2 事件组合（或与且）

3.3 树状图 (Tree Diagrams)

3.4 条件概率 (Conditional Probability)

结语

准备好测试自己了吗？

更多Mathematics (Specification B)章节

立即实践所学

统计与概率：理解数据与机遇

第 1 节：数据的处理与呈现

1.1 数据类型

1.2 离散数据的呈现

1.3 连续数据的呈现：直方图 (Histograms)

1.4 累积频数 (Cumulative Frequency)

第 2 节：数据分析——平均数与离散程度

2.1 集中趋势度量（平均数）

2.2 离散程度度量（离散度）

第 3 节：概率

3.1 基本概率与符号

3.2 事件组合（或 与 且）

3.3 树状图 (Tree Diagrams)

3.4 条件概率 (Conditional Probability)

结语

准备好测试自己了吗？

更多Mathematics (Specification B)章节

立即实践所学

3.2 事件组合（或与且）