欢迎来到统计学的世界!

欢迎!在这个章节中,我们将学习如何收集、整理并理解各种信息。这些信息我们称之为数据 (data)。统计学就像侦探工作一样;你通过观察线索(数字)来说出围绕在我们身边的故事。无论是预测天气还是分析哪支球队最强,统计学无处不在!

如果你一开始对数字感到有点畏惧,不用担心。我们会将所有内容拆解成简单、易懂的步骤。让我们开始吧!


1. 抽样:纵观全局

想象一下,你想知道英国每位学生最喜欢的披萨配料是什么。你不可能去问数百万人!因此,你会询问一个较小的群体,这就叫做抽样 (sampling)

关键词汇:
- 总体 (Population):你感兴趣的整个群体(例如:全英国的所有学生)。
- 样本 (Sample):你实际询问的小组(例如:来自你所在城镇的 100 名学生)。
- 具代表性样本 (Representative Sample):能够真实反映总体情况的样本。如果你只去问“辣肉肠爱好者俱乐部”的成员,那你的样本就会产生偏差 (biased)

类比:想象一位厨师尝了一勺汤。如果这勺汤味道好,他就会假设整锅汤都好。整锅汤就是总体;那一勺汤就是样本!

快速回顾:为了确保样本公正,它应该是随机选取的,并且数量要足够大,才能公平地代表所有人。


2. 展示你的数据:表格与图表

一旦你收集到了数据,就需要将其呈现给别人看。不同的数据需要不同的图表来展现。

数据类型

- 分类数据 (Categorical):适合分组的数据(例如:眼睛颜色、汽车品牌)。
- 离散数据 (Discrete):只能是特定数值的数据(例如:宠物数量、鞋码)。
- 连续数据 (Continuous):可以在某个范围内取任何值的数据(例如:身高、时间)。

常见图表

- 象形图 (Pictograms):使用图片来代表数量。一定要看图例!如果一个圆形代表 4 个人,那么半个圆形就代表 2 个人。
- 条形图 (Bar Charts):非常适合比较不同类别。对于分类数据,记得在条形之间留出间隙。
- 扇形图 (Pie Charts):显示总体是如何被拆分的。要计算扇形的角度,请使用以下公式:
\( \text{角度} = \frac{\text{频数}}{\text{总频数}} \times 360 \)

时间序列图 (Time Series Graphs)

这是显示事物随时间变化情况的折线图,例如你过去五年的身高,或是一整天的气温变化。我们主要观察趋势 (trend)(它是总体向上、向下还是保持不变?)。

重点提示:记得标记坐标轴并为图表加上标题,这样大家才知道在看什么!


3. 平均数与离散程度:数据总结

有时,我们只想用一两个数字来“总结”整组数据。我们使用平均数 (Averages)(寻找中心点)和极差 (Range)(寻找离散程度)。

三个平均数(与一个“离散程度”)

1. 众数 (Mode):出现最频繁 (Most)的数值。(记忆小撇步:MOde = MOst)
2. 中位数 (Median):当数字按顺序排列时,位于中间 (middle)的数值。(记忆小撇步:中位数就像公路中间的绿化带)
3. 平均值 (Mean):这是最“费工”的一个!将所有数字相加,再除以数字的个数。
\( \text{平均值} = \frac{\Sigma x}{n} \)
4. 极差 (Range):最大值与最小值之间的差。这告诉我们数据是稳定的还是分布得很广。

常见错误!

计算中位数时,你必须先将数字从小到大排序。如果不这样做,答案就会错!

快速回顾:
- 平均数:告诉我们什么是“典型”数值。
- 极差:告诉我们数据有多“可靠”或“分散”。


4. 进阶图表(高阶试卷重点)

如果你处理的是更复杂的数据,可能会用到这些工具:

累计频数 (Cumulative Frequency)

这是一种“累计总数”。随着数据增加,你将频数逐一相加。绘制出来后,通常会形成一个“S”型曲线。我们用它来找中位数四分位数 (Quartiles)

箱线图 (Box Plots / Box and Whisker)

箱线图显示了五个关键信息:
1. 最小值
2. 下四分位数 (LQ - 25% 的位置)
3. 中位数 (50% 的位置)
4. 上四分位数 (UQ - 75% 的位置)
5. 最大值

四分位距 (IQR): \( \text{UQ} - \text{LQ} \)。这显示了中间 50% 数据的位置。它比极差更好,因为它排除了奇怪的“离群值”(outliers)(远高于或远低于其余数据的数字)。

直方图 (Histograms)

它们看起来像条形图,但用于连续数据。条形的面积代表频数。垂直轴称为频数密度 (Frequency Density)
\( \text{频数密度} = \frac{\text{频数}}{\text{组距}} \)

重点提示:当分组(组区间)的宽度不同时,要使用直方图。


5. 散点图:发现关系

我们使用散点图来处理双变量数据 (bivariate data)(具有两个变量的数据,例如“气温”和“雪糕销量”)。

相关性 (Correlation)

这描述了两者之间的关系:
- 正相关 (Positive Correlation):一个上升,另一个也上升(例如:学习时间 vs. 考试成绩)。
- 负相关 (Negative Correlation):一个上升,另一个下降(例如:户外气温 vs. 取暖费)。
- 无相关 (No Correlation):点散布在各处;两者没有链接。

最佳拟合线 (Line of Best Fit)

这是一条穿过点群中间的直线。线上方和下方的点数应该大致相等。我们用它来做预测

你知道吗?
相关性不等于因果关系!例如,雪糕销量和鲨鱼攻击事件在夏天都会增加。它们有正相关,但吃雪糕并不会导致鲨鱼攻击!两者只是都被温暖的天气所影响而已。

进行预测

- 内插法 (Interpolation):预测数据范围以内的数值。这通常相当可靠。
- 外推法 (Extrapolation):预测数据范围以外的数值(沿着线继续延伸)。这是有风险的,因为趋势可能会改变!

重点提示:画最佳拟合线时要用尺,并尽量只在现有数据范围内进行预测!


考试成功最终清单

- 检查图例:永远检查象形图或地图上的图例。
- 将数字排序:计算中位数或四分位数前,务必先将数据排序。
- 标签:你的图表有标题和坐标轴标签吗?
- 单位:你使用的是正确单位(厘米、公斤、秒)吗?
- 保持冷静:统计题目通常有很多文字。多读两遍,画出数字,一步一步来!