课题:统计学入门——读懂数据话语!
同学们好!欢迎来到刺激有趣的统计学世界!你可能会想:“统计学?不就是一堆沉闷的数字和图表吗?”当然不是!统计学就像侦探工作一样。它是一门收集、整理和理解信息(我们称之为数据)的学问,目的就是揭开隐藏的秘密、发现趋势,并作出明智的决策。
在这个课题里,我们会学习如何收集数据、如何整理数据让它变得有意义,以及如何找出数据所要告诉我们的“典型”故事。这在现实生活中非常有用,无论是找出朋友之间最受欢迎的电子游戏,还是理解体育比赛的分数和新闻报道,都能派上用场!准备好了吗?我们开始吧!
第一部分:整理线索——数据的收集与分类
在侦探解开谜团之前,他们需要先收集线索。在统计学中,我们的线索就叫做数据。数据只是一堆事实、数字或测量结果的集合。
我们会接触到哪些数据类型?
数据通常分为两大类。了解它们之间的区别非常重要!
1. 离散数据
这类数据可以用整数来数算。你不能拥有它们的“一半”。想想看:你可以数班上有多少人,但不会有25.5个人吧?
- 例子:你拥有的宠物数量(你可以有2只猫,但不能有2.5只猫)。
- 例子:你的鞋码(例如:7、7.5、8——它们是固定的数值,中间并没有无限多的数值)。
- 例子:掷骰子时的点数(1、2、3、4、5或6)。
2. 连续数据
这类数据是可以用仪器量度出来的。它可以在某个范围内取任何数值。想想你用尺或秒表量度的东西。
- 例子:你的身高(你可以是150厘米、150.1厘米、150.11厘米……)。
- 例子:跑100米所需的时间(例如:15.2秒、15.25秒……)。
- 例子:房间的温度。
快速复习区
离散数据 = 可数算(就像篮子里的苹果)
连续数据 = 可量度(就像苹果的重量)
整理数据:频数分布表
想象一下,你问了20位朋友他们有多少兄弟姐妹。你得到了这份清单:1, 2, 1, 0, 3, 1, 2, 4, 0, 1, 2, 2, 1, 1, 3, 0, 2, 1, 2, 1。这堆数据乱七八糟的!一个频数分布表可以帮助我们整齐地整理这些杂乱的数据。
频数的意思就是“某件事发生了多少次”。
对于未分组数据(例如我们的兄弟姐妹例子):
我们列出每个可能的值,并数算它出现了多少次。
-----------------|-----------|--------------
0 | III | 3
1 | IIII III | 8
2 | IIII I | 6
3 | II | 2
4 | I | 1
-----------------|-----------|--------------
总计 | | 20
你看,是不是更容易阅读了呢!我们可以迅速发现,拥有1个兄弟姐妹是最普遍的情况。
对于已分组数据(当你的数值范围很广时):
如果我们量度20位学生的身高(厘米)呢?我们可能会得到很多不同的数值。最好将它们分组到组区间(又称分组)。
例子数据(身高,单位:厘米):155, 161, 173, 158, 163, 168, 175, 159, 165, 164, 171, 178, 166, 169, 157, 160, 164, 170, 174, 167
-----------------|-----------|--------------
155 - 159 | IIII | 4
160 - 164 | IIII | 5
165 - 169 | IIII | 5
170 - 174 | IIII | 4
175 - 179 | II | 2
-----------------|-----------|--------------
总计 | | 20
这比杂乱无章的数字清单更能清楚地显示身高的分布!
第一部分重点总结
统计学始于数据收集。我们将数据分类为离散数据(可数算的)或连续数据(可量度的)类型。为了让数据变得有意义,我们会将它们整理成频数分布表,可以是单个数值,也可以是分组的。
第二部分:绘制图表——数据的视觉呈现
一图胜千言……或者说,一图胜千数!统计图表能帮助我们即时看出数据中的模式和趋势。你们在小学时已经学过一些,例如条形图(或称柱形图)、饼图和折线图。接下来,我们来学习一些新的、更强大的图表吧!
茎叶图
这是一种巧妙的方法,可以整齐、有条理地展示所有数据值。它看起来有点像一棵树!“茎”是数字的前半部分,而“叶”是最后一个数字。
如何绘制茎叶图:
让我们使用以下测验分数:75, 81, 94, 62, 88, 79, 81, 95, 75, 67
步骤1:找出最低和最高分数,以确定你需要哪些“茎”(分数从60多到90多,所以我们的茎是6、7、8、9)。
步骤2:垂直写下“茎”。
步骤3:逐一查看你的数据,将“叶”(最后一个数字)添加到正确的“茎”行。
步骤4:将“叶”按数值顺序排列。别忘了加上图例!
茎 | 叶
-----|----------
6 | 2 7
7 | 5 5 9
8 | 1 1 8
9 | 4 5
-----|----------
图例:6 | 2 代表 62
现在我们可以轻松地看到分数的分布,并且大部分学生都考获70多分和80多分。
频数直方图
频数直方图看起来像条形图,但它是用来表示已分组的连续数据的。它们之间有两大主要区别:
- 条形图的条形是彼此相连的,因为数据是连续的(一个组的结束点就是下一个组的开始点)。
- 条形的宽度代表组区间。
类比:想象条形图就像人们排队时分开站立(独立类别)。而频数直方图则像一群朋友紧密地站在一起(连续范围)。
频数多边形和频数曲线
频数多边形是另一种显示分组数据的方式。它就像折线图一样。
如何绘制:
步骤1:从频数直方图(或分组数据的频数表)开始。
步骤2:找出每个条形顶部的中点(或每个组区间的中点)。
步骤3:用直线连接这些中点。
步骤4:将第一个点连接到其前一个组区间中点的水平轴上,并将最后一个点连接到其后一个组区间中点的水平轴上,以“固定”图形。
频数曲线只是频数多边形的平滑版本,徒手绘制而成。
累积频数多边形和累积频数曲线
这听起来好像很复杂,但其实就是把东西加起来而已!累积频数的意思就是“到目前为止的总频数”。
让我们使用之前身高的数据:
-----------------|-----------|--------------------------
155 - 159 | 4 | 4
160 - 164 | 5 | 4 + 5 = 9
165 - 169 | 5 | 9 + 5 = 14
170 - 174 | 4 | 14 + 4 = 18
175 - 179 | 2 | 18 + 2 = 20
为了绘制图表,我们将每个组的上限(或称组界)与累积频数作图。这个图表总是向上升或保持水平,而且对于找出数据的中位数和四分位数非常有用!
小心!图表的应用与滥用
图表有时会用来迷惑你!务必仔细观察:
- 折断的轴线:垂直轴是否从0开始?如果不是,它可能会让差异看起来比实际大得多。
- 不均匀的刻度:轴线上的数字是否均匀分布?
- 误导性图像:使用图片代替条形图可能会扭曲你对数据的看法。一张图片如果高出两倍,它的宽度也会是两倍,这会让它看起来大4倍!
第二部分重点总结
我们利用图表来可视化数据。茎叶图显示个别数据点。频数直方图和频数多边形显示分组的连续数据。累积频数曲线帮助我们查看总计并找出关键数值。务必保持批判性思维,并提防具有误导性的图表!
第三部分:找出“典型”数值——集中趋势的量度
当我们有一组数据时,通常会想找出一个单一的数字来代表其“中间”或“典型”的数值。这些数字称为集中趋势的量度。我们将学习三个主要的集中趋势量度。
1. 平均数(平均值)
这个你可能已经知道了。你将所有数值加起来,然后除以数值的总数。
公式:
$$ \text{Mean} = \frac{\text{Sum of all data values}}{\text{Number of data values}} $$例子:找出以下分数的平均数:2, 3, 5, 6, 9。
总和 = 2 + 3 + 5 + 6 + 9 = 25
数值数量 = 5
平均数 = 25 / 5 = 5
注意:平均数可能会受到非常高或非常低的数值(称为异常值或称离群值)的影响。想象一下,如果我们在列表中加上一个50分。新的平均数将会是 (25 + 50) / 6 = 12.5,这对于原始数字来说并不是很“典型”。
2. 中位数(中间数值)
当你将所有数据按顺序排列时,中位数就是刚好在中间的那个数值。
如何找出中位数:
步骤1:将数据从小到大排列。
步骤2:找出中间的数字。
- 如果数值的数量是单数,中位数就是正中间的那个数值。
例子:2, 3, 5, 6, 9。中位数是 5。 - 如果数值的数量是双数,会有两个中间数值。中位数就是这两个数值的平均数。
例子:2, 3, 5, 6, 9, 11。中间数值是 5 和 6。中位数 = (5 + 6) / 2 = 5.5。
中位数的优点:它不受极端异常值的影响!
3. 众数(最常出现的数值)
众数是数据集中出现次数最多的数值。
例子:1, 2, 4, 4, 4, 6, 8。众数是 4。
一组数据可以有一个众数、多个众数(例如双众数),或者如果每个数值都只出现一次,则可以没有众数。
记忆小提示:
- 平均数(Mean)最难计算(又是加又是除,一大堆计算!)。
- 中位数(Median)听起来像“中间(Medium)”,它就是中间的数值。
- 众数(Mode)听起来像“最多(Most)”。
已分组数据的计算
当数据已分组时,我们无法找出精确的平均数、中位数或众数,但我们可以估计它们。
- 众数组:这很容易!它就是频数最高的那个组别或组区间。
- 已分组数据的平均数:这个比较复杂一点。我们假设一个组中的所有数值都等于该组的中点。然后我们从那里计算平均数。
- 已分组数据的中位数:我们可以利用累积频数曲线来估计中位数。在垂直轴上找到中点,横向移到曲线上,然后向下移到水平轴上读取数值。
一开始觉得有点难也不要紧!我们会大量练习的。关键思想是,对于已分组数据,我们的答案都是很好的估计值,而非精确的数字。
加权平均数
有时,并非所有数据都同样重要。例如,你的期末考试可能比一份作业的得分更重要。加权平均数是一种平均值,其中一些数据值具有更大的“权重”或重要性。
例子:在一门课程中,你的作业占30%的比重,期末考试占70%。你的作业分数是90分,考试分数是80分。
普通平均数 = (90 + 80) / 2 = 85。
加权平均数 = (90 × 30%) + (80 × 70%) = (90 × 0.3) + (80 × 0.7) = 27 + 56 = 83。
你的最终分数是83分,因为考试的权重更大。
第三部分重点总结
集中趋势的量度为我们的数据提供了一个“典型”数值。
- 平均数是平均值(加起来再除)。
- 中位数是中间数值(记得把它们排好顺序!)。
- 众数是最常见的数值。