欢迎来到统计学的世界!

同学你好!准备好成为一个数据侦探了吗?这就是统计学的精髓!它是数学一个很棒的分支,它帮助我们收集、整理和理解身边的各种信息(我们称之为数据)。为什么它很重要?因为它能帮助我们回答以下问题:

- 我们班上最受欢迎的电子游戏是什么?
- 我的身高在过去一年里变化了多少?
- 我们学校的篮球队表现是否越来越好?

在这个课题中,我们会学习如何从这些信息中理出头绪。不用担心听起来很复杂;我们会把它分解成简单的步骤。现在就开始吧!


第一部分:整理数据

想象一下,你刚刚问了班上每个同学的鞋码。现在你手上有一堆乱七八糟的数字!我们的首要任务就是整理这些数据,这样我们才能真正理解它们。

数据的两种类型:离散型数据 与 连续型数据

在整理数据之前,我们需要知道自己正在处理哪种类型的数据。主要有两种类型:

1. 离散型数据
这类数据可以数算出来。它们具有特定、独立的数值。想想那些你不能有“一半”的东西。
例子:

  • 课室里学生的数量(你不能有25.5个学生)。
  • 你的鞋码(是7码或7.5码,而不是7.23码)。
  • 一场足球比赛的入球数。

2. 连续型数据
这类数据可以测量出来。它可以在某个范围内取任何数值。
例子:

  • 一个人的身高(可以是150厘米、150.1厘米、150.11厘米...)。
  • 跑100米所需的时间。
  • 你的书包重量。
快速复习小贴士

离散型:如果可以数算出来,就是离散型。
连续型:如果可以测量出来,就是连续型。

整理数据:频数分布表

频数分布表是一种非常整齐的数据整理方式。“频数”这个词只是用来形容某件事发生的次数。

未分组数据(通常是数值范围较小的离散型数据)

假设这是15名学生一次测验的得分(满分10分):
7, 8, 9, 6, 8, 7, 9, 10, 8, 7, 6, 8, 9, 8, 7

步骤一:在其中一栏列出所有可能的得分。
步骤二:逐一检查数据,并为每个得分划上正字记号 ( | )。
步骤三:数算正字记号,找出频数。

范例表格:测验得分

得分      正字记号      频数
6            ||               2
7            ||||              4
8            |||||             5
9            |||              3
10           |                1
总计                         15

看到了吗?这样是不是更容易阅读了!我们可以很快地看出,最常见的得分是8分。

已分组数据(通常是连续型数据或数值范围较大的数据)

如果你有20名学生的身高数据呢?将每个身高都列出来会太长了。所以,我们会将它们分组到组区间中。

范例身高(厘米):155, 168, 172, 158, 163, 175, 151, 160, 165, 178, 153, 166, 170, 159, 161, 169, 174, 156, 162, 167

我们可以这样将它们分组:

范例表格:学生身高

身高 (厘米) (组区间)      频数
150 - 159                                                 6
160 - 169                                                 9
170 - 179                                                 5
总计                                                           20

第一部分重点回顾

- 数据就是信息。
- 离散型数据可以数算出来(例如:宠物的数量)。
- 连续型数据可以测量出来(例如:身高)。
- 频数表帮助我们整理数据,以便轻松找出模式。


第二部分:数据图表

俗话说:“一图胜千言”。在统计学中,一个图表胜过千个数字!让我们来学习如何绘制数据图表。

茎叶图

这是一种巧妙的方式,既能显示数据集中每个精确数值,又能同时整理它们。想象一下树的(第一位或头几位数字)和它的(最后一位数字)。

范例数据:测验得分 - 78, 93, 85, 76, 81, 88, 95, 76

步骤一:“茎”将是十位数字(7、8、9)。
步骤二:“叶”将是个位数字。将它们写在对应的茎旁边。
步骤三:叶子必须按从小到大的顺序排列,并加上图例。

测验得分茎叶图

茎 | 叶
  7     | 6, 6, 8
  8     | 1, 5, 8
  9     | 3, 5

图例:7 | 6 代表 76

这个图表展示了分数的分布情况,而且每个原始分数都一目了然!

直方图:柱状图的近亲

直方图看起来像柱状图,但它用于已分组的连续型数据。它们有两个主要区别:

  1. 长方形之间没有空隙(紧密相连!)。
  2. 水平轴(x轴)是连续的刻度,并标示了组界

什么是组界?对于像150-159这样的组区间,下一个是160-169。组界是159和160之间的中间值,即159.5。所以组界就是149.5、159.5、169.5等等。这样就能填补空隙了!

别搞混了!

柱状图:有空隙。用于离散型数据(例如:最喜欢的颜色)。
直方图:没有空隙。用于连续型、已分组数据(例如:身高、体重)。

频数多边形和频数曲线

频数多边形是另一种显示已分组数据的方式。它基本上就是折线图。

如何绘制一个频数多边形:

  1. 找出每个组区间的中点。这就是组中点。(对于160-169,组中点是 $$ \frac{160+169}{2} = 164.5 $$)。
  2. 在每个组中点的频数高度处标示一个点。
  3. 用直线连接这些点!

频数曲线只是频数多边形的平滑版本,徒手绘制而成。

累积频数多边形和累积频数曲线

这听起来可能有点复杂,但“累积”这个词的意思其实就是“不断地加起来”。

步骤一:建立累积频数表。只需不断累加频数即可。

范例表格:学生身高

身高 (厘米)      频数      累积频数
150 - 159                   6                                 6
160 - 169                   9                                 6 + 9 = 15
170 - 179                   5                                 15 + 5 = 20

步骤二:绘制图表。你将累积频数对应上限组界绘制。(例如:在(159.5, 6)处标示一个点,然后是(169.5, 15)等)。这会形成一个典型的“S”形曲线。

利用曲线找出宝藏!

这条曲线对于找出估计值非常有用:

  • 中位数 (Q2):中间的数值。在垂直轴上找到50%的位置(对于20名学生来说,就是第10名学生),画一条横线到曲线,然后再画一条直线向下到水平轴,读取中位身高。
  • 下四分位数 (Q1):25%的位置(对于20名学生来说,就是第5名学生)。
  • 上四分位数 (Q3):75%的位置(对于20名学生来说,就是第15名学生)。

化身数据侦探:图表的运用与误用

图表功能强大,但它们也可能用来误导你!务必留意以下几点:

  • 断轴:垂直轴是否从0开始?如果不是,它可能会让差异看起来比实际大得多。
  • 不均匀的刻度:轴上的数字间隔是否均匀?
  • 误导性图片:使用图片而非长方形作图,如果图片的面积而非高度发生变化,可能会造成误导。
第二部分重点回顾

- 我们为不同类型的数据使用不同的图表。
- 茎叶图整齐地显示所有数据值。
- 直方图用于已分组的连续型数据,而且没有空隙。
- 累积频数曲线帮助我们估计中位数和四分位数。
- 务必仔细审视图表,确保它们没有误导成分!


第三部分:找出数据的“中心”

我们常常希望用一个单一的、具代表性的数字来描述一整组数据。这称为集中趋势的量度。让我们学习三个主要的量度。

平均数(平均值)

这个你可能已经知道了!它是最常见的“平均值”类型。

如何计算:将所有数值加起来,然后除以数值的个数。
范例:对于分数 6, 7, 8, 9, 10
$$ \text{Mean} = \frac{6+7+8+9+10}{5} = \frac{40}{5} = 8 $$

优点:运用了所有数据。
缺点:如果数据中存在极高或极低的值(即异常值),平均数可能会产生误导。想象一下,计算一组学生的平均零花钱,其中一个人有1000港元!这会使平均值对其他人来说显得非常高。

中位数(中间的数值)

中位数是将所有数据排序后,位于正中间的那个数值。

记忆小贴士:位数在道路中间。

如何找出中位数:

  1. 将数据按从小到大的顺序排列。
  2. 找出中间的数字。

范例一(奇数个数值):6, 7, 8, 9, 10。中位数是8。

范例二(偶数个数值):6, 7, 8, 9, 10, 11。中间在8和9之间。所以我们找出这两个数值的平均数:$$ \frac{8+9}{2} = 8.5 $$。中位数是8.5。

优点:不受异常值影响!这使得它非常适用于房价或薪金等数据。
缺点:在计算中没有使用所有数据值。

众数(最常见的数值)

众数是出现多次的数值。

记忆小贴士:数 = 最多。

范例:在数据 7, 8, 9, 6, 8, 7, 9, 10, 8, 7, 6, 8, 9, 8, 7 中,数字8出现了5次,比任何其他数字都多。所以,众数是8。

对于已分组数据,我们会找出众数组,即频数最高的组区间。

优点:容易找到,并可用于非数值数据(例如:最喜欢的颜色中的众数可能是“蓝色”)。
缺点:有时一组数据可能没有众数,或有多个众数。

加权平均数:当某些数据更重要时

有时,并非所有数据都同等重要。想想你的学校成绩:考试通常比测验所占比重更大。这就是加权平均数派上用场的时候了。

范例:你的最终分数是根据功课(占20%)和期末考试(占80%)计算的。你的功课得分是90分,考试得分是75分。
普通平均数: $$ \frac{90+75}{2} = 82.5 $$ (这是错误的!)
加权平均数: $$ (90 \times 0.20) + (75 \times 0.80) = 18 + 60 = 78 $$
你的最终分数是78分。这是更准确的反映,因为它考虑了每个部分的“权重”。

当我们改变所有数据时会怎样?

这是一个很方便的捷径!如果我们对每份数据都做同样的操作,平均数、中位数和众数会发生什么变化?

  • 如果你加上一个常数:如果你给每个学生的测验分数都加上5分,那么平均数、中位数和众数也会增加5
  • 如果你乘以一个常数:如果你将每个学生的分数都乘以两倍,那么平均数、中位数和众数也会乘以两倍
第三部分重点回顾

- 平均数是总和除以数量(对异常值敏感)。
- 中位数是数据排序后的中间值(对异常值不敏感)。
- 众数是最常出现的数值。
- 根据你的数据选择最合适的量度:如果存在明显的异常值,请使用中位数!


你已掌握统计学的基本知识!

太棒了!你现在已经懂得如何收集、整理、绘制和解释数据。你可以找出平均数、中位数和众数来描述数据的典型特征,也知道如何选择合适的工具来处理数据。这是一项非常实用的技能,不仅在数学课上,在日常生活中也大有用处。继续练习,你很快就会成为数据高手!