集中趋势的量度:找出数据的“中间”
各位同学好!欢迎来到“数据处理”的世界!
您有没有想过,当人们说起“平均学生”或者某样东西的“典型价格”时,他们究竟想表达些什么?其实,他们正使用数学上一个叫做集中趋势的概念。
在这一章,我们会学习如何找出一个数字堆(一个数据集)的“中心”或者“中间”。就像找一个数字去代表整个组别一样,这对于快速理解信息超级有用,无论是您的测验分数、天气情况,还是您最爱的电子游戏数据都一样。
就算一开始觉得有点难,也不用担心!我们会用一些简单又贴近生活的例子,将其逐一拆解。准备好了吗?一起开始吧!
认识三大主角:“3M”
当我们谈论集中趋势,通常会集中谈论三个核心概念。您可以将它们视为一队超级英雄,各自有它们独特的方法去找出“中间”:
1. 平均数 (The Mean):“公平分享”的数值。
2. 中位数 (The Median):“正中间”的数值。
3. 众数 (The Mode):“最受欢迎”的数值。
我们会逐一认识它们,看看何时使用它们独特的“超能力”!
处理简单的数据列表(未分组数据)
我们由一个简单、未排序的数字列表开始,这种叫做未分组数据。
第一部分:平均数(或称算术平均数)
这是什么?
您可能以前听过“平均”这个词。在数学上,我们称它为平均数。如果将所有东西平均分配,您就会得到这个数值。
如何找出平均数?
这是两步完成的过程:
第一步:将您数据集里面所有数字加起来。
第二步:将总数除以数字的总数量。
公式就是这样:
$$ \text{Mean} = \frac{\text{Sum of all data values}}{\text{Number of data values}} $$试着做个例子!
想象一下,这些是您5次数学小测的分数:8、7、9、6、10。不如我们来找出您的平均分吧。
第一步(将它们全部加起来): $$8 + 7 + 9 + 6 + 10 = 40$$第二步(除): 总共有5个分数,所以我们除以5。 $$40 \div 5 = 8$$
所以,这批小测分数的平均数是8。做得好!
快速复习:平均数
- 又称算术平均数。
- 动作:先加后除。
- 代表“公平分享”的数值。
第二部分:中位数(个“中间仔”)
这是什么?
中位数就是列表中间的数字,但是有一个“陷阱”!您必须首先将数字排序!
记忆小贴士:“Median”听起来像“Medium(中等)”,而中等永远在中间嘛。
如何找出中位数?
第一步:将所有数字由最小排到最大。
第二步:找出物理上在中间的数字。
情况一:数据点数量为单数
我们再用回小测分数做例子:8、7、9、6、10。
第一步(排序): 6, 7, 8, 9, 10
第二步(找出中间): 最中间的数字就是8。
所以,中位数是8。很简单!
情况二:数据点数量为双数
如果A同学再考一次小测,拿到9分呢?他的分数就是:8、7、9、6、10、9。
第一步(排序): 6, 7, 8, 9, 9, 10
第二步(找出中间): 哎呀!中间有两个数字:8和9。那该怎么办?我们就找出这两个数字的平均数!
$$ (8 + 9) \div 2 = 17 \div 2 = 8.5 $$
所以,这组数据的中位数是8.5。
常见错误警告!
最常见的错误就是找出中位数之前,忘记将数字排好次序。记住,永远都要先排序!
第三部分:众数(最受欢迎)
这是什么?
众数是最容易找到的一个!它就是数据集里面出现最多次数的数字。
记忆小贴士:“Mode”的“Mo”字就好像“Most Often”的“Mo”字,就是指出现“最”多次数的数字。
如何找出众数?
看看一个小班的鞋码:5、6、7、8、6、8、9、8。
只要找出哪个数字出现得最多次。数字8出现了三次,比其他任何尺码都多。
所以,众数是8。
众数的特殊情况:
- 没有众数:如果所有数字都只出现一次(例如:1、2、3、4、5),那就没有众数。
- 多于一个众数:如果两个(或更多)数字出现频率相同,而且是最多,那就可以有多于一个众数!例如,在数据集2、3、3、4、5、5中,众数是3和5。
处理大量数据(分组数据)
有时我们有这么多数据,将其放入频数表会更方便。这种叫做分组数据。由于我们不再知道准确的数值,所以需要估计我们的集中趋势量度。
第一部分:众数组
当数据是分组的时候,我们找不到单一的众数。取而代之,我们会找出众数组,即是频数最高的组别。
例子:做功课的时间
我们有一张表,显示学生做功课的时间。
时间(分钟):0-10 | 11-20 | 21-30 | 31-40
频数(学生人数):3 | 12 | 8 | 2
只要找出最高的频数。它是12。它属于哪个组别?就是11-20分钟这个组别。
所以,众数组是11-20分钟。
第二部分:从分组数据中估计平均数
我们找不到准确的平均数,因为我们不知道那12位学生在众数组里面每人做功课的准确时间。但是我们可以做出一个很好的估计!
以下是步骤:
1. 找出每个组的组中点。组中点就是该组的中点。(对于11-20,中点是 (11+20)/2 = 15.5)
2. 将每个组中点乘以它的频数。
3. 将第二步所有的结果加起来。
4. 除以数据点的总数(即总频数)。
我们用回做功课的例子:
第一组(0-10):组中点 = 5。 $$5 \times 3 = 15$$第二组(11-20):组中点 = 15.5。 $$15.5 \times 12 = 186$$第三组(21-30):组中点 = 25.5。 $$25.5 \times 8 = 204$$第四组(31-40):组中点 = 35.5。 $$35.5 \times 2 = 71$$
第三步(将它们全部加起来): $$15 + 186 + 204 + 71 = 476$$总频数: $$3 + 12 + 8 + 2 = 25$$
第四步(除): $$ \text{Estimated Mean} = 476 \div 25 = 19.04 $$
我们的估计平均时间是19.04分钟。
重要提示:记住,这只是一个估计,因为我们使用了组中点而不是实际的数据。
加权平均数(当部分数据更重要时)
这是什么?
有时,并不是所有数字都是平等的。有些会更重要,或者有更多“权重”。一个最好的真实例子就是您的学校分数!期末考试通常比单次功课有更高的比重。
加权平均数就是一种平均数,其中某些数据点比其他数据点有更大的影响。
例子:计算最终成绩
想象一下,您的数学期末成绩是这样计算的:
- 功课占10%(权重 = 10)
- 小测占30%(权重 = 30)
- 期末考试占60%(权重 = 60)
您的得分是:功课95分,小测80分,期末考试75分。
第一步:将每个分数乘以它的权重。
功课: $$95 \times 10 = 950$$小测: $$80 \times 30 = 2400$$期末考试: $$75 \times 60 = 4500$$
第二步:将这些结果加起来: $$950 + 2400 + 4500 = 7850$$
第三步:将总权重加起来: $$10 + 30 + 60 = 100$$
第四步:将第二步的结果除以第三步的结果。
$$ \text{Weighted Mean} = 7850 \div 100 = 78.5 $$
您的最终成绩是78.5分!您可以看到,期末考试的分数影响最大,因为它有最高的权重。
我应该使用哪个“M”?(用途和误用)
选择正确的量度方法很重要,因为有时一个“M”会比另一个更能真实反映情况。
当您使用平均数时... 数据分布比较平均,而且没有极端值(又称异常值)。例子:班上同学的身高。
当您使用中位数时... 有极端值(异常值)。中位数不会受到超高或超低数字的影响。例子:想象一间公司的薪金。一个CEO赚几百万,但大部分员工赚少很多。平均薪金会很高而且容易误导人。中位数薪金会更好反映一个普通员工的收入。
当您使用众数时... 数据不是数字(例如“最喜欢的颜色”),或者您只想知道最常见的选择。例子:鞋店老板会使用众数来知道哪种鞋码要订最多货。
您又知道吗?(统计如何误导人)
人们可以“滥用”统计,选择一个对他们最有利的量度方法。一间公司可能会说“我们的平均薪金是十万元!”他们使用的可能是在老板超高薪金拉高了的平均数。但大部分人实际拿到的中位数薪金可能只是四万元!永远都要问清楚他们正使用哪种“平均”。
实用捷径:如果我们改变所有数据会怎样?
如果我们对数据集里面的每一个数字都做同样的事情,那我们的“3M”会怎样变化呢?好消息是:有一个很简单规则!
规则一:加或减一个数字
如果您将数据集里面的每个数值加同一个数字(我们称它为k),那平均数、中位数和众数都会增加k。减法也是一样!
例子:数据集 {2, 4, 4, 6}。平均数=4,中位数=4,众数=4。
我们将每个数字都加10:{12, 14, 14, 16}。
新的平均数是14(4+10),新的中位数是14(4+10),新的众数是14(4+10)。没错!
规则二:乘或除一个数字
如果您将数据集里面的每个数值乘以同一个数字(k),那平均数、中位数和众数都会乘以k。除法也是一样!
例子:数据集 {2, 4, 4, 6}。平均数=4,中位数=4,众数=4。
我们将每个数字都乘以5:{10, 20, 20, 30}。
新的平均数是20(4x5),新的中位数是20(4x5),新的众数是20(4x5)。就好像变魔术一样神奇!
重点提示
集中趋势的量度(平均数、中位数、众数)会以您改变数据集中每个数据的方式,受到完全相同的影响。这在解题的时候可以是一个很有用的捷径!