統計的應用及誤用

數學 · 高中 (HKDSE) · 阅读约 6 分钟

第18章：统计学的应用与谬误 — 您的数据侦探指南！

同学们！您是否曾见过这些新闻标题：“90%用户都喜欢我们的新App！”或者“吃这种食物可以延年益寿！”？统计数据无处不在—在新闻、广告、社交媒体中都能见到。它们对了解世界有莫大帮助，但也可能被误用来误导您。无需担心，这一章就是您的秘密武器！我们将学会如何解读弦外之音、识别可疑的说法，以及了解统计学应该如何正确地运用。就像练成数学的超能力，可以看清真相！

第一部分：概览 — 总体与样本

在我们收集任何数据之前，首先要知道我们要讨论的对象是谁。这里就要介绍我们两个超重要的词语：“总体 (Population)”和“样本 (Sample)”。

想象一下，您想知道全港高中学生最喜欢的科目是什么。

总体 (Population) 是您感兴趣的“整个群体”。在这个例子中，就是“所有”香港的高中学生。想问遍每一个人根本是不可能的！
样本 (Sample) 是“总体的一小部分”，而您实际收集数据的就是这部分。您可能会调查来自不同学校的500名学生。这个就是您的样本。

比喻时间：品尝汤品！

将总体想象成一大锅汤。您不需要喝完整锅汤才知它好不好喝。您只是一小匙—那个就是您的样本。如果那一小匙有齐锅汤里面所有材料的精华，它就会给予您对整锅汤的味道有一个良好的概念。我们的目标就是确保我们“一匙”的数据，能够真实地代表整锅“汤”。

快速温习盒

总体 (Population)： 我们想研究的“所有”个体组成的群体。
样本 (Sample)： 从总体中抽取的部分，我们将在此处收集数据。
为何要抽样？ 因为相比起研究整个总体，抽样更便宜、更快、更实际。

第一部分重点

我们将研究一个细小的样本，去对一个大型总体下结论。最重要的是，样本必须能够良好地代表总体，否则我们的结论就会出错了！

第二部分：如何选择您的样本 — 抽样方法

那么，我们如何才能得到一个好的“一匙”总体呢？我们用来选择样本的方法是非常重要的。我们可以将这些方法分成两大类。

概率抽样 (The Fair Methods)

在概率抽样中，总体中的每个成员都有一个已知的机会被选中。这是获得一个无偏、具代表性样本的最佳方法。

1. 简单随机抽样

意指： 每个人被选中的机会都是均等的。就像将每个名字放入一个大抽签箱，然后随机抽取出来。
例子：想在1000名学生的学校中调查50名学生，您可以为每位学生编配一个号码，然后用随机数字生成器选出50个号码。

2. 分层抽样

意指： 首先，您将总体划分成重要的子群组（称为“分层”）。然后，您从每个子群组抽取简单随机样本。这样可以确保您能够代表所有重要的群组。
例子：您想调查学生对新校规的意见。您知道男生和女生可能有不同意见。所以您将学生总体分成两个分层：“男生”和“女生”。然后您从每个群组随机抽样，确保样本中的比例能与学校的实际比例一致（例如，如果学校是60%女生，您的样本也应有60%女生）。

3. 系统抽样

意指： 您随机选择一个起点，然后每隔“第 k 个”成员就选取一个。
例子：想从一份1000人的名单中调查100人，您可以决定每隔第10个人就选取一个。您随机选择一个介于1到10之间的起始数字（例如7）。然后您选取第7、第17、第27、第37个人，以此类推。

非概率抽样 (The Easy, but Biased, Methods)

这些方法更快更方便，但它们通常会导致有偏差的结果，因为不是每个人都有均等的机会被选中。见到研究用这些方法，就要非常小心了！

1. 方便抽样

意指： 您只是调查那些容易接触到的人。对研究人员而言是方便，但对于获得具代表性的样本而言是非常差的方法。
例子：一位研究人员在午餐时间在一个港铁站外面，调查最先同意接受访问的100人。这个样本会过度代表办公室工作人士，但就错过了学生、老人家以及其他地区的人。

2. 配额抽样

意指： 有点像分层抽样，但不是随机的。研究人员决定好子群组以及每个群组的配额（例如：“我需要50个男人和50个女人”）。然后，他们用方便抽样的方法去填补这些配额。
例子：一位研究人员需要调查20名大学生。他去大学校园，调查他找到的最先20名学生。这也仍然是一种方便抽样，即使它有“配额”要填补。

您是否知道？

一个著名的抽样错误发生在1936年美国总统大选。一本叫做《文摘》(Literary Digest) 的杂志调查了超过二百万人，并预测某个候选人会大获全胜。但他们完全错误！为什么？因为他们的样本来自电话簿和汽车登记名单。在1936年，只有比较富有的人才有电话和汽车，所以他们的样本并不能代表整个投票人口。这就是抽样偏差 (sampling bias) 的经典例子！

第二部分重点

您如何选择样本是至关重要的。概率抽样 (Probability sampling) 方法（例如简单随机抽样、分层抽样、系统抽样）是公平而且能提供最好结果的。对于来自非概率抽样 (Non-probability sampling)（例如方便抽样）的结果，您一定要非常批判性地看待，因为它们通常都是有偏差的。

第三部分：问对问题 — 问卷设计

好了，您已经有了样本。现在您要向他们提问。但是，您如何措辞一条问题，是可以完全改变答案的！一份好的问卷会问清晰、中立的问题。一份差的问卷可以诱使人给出某个特定的答案。

问卷中要避免的常见陷阱：

1. 引导性问题 (Leading Questions)： 这些问题暗示了一个“正确”答案。
差： “您不是也同意新改良的学校午餐美味得多吗？”
好： “您会在1到5的评分标准上评价新学校午餐的品质？”

2. 含糊或模棱两可的问题 (Vague or Ambiguous Questions)： 用词不清晰。
差： “您定期做运动吗？”（“定期”是什么意思？每日一次？每星期一次？每月一次？）
好： “上星期您做了至少30分钟运动的日子有几天？”

3. 双重提问 (Double-Barrelled Questions)： 一条问题询问两件事。
差： “您认为学校应该减少书本开支并增加体育设施开支吗？”（如果只同意一部分，不同意另一部分该如何处理？）
好：分成两条问题：“您认为学校应该减少书本开支吗？”和“您认为学校应该增加体育设施开支吗？”

4. 不当的选项 (Inappropriate Options)： 选项令人困惑，或者未能涵盖所有可能性。
差： “您几岁？(a) 20岁以下 (b) 20-30岁 (c) 30岁以上”（如果您刚好20岁或30岁该如何处理？选项重叠，而且不是互斥的。）
好： “您属于哪个年龄组别？(a) 20岁以下 (b) 20-29岁 (c) 30岁或以上”

5. 问题次序 (Question Order)： 问题的次序可以影响后续答案。
例子：如果您首先问“您对您的生活有多满意？”，然后再问“您多久谈一次恋爱？”，答案可能会与您反过来询问的情况不同。

第三部分重点

问题的措辞很重要！当您见到一份调查结果，试着找出他们问了哪些确切的问题。小心旨在产生某个特定结果的引导性、含糊或有诡计的问题。

第四部分：辨识谎言 — 统计学的谬误

这个时候，我们就要戴上我们的侦探帽了！人们可以在每个阶段滥用统计数据：在他们如何收集数据、如何呈现数据，以及如何解读数据。

滥用1：误导性数据收集

这个又回到我们头两个部分。如果有人使用有偏差的抽样方法（例如方便抽样）或者设计得差的问卷，他们的数据从根本上就有缺陷。就像在一个不稳固的地基上盖屋—无论它看起来多么漂亮，都不可靠。

警示： 一个标题说“85%的人喜欢X牌咖啡！”，但这个“调查”是在一间X牌商店外面派发免费样本时进行的。（这是偏颇的样本！）

滥用2：误导性图表

一张图胜过千言万语，但也可以道出千个谎言。很容易操纵图表，使差异看起来比实际更大或更小。

常见图表诡计：

截断Y轴 (The Truncated Y-Axis)： 这是最常见的诡计！垂直轴 (Y轴) 不是由零开始。这样会使微小的差异看起来像巨大的变化。
不一致的刻度 (Inconsistent Scale)： 轴上的数字增长并不一致（例如：它是0、10、20、100、200这样升），这样会扭曲图表。
误导性的象形图 (Misleading Pictograms)： 使用图片时，高和宽都同时按比例放大。这样会使图片的面积呈指数级增长，夸大了差异。
令人困惑的3D图表 (Confusing 3D Charts)： 3D效果可以使您难以读取实际数值，而且可以使靠近观察者的部分看起来比实际更大。

滥用3：误导性解读

即使有良好的数据和良好的图表，得出的结论都可能是错的。

常见解读诡计：

使用“错误”的平均数 (Using the "Wrong" Average)： 还记得平均数、中位数和众数吗？一间公司可能会说它的“平均”工资很高，是因为使用了平均数 (mean)，它被几个百万富翁级高层拉高了。而中位数 (median)（中间数值）会提供更真实的典型员工收入情况。
相关性不等于因果关系 (Correlation is NOT Causation)： 这是一个很大的误区！仅仅因为两件事同时发生，不代表一件事会导致另一件事。
经典例子：冰淇淋销量和鲨鱼袭击次数有关联（它们在夏天都会上升）。那么吃冰淇淋会导致鲨鱼袭击吗？当然不会了！真正的原因是炎热的天气（『潜在变量』），它会使人们去游泳和吃冰淇淋。
选择性挑选数据 (Cherry-Picking Data)： 只呈现支持自己论点的数据，而忽视不支持的数据。
细小的样本量 (Small Sample Size)： 来自非常细小样本（例如：“四个人中有三个人同意”）的结果并不可靠，很大机会只是随机机会造成。

第四部分重点

做一个批判性的观察者！总是质疑数据来源，检查图表的坐标轴，以及仔细思考这个结论是否真正得到证据支持。不要被花俏的数字或图表骗到您！

第五部分：您的统计学侦探工具箱

恭喜您，您已经学会了所有秘密了！现在，无论您在现实世界遇到任何统计数据，您都可以用这份简单的清单，像专家一样评估它。

问自己这些问题：

1. 这项研究由谁出钱资助？又由谁进行？
（他们是否有理由想得到某个特定结果？）

2. 样本量有多大？样本是如何挑选出来的？
（够不够大？是随机样本还是有偏差的方便抽样？）

3. 他们问了哪些确切的问题？
（是否有引导性、含糊或有诡计的问题？）

4. 数据是如何呈现出来的？
（图表的Y轴是否由0开始？刻度是否一致的？）

5. 结论是否合乎逻辑？
（他们是否有混淆相关性和因果关系？他们是否有用最适合的“平均数”吗？）

通过学习统计学的应用和谬误，您不只是在学习数学，更是在学习如何在日常生活中成为一个更聪明、更具批判性的思考者。现在就出发，做个数据侦探吧！

快速检查

你现在能答出来吗？

展开每个问题，快速检查你是否掌握本章重点。

什麼是統計學中的「總體 (Population)」與「樣本 (Sample)」？

總體是研究感興趣的整個群體，而樣本是從總體中抽取出來進行實際數據收集的一小部分成員。

什麼是簡單隨機抽樣 (Simple Random Sampling)？

這是一種概率抽樣方法，確保總體中的每一個成員被選中進入樣本的機會都是均等的。

分層抽樣 (Stratified Sampling) 的目的是什麼？

確保總體中所有重要的子群組（分層）在樣本中都能按比例得到充分代表。

如何執行系統抽樣 (Systematic Sampling)？

先隨機選擇一個起點，然後按照固定的間隔（例如每隔 \(k\) 個成員）選取樣本。

為什麼非概率抽樣（如方便抽樣）的結果往往不可靠？

因為它並非隨機選取成員，導致某些群體被過度代表或被忽略，從而產生抽樣偏差 (Sampling Bias)。

問卷設計中的「引導性問題 (Leading Questions)」會造成什麼影響？

引導性問題會暗示一個「正確」或「期望」的答案，誘導受訪者給出特定回應，使調查結果失去中立性。

什麼是「截斷 Y 軸 (Truncated Y-Axis)」？

指統計圖表的垂直軸（Y 軸）不從零開始，這會使數據之間微小的差異在視覺上顯得非常巨大且誇張。

為什麼在描述薪酬或收入時，中位數通常比平均數更具代表性？

平均數 (Mean) 容易受到極端高值的拉高，而中位數 (Median) 能反映群體中位處中間的典型水平，不受極端值影響。

為什麼說「相關性 (Correlation) 不等於因果關係 (Causation)」？

僅僅因為兩組數據呈現相同的升跌趨勢，並不代表兩者之間有直接的因果聯繫，背後可能存在第三種變量影響雙方。

為什麼細小樣本量 (Small Sample Size) 的統計結果不可靠？

當樣本量太小時，結果很容易受到隨機偶然因素的干擾，無法準確推論到大型總體。

准备好测试自己了吗？

将这些笔记转化为考试练习。获取此课题的无限AI题目，即时批改及详细解析。

练习此课题

立即实践所学

不要只看笔记，用无限AI题库练习，即时获得批改反馈。加入超过100,000名正在提升成绩的学生。

立即开始练习查看定价

看完笔记了？用AI练习题测试自己

立即练习此课题