Data recording, analysis and presentation - Psychology - H567 - Cambridge OCR A Level

欢迎来到数据记录、分析与呈现！

在这一章，我们将学习心理学家如何将研究中收集到的“混乱”信息转化为清晰、科学的结果。试想一下：如果研究员直接塞给你 500 份填好的问卷，你一定会不知所措。我们需要工具来整理、总结这些数据，并判断它们的实际意义。如果数学看起来有点吓人，别担心——我们会一步一步来拆解！

1. 原始数据 (Raw Data)：起点

原始数据是指你在进行任何运算之前，收集到的“未经处理”信息。为了保持井然有序，心理学家会使用原始数据记录表 (Raw data recording tables)。这基本上就是一个表格，让你可以在收集到每个受试者的数据时，随即记录下来。

数字与精确度

记录数据时，必须保持精确。你需要了解以下概念：

标准式 (Standard Form)：一种用 10 的幂次来书写极大或极小数字的方法。例如，\( 5,000 \) 会变为 \( 5 \times 10^3 \)。
小数形式 (Decimal Form)：使用小数点来表示整体的零碎部分（例如 \( 0.75 \)）。
有效数字 (Significant Figures)：数字中具有意义的位数。如果你被要求以 2 位有效数字作答，\( 12.34 \) 就会变成 \( 12 \)。
估算 (Estimations)：在计算精确答案之前，先做出一个“最佳猜测”，以检查最终结果是否合理。

快速温习：一定要在开始研究之前设计好你的表格，这样才不会漏掉任何数据！

2. 数据的层次与类型

并非所有数据都是一样的！我们会根据数据的性质及其“详细程度”进行分类。请记住助记词 N.O.I.R. 来掌握测量层次。

“NOIR”测量层次

名义数据 (Nominal)：分为独立类别的数据（名称）。例子：你是吸烟者还是非吸烟者？
顺序数据 (Ordinal)：可以排序或分级，但级别之间的差距不相等的数据。例子：比赛获得第 1、2、3 名。你知道谁跑得快，但不知道快了几秒。
等距数据 (Interval)：在具有相等间距的刻度上测量的数据。例子：摄氏温度或智商测试分数。

数据类型

定量数据 (Quantitative)：涉及数字的数据（例如：“花了多少秒？”）。
定性数据 (Qualitative)：涉及文字与描述的数据（例如：“你在任务期间感觉如何？”）。
初级数据 (Primary)：你自己为研究亲自收集的数据。
次级数据 (Secondary)：你所使用的由他人收集的数据（例如：政府统计数据）。

重点总结：等距数据是最“科学”且详细的，而名义数据则是最简单的。

3. 描述性统计：总结数据

描述性统计 (Descriptive statistics) 用于描述数据的基本特征。它们不会告诉我们假设是否“正确”，只会呈现数据看起来的样子。

集中趋势测量（平均值）

平均数 (Mean)：将所有分数相加后除以总人数。（最敏感，但会受极值影响）。
中位数 (Median)：按顺序排列后的中间数值。（适合顺序数据）。
众数 (Mode)：出现频率最高的分数。（唯一适用于名义数据的指标）。

离散程度测量（分散性）

这些数据告诉我们分数是集中在一起，还是分散得很开。

全距 (Range)：最高分与最低分之间的差异（最大值 - 最小值 + 1）。
变异数与标准差 (Variance & Standard Deviation)：这些衡量分数平均偏离平均数的程度。标准差较大意味着数据分布非常广泛。

你知道吗？心理学家也会使用比率 (ratios)、百分比 (percentages) 和分数 (fractions) 来简化比较（例如：“60% 的受试者表示同意”）。

4. 数据呈现（图表）

我们会根据数据类型使用不同的图表。记住：图表必须永远拥有清晰的标题和坐标轴标签！

频数表 (Frequency Table)：显示事件发生频率的统计表。
条形图 (Bar Chart)：用于名义数据。条形之间不相连，因为类别是独立的。
直方图 (Histogram)：用于等距/连续数据。条形会相连，因为数据是在连续刻度上。
折线图 (Line Graph)：显示数据随时间或条件变化的趋势。
饼图 (Pie Chart)：显示群体如何被划分为各个部分。
散点图 (Scatter Diagram)：用于相关性研究，显示两个变量之间的关系。

常见错误：不要将相关性数据画成条形图！请改用散点图。

5. 推论统计：进行决策

这一步是为了判断我们的结果是否真正具有显著性 (significant)（发生了真实的效应？），还是纯粹归因于运气/偶然 (luck/chance)。

概率与显著性

心理学家通常使用 \( p \le 0.05 \) 作为显著性水平 (significance level)。这意味着我们的结果纯属巧合的可能性只有 5%（或更低）。如果 \( p \le 0.05 \)，我们就称结果具有统计显著性。

常态分布与偏态分布

常态分布 (Normal Distribution)：呈“钟形曲线”，平均数、中位数和众数都在中间。
偏态分布 (Skewed Distribution)：当数据向一侧偏移时。正偏态在右侧有长尾巴；负偏态在左侧有长尾巴。

两类错误

第一型错误 (Type 1 Error)：“伪阳性”。当结果纯属偶然时，你却宣称结果具有显著性。（你错误地拒绝了虚无假设）。
第二型错误 (Type 2 Error)：“伪阴性”。当确实存在真实效应时，你却宣称结果是偶然造成的。（你错误地接受了虚无假设）。

避坑小撇步：为避免第一型错误，可以使用更严格的显著性水平（例如 \( p \le 0.01 \)）。

6. 该用哪种统计检定？

在考试中你不需要亲手计算这些复杂的数学，但你必须知道如何选择！要使用参数检定 (parametric test)，数据必须是等距层次且符合常态分布。如果不符合，我们则使用非参数检定 (non-parametric tests)。

你必须知道的非参数检定：

曼-惠特尼 U 检定 (Mann-Whitney U)：测试两个独立组别之间的差异（独立样本设计）。
威尔科克森符号秩检定 (Wilcoxon Signed Ranks)：测试同一群人在两个条件下的差异（重复测量设计）。
卡方检定 (Chi-square)：测试名义数据之间的差异或关系。
二项符号检定 (Binomial Sign Test)：用于名义数据和重复测量设计的差异测试。
斯皮尔曼等级相关系数 (Spearman’s Rho)：用于找出两个变量之间的关系/相关性。

必学符号：
\( = \) (等于)
\( < \) (小于)
\( << \) (远小于)
\( > \) (大于)
\( \propto \) (正比于)
\( \sim \) (大约)

重点总结：选择正确的检定就像为工作选择正确的工具。如果你有名义数据并正在寻找相关性，你必须使用卡方检定！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。