欢迎来到数据记录、分析与呈现!
在这一章,我们将学习心理学家如何将研究中收集到的“混乱”信息转化为清晰、科学的结果。试想一下:如果研究员直接塞给你 500 份填好的问卷,你一定会不知所措。我们需要工具来整理、总结这些数据,并判断它们的实际意义。如果数学看起来有点吓人,别担心——我们会一步一步来拆解!
1. 原始数据 (Raw Data):起点
原始数据是指你在进行任何运算之前,收集到的“未经处理”信息。为了保持井然有序,心理学家会使用原始数据记录表 (Raw data recording tables)。这基本上就是一个表格,让你可以在收集到每个受试者的数据时,随即记录下来。
数字与精确度
记录数据时,必须保持精确。你需要了解以下概念:
- 标准式 (Standard Form):一种用 10 的幂次来书写极大或极小数字的方法。例如,\( 5,000 \) 会变为 \( 5 \times 10^3 \)。
- 小数形式 (Decimal Form):使用小数点来表示整体的零碎部分(例如 \( 0.75 \))。
- 有效数字 (Significant Figures):数字中具有意义的位数。如果你被要求以 2 位有效数字作答,\( 12.34 \) 就会变成 \( 12 \)。
- 估算 (Estimations):在计算精确答案之前,先做出一个“最佳猜测”,以检查最终结果是否合理。
快速温习:一定要在开始研究之前设计好你的表格,这样才不会漏掉任何数据!
2. 数据的层次与类型
并非所有数据都是一样的!我们会根据数据的性质及其“详细程度”进行分类。请记住助记词 N.O.I.R. 来掌握测量层次。
“NOIR”测量层次
- 名义数据 (Nominal):分为独立类别的数据(名称)。例子:你是吸烟者还是非吸烟者?
- 顺序数据 (Ordinal):可以排序或分级,但级别之间的差距不相等的数据。例子:比赛获得第 1、2、3 名。你知道谁跑得快,但不知道快了几秒。
- 等距数据 (Interval):在具有相等间距的刻度上测量的数据。例子:摄氏温度或智商测试分数。
数据类型
- 定量数据 (Quantitative):涉及数字的数据(例如:“花了多少秒?”)。
- 定性数据 (Qualitative):涉及文字与描述的数据(例如:“你在任务期间感觉如何?”)。
- 初级数据 (Primary):你自己为研究亲自收集的数据。
- 次级数据 (Secondary):你所使用的由他人收集的数据(例如:政府统计数据)。
重点总结:等距数据是最“科学”且详细的,而名义数据则是最简单的。
3. 描述性统计:总结数据
描述性统计 (Descriptive statistics) 用于描述数据的基本特征。它们不会告诉我们假设是否“正确”,只会呈现数据看起来的样子。
集中趋势测量(平均值)
- 平均数 (Mean):将所有分数相加后除以总人数。(最敏感,但会受极值影响)。
- 中位数 (Median):按顺序排列后的中间数值。(适合顺序数据)。
- 众数 (Mode):出现频率最高的分数。(唯一适用于名义数据的指标)。
离散程度测量(分散性)
这些数据告诉我们分数是集中在一起,还是分散得很开。
- 全距 (Range):最高分与最低分之间的差异(最大值 - 最小值 + 1)。
- 变异数与标准差 (Variance & Standard Deviation):这些衡量分数平均偏离平均数的程度。标准差较大意味着数据分布非常广泛。
你知道吗?心理学家也会使用比率 (ratios)、百分比 (percentages) 和分数 (fractions) 来简化比较(例如:“60% 的受试者表示同意”)。
4. 数据呈现(图表)
我们会根据数据类型使用不同的图表。记住:图表必须永远拥有清晰的标题和坐标轴标签!
- 频数表 (Frequency Table):显示事件发生频率的统计表。
- 条形图 (Bar Chart):用于名义数据。条形之间不相连,因为类别是独立的。
- 直方图 (Histogram):用于等距/连续数据。条形会相连,因为数据是在连续刻度上。
- 折线图 (Line Graph):显示数据随时间或条件变化的趋势。
- 饼图 (Pie Chart):显示群体如何被划分为各个部分。
- 散点图 (Scatter Diagram):用于相关性研究,显示两个变量之间的关系。
常见错误:不要将相关性数据画成条形图!请改用散点图。
5. 推论统计:进行决策
这一步是为了判断我们的结果是否真正具有显著性 (significant)(发生了真实的效应?),还是纯粹归因于运气/偶然 (luck/chance)。
概率与显著性
心理学家通常使用 \( p \le 0.05 \) 作为显著性水平 (significance level)。这意味着我们的结果纯属巧合的可能性只有 5%(或更低)。如果 \( p \le 0.05 \),我们就称结果具有统计显著性。
常态分布与偏态分布
- 常态分布 (Normal Distribution):呈“钟形曲线”,平均数、中位数和众数都在中间。
- 偏态分布 (Skewed Distribution):当数据向一侧偏移时。正偏态在右侧有长尾巴;负偏态在左侧有长尾巴。
两类错误
- 第一型错误 (Type 1 Error):“伪阳性”。当结果纯属偶然时,你却宣称结果具有显著性。(你错误地拒绝了虚无假设)。
- 第二型错误 (Type 2 Error):“伪阴性”。当确实存在真实效应时,你却宣称结果是偶然造成的。(你错误地接受了虚无假设)。
避坑小撇步:为避免第一型错误,可以使用更严格的显著性水平(例如 \( p \le 0.01 \))。
6. 该用哪种统计检定?
在考试中你不需要亲手计算这些复杂的数学,但你必须知道如何选择!要使用参数检定 (parametric test),数据必须是等距层次且符合常态分布。如果不符合,我们则使用非参数检定 (non-parametric tests)。
你必须知道的非参数检定:
- 曼-惠特尼 U 检定 (Mann-Whitney U):测试两个独立组别之间的差异(独立样本设计)。
- 威尔科克森符号秩检定 (Wilcoxon Signed Ranks):测试同一群人在两个条件下的差异(重复测量设计)。
- 卡方检定 (Chi-square):测试名义数据之间的差异或关系。
- 二项符号检定 (Binomial Sign Test):用于名义数据和重复测量设计的差异测试。
- 斯皮尔曼等级相关系数 (Spearman’s Rho):用于找出两个变量之间的关系/相关性。
必学符号:
\( = \) (等于)
\( < \) (小于)
\( << \) (远小于)
\( > \) (大于)
\( \propto \) (正比于)
\( \sim \) (大约)
重点总结:选择正确的检定就像为工作选择正确的工具。如果你有名义数据并正在寻找相关性,你必须使用卡方检定!