欢迎来到数据的世界!

你已经设计好实验、召集了参与者,也完成了研究。现在该怎么办?你手上有一堆“线索”(数据),但它们还没能说出一个完整的故事。在本章中,我们将学习如何整理、分析并呈现这些数据,让我们能真正理解人类心智运作的奥秘。将自己想象成一名翻译官,把混乱的数字和文字转化为清晰、科学的真相。

别担心如果你自认不是“数学挂”——我们会把所有内容拆解,一步一步带你搞定!

1. 处理原始数据

原始数据 (Raw data) 就是你在研究过程中收集到、未经任何处理的“原始信息”。就像做蛋糕的原料一样——在搅拌混合之前,你是看不见成品长什么样的。

原始数据记录表

在进行实验或观察时,你需要一张原始数据记录表 (raw data recording table)。这是一个简单的表格,让你可以在观察到结果的当下,即时记录分数或行为。 例子:一个表格,其中一栏是“参与者姓名”,另一栏是“解开谜题所需的时间”。

数据处理的数学技巧

心理学家会用一些数学小撇步来让数据保持整齐:

标准式 (Standard Form): 用于处理极大或极小的数字,格式为 \( A \times 10^n \)。例如,500 可以写成 \( 5 \times 10^2 \)。
有效数字 (Significant Figures): 指的是将数字四舍五入到有意义的位数。如果计算器算出 12.345678,你可以将其简化为 12.3(3 位有效数字),让数据更易读。
估算 (Estimations): 有时候,在进行大规模计算前先进行“预估”很有帮助,看看最终答案是否合理。如果你计算 10、12 和 14 的平均值,结果却算出 50,你就知道自己肯定哪里算错了!

快速回顾: 原始数据是你研究结果的“初稿”。从一开始就使用表格来保持整洁吧!

2. 数据的层次与类型

数据并非生而平等!心理学家会对数据进行分类,以便之后判断该使用哪种统计检验。

定量数据 vs. 定性数据

定量数据 (Quantitative Data): 以数字形式呈现的数据(例如:“记忆测验的分数”)。容易分析,但缺乏细节。
定性数据 (Qualitative Data): 以文字形式呈现的数据(例如:“参与者对测试感受的描述”)。细节丰富,但较难归纳总结。

初级数据 vs. 次级数据

初级数据 (Primary Data): 你为了自己的研究亲自收集的数据。
次级数据 (Secondary Data): 已经存在的数据,由他人收集(例如:使用政府的犯罪统计资料)。

数据的三个层次

这是 OCR 课程中非常重要的部分。要记住它们,请记住 NOI 这个词:

1. 名义层次 (Nominal Level): 由类别或名称组成的数据。你只是在“数人头”。(例子:计算有多少人喜欢猫,多少人喜欢狗)。
2. 次序层次 (Ordinal Level): 可以排序或“分等级”的数据,但级别之间的差距并不相等。(例子:比赛获得第 1、2、3 名。你知道谁比较快,但不知道具体快了几秒)。
3. 等距层次 (Interval Level): 使用固定且相等间隔的刻度来测量的数据。(例子:摄氏温度或秒数)。 这是最“科学”的数据层次。

重点总结: 识别你的数据层次(名义、次序或等距)是决定使用哪种统计检验的第一步。

3. 描述性统计

描述性统计用于总结你的数据,让你一眼就能看懂重点。

集中趋势测量(中间值)

平均数 (Mean): 即平均值。将所有分数相加后除以总数。(非常敏感;一个极端分数就可能毁掉它!)
中位数 (Median): 当所有分数依序排列时,位于中间的分数。(如果有极端高分或极端低分,用中位数最好)。
众数 (Mode): 出现频率最高的分数。(适用于名义数据)。

离散程度测量(分散度)

这些测量告诉我们分数是聚在一起,还是分散得很开。

全距 (Range): 最高分与最低分之间的差异。(计算公式:最高分 - 最低分 + 1)。
变异数与标准差 (Variance and Standard Deviation): 这些较为复杂。它们告诉我们每个分数平均偏离平均数的程度。标准差小代表大家的分数都差不多;标准差大则代表结果非常分散。

数据可视化(图表)

条形图 (Bar Charts): 用于名义数据(类别)。条形之间不能相连。
直方图 (Histograms): 用于等距数据(连续数字)。条形必须相连。
散点图 (Scatter Diagrams): 用于相关性研究,显示两个变量之间的关系。
饼图 (Pie Charts): 用于显示整体中的比例或百分比。

常见错误: 条形图的条形千万别连在一起!那只有直方图才行。把条形图想成是各类别之间的“社交距离”吧。

4. 推论统计

这听起来很吓人,但其实只是在回答一个问题:“我的结果纯属巧合,还是真的发现了什么?”

概率与显著性

心理学家使用 \( p < 0.05 \) 作为显著性水平 (significance level)。这意味着结果纯属偶然发生的概率小于 5%。我们希望至少有 95% 的把握确认我们的发现是真实的!

正态分布曲线 (Normal Distribution Curve)

如果你测量大群体身高,大多数人会处于平均值,极高和极矮的只有少数。这会形成一个对称、钟形的曲线,称为正态分布
如果曲线偏向一边,则称为偏态 (Skewed)(例子:如果考试太容易,大多数人得分很高,会形成负偏态)。

选择统计检验

课程要求你知道何时使用特定的非参数检验 (non-parametric tests)。不用担心数学公式,只要知道怎么选择就行!

1. 卡方检验 (Chi-square): 用于名义数据和独立测量。
2. 二项式符号检验 (Binomial Sign Test): 用于名义数据和重复测量。
3. 曼-惠特尼 U 检验 (Mann-Whitney U): 用于次序数据和独立测量。
4. 威尔科克森符号秩检验 (Wilcoxon Signed Ranks): 用于次序数据和重复测量。
5. 斯皮尔曼等级相关系数 (Spearman’s Rho): 当你想探讨两个变量之间的相关性时使用。

第一类与第二类错误

第一类错误 (Type 1 Error,即“伪阳性”): 你宣称有显著结果,但其实没有。你太乐观了!(通常发生在显著性水平太宽松时,如 10%)。
第二类错误 (Type 2 Error,即“伪阴性”): 你宣称没有结果,但事实上有!你太保守了。(通常发生在显著性水平太严格时,如 1%)。

你知道吗? 第一类错误就像没火灾却响起火灾警报;第二类错误则是真有火灾,警报却没响!

5. 方法论问题

在分析数据时,我们必须检查研究是否真的是好的“科学”。

信度 (Reliability): 研究是否具一致性?如果再做一次,会得到同样的结果吗?
检查方式:重测信度 (Test-retest)(再次进行测试)或 评分者信度 (Inter-rater)(两名观察者的记录是否一致?)。

效度 (Validity): 研究测量的是否真的是它宣称要测量的东西?
检查方式:生态效度 (Ecological validity)(是否像现实生活?)或 表面效度 (Face validity)(一眼看上去是否合理?)。

偏差 (Bias): 小心社会期许偏差 (Social Desirability)(参与者表现得比实际更好)以及研究者偏差 (Researcher Bias)(心理学家只看到他们想看的)。

伦理考量: 请务必记住 BPS 伦理准则。你必须确保尊重 (Respect)(知情同意)、胜任能力 (Competence)责任 (Responsibility)(事后说明)以及诚信 (Integrity)(除非必要,否则避免欺骗)。

最后小撇步: 当你撰写关于数据的报告时,一定要诚实说明其局限性。没有研究是完美的,承认这一点才是一位优秀心理学家的标志!