欢迎来到研究方法 2:进阶技巧!

你好,未来的心理学家们!你们已经掌握了“研究方法 1”中关于实验、观察和初步数据分析的基础知识。本章——研究方法 2 (3.3.3)——将带你们把这些技能提升到一个新的高度。

我们将深入探讨研究人员如何确保研究结果的可信度(信度和效度)、如何正式地呈现研究工作,以及最令人兴奋的领域——推断统计学 (inferential statistics)。这是那种能告诉我们研究结果是真实的,还是仅仅由偶然因素造成的数学工具!

如果统计部分看起来让你望而生畏,别担心。我们会把它拆解为简单的决策步骤。读完本章后,你将能够自信地阅读和批判性地评价专业的心理学研究。让我们开始吧!

第一部分:进阶研究方法

1.1 内容分析法 (Content Analysis)

内容分析法是一种用于分析定性数据(如访谈记录、日记或报纸文章),并将其转化为定量数据(数字)以便进行统计检验的方法。你可以把它想象成对主题或类别进行系统化的计数。

如何进行内容分析(分步指南):

1. 抽样 (Sampling): 选择你想要分析的素材(例如,50条关于气候变化的报纸头条)。
2. 编码 (Coding): 制定行为类别(或编码单元)。这些是你将要寻找和统计的具体主题或词汇。例子:如果研究广告,类别可能是“性别刻板印象”、“幽默的使用”或“价格焦点”。
3. 数据收集 (Data Collection): 通读素材,统计每个类别出现的次数。
4. 分析 (Analysis): 使用描述性统计(如计算平均频率)或对产生的定量数据进行推断统计。

核心重点: 内容分析法将文字转化为可测量的数据。这使得定性数据更容易比较,也更便于进行统计分析。

1.2 个案研究 (Case Studies)

个案研究是对一个人、一小群人、一个机构或一个事件进行的深入、详尽的调查。它们通常涉及在很长一段时间内使用多种方法(访谈、观察、病史记录等)收集数据。

经典案例:对 HM (Henry Molaison) 的研究。他在手术后出现严重的记忆丧失,为我们理解海马体在记忆形成中的作用提供了关键洞察。

个案研究的优势与局限性:

优势:
1. 细节丰富: 它们能提供大型研究往往忽略的深度、有意义且定性的见解。
2. 纵向研究 (Longitudinal): 它们通常能追踪随时间发生的变化。
3. 独特的现象: 它们是研究罕见或特殊心理现象(如特定的脑损伤或童年创伤)的唯一途径。

局限性:
1. 缺乏概括性 (Lack of Generalisation): 由于样本量通常只有一个人,研究结果无法可靠地推广到更广泛的人群。
2. 研究者偏差 (Researcher Bias): 由于研究人员通常与参与者共处大量时间,存在失去客观性的风险。

快速回顾: 内容分析法用于转化数据;个案研究用于深度探索。

第二部分:确保研究质量——信度与效度

我们需要知道研究的质量如何。这通过两个关键概念来评估:信度 (Reliability)(一致性)和效度 (Validity)(准确性)。

2.1 信度 (Reliability)

信度指的是测量或研究的一致性程度。如果我们重复这项研究或再次测量同一事物,能否得到相同的结果?

记忆小贴士: 如果你能复 (Repeat) 它并得到相同的结果,它就具有度 (Reliability)。

评估信度的方法:

1. 重测信度 (Test-retest reliability):
这评估心理测试(如问卷或智商测试)的一致性。让同一组参与者在两次测试(例如相隔两周)中接受测试。如果得分相似,说明测试具有信度。

2. 观察者间信度 (Inter-observer/Inter-rater reliability):
这评估观察的一致性。如果有两名(或多名)研究者观察同一行为,他们对行为类别的观察和解读应保持一致。如果他们的结果高度相关(通常为 \(+0.80\) 或以上),则说明观察具有信度。

2.2 效度 (Validity)

效度指的是研究是否测量了它声称要测量的东西。结果是否真实有效?

类比:一个总是高出 2 度的温度计是可靠的(一致的),但不是有效的(不准确的)。

效度的类型:

1. 表面效度 (Face Validity):
最基础的测量。从表面上看,该测试是否看起来测量了它应该测量的东西?例子:旨在测量焦虑的测试应当包含与焦虑症状明显相关的问题。

2. 共时效度 (Concurrent Validity):
通过将一项新测试与现有的、经过验证的、测量相同内容的成熟测试进行比较来评估。如果新测试的分数与已验证测试的分数呈正相关,则说明它具有良好的共时效度。

3. 预测效度 (Predictive Validity):
该测试是否能准确预测未来的行为或表现?例子:大学入学考试的高分应能准确预测未来的优异学术表现。

4. 生态效度 (Ecological Validity):
该研究是否反映了现实生活中的行为?在高度人为控制的实验室环境中进行的研究通常生态效度较低。

利用相关性评估效度:

我们利用相关性来确定共时效度和预测效度。我们寻找的是新测量工具与现有标准之间的显著正相关。强相关(接近 \(+1.00\))表明新工具测量的正是该标准所定义的构念。

要避免的常见错误: 不要混淆信度(一致性)和效度(准确性)。一个一致的(可靠的)结果可能完全是错误的(无效的)!

第三部分:设计与报告心理学调查

研究完成后,心理学家会撰写正式的科学报告,以便他人审查并重复研究结果。这些报告遵循标准化的结构。

科学报告的组成部分:

1. 摘要 (Abstract):
一段简要的总结(通常为 150-250 字),涵盖目的、方法、主要结果和结论。它让读者能快速决定该报告是否与自己相关。

2. 引言 (Introduction):
从宽泛背景转向具体问题。包括理论背景和先前的研究(文献综述),合乎逻辑地导出当前研究的目的 (aim)假设 (hypotheses)

3. 方法 (Method):
该部分详尽到足以支持重复实验。它描述:
(a) 设计: 实验设计(如重复测量设计)、变量、控制措施。
(b) 参与者: 样本量、抽样技术、人口统计学特征(年龄、性别、地点)。
(c) 程序: 对研究过程的分步描述,包括告知(debriefing)和伦理考量。

4. 结果 (Results):
展示研究发现,包括描述性统计(表格、图表、集中趋势指标)和推断统计检验的结果,包括计算出的数值、临界值以及显著性水平。

5. 讨论 (Discussion):
结果的意义。将研究结果与假设及前人研究联系起来进行解读。讨论研究的局限性,并提出实际应用和未来的研究方向。

6. 参考文献 (Referencing):
报告中引用的所有来源(书籍、期刊、网站)列表,方便读者查阅。这可以防止剽窃并展示学术专业性。(通常使用 APA 格式)。

第四部分:数据处理与分析——推断统计检验

在这里,我们不再仅仅描述数据(如平均值等描述性统计),而是开始询问:“这个结果是重要的,还是纯属偶然?”这就是统计检验(推断统计)的目的

4.1 概率、显著性与误差

当我们进行实验时,我们希望拒绝零假设 (null hypothesis)(即没有影响),并接受备择假设 (alternative hypothesis)(即存在影响)。

概率与显著性

在心理学中,我们计算发现的差异由随机因素导致的概率 (P)。我们通常将显著性水平设定为 p ≤ 0.05(即 5%)。

p ≤ 0.05 的含义: 结果由随机因素引起的概率仅为 5% 或更低,而有 95% 或更高的概率说明结果确实是由自变量 (IV) 的操纵引起的。如果计算出的概率小于或等于 0.05,则该结果被认为具有统计学显著性

统计表与临界值

当你进行统计检验时,你会得到一个计算值 (calculated value)。你需要将此值与统计表中的临界值 (critical value) 进行比较。

临界值充当了边界线。要判断结果是否显著,必须根据三点检查临界值:
1. 显著性水平(通常为 0.05)。
2. 参与者数量/自由度 (N)。
3. 假设是单尾的(有方向性)还是双尾的(无方向性)。

规则: 对于许多检验,计算值必须大于或等于临界值。但对于少数检验(如符号检验 Sign test 和 Wilcoxon 检验),计算值必须小于或等于临界值。(你必须确认该特定检验的具体规则!)

I 型错误与 II 型错误

由于我们依赖于概率(而非 100% 的确定性),在解读显著性水平时可能会犯错。

1. I 型错误(假阳性):
如果我们拒绝了零假设并接受了备择假设,但实际上零假设才是正确的,就会发生这种情况。即我们断定有影响,但实际上并没有。
记忆小贴士:I 型 = “我以为我发现了什么!”(虚假警报)。当显著性水平 (p) 设置得过高(例如 p≤0.10)时容易发生。

2. II 型错误(假阴性):
如果我们接受了零假设,但实际上备择假设才是正确的,就会发生这种情况。即我们断定没有影响,但实际上错过了真实的影响。
记忆小贴士:II 型 = “太迟了,我错过了真实的影响。”当显著性水平 (p) 设置得过低(例如 p≤0.01)时容易发生。

4.2 测量层次

在选择统计检验前,必须确定所收集数据的测量层次 (level of measurement)(即数据类型)。

1. 类别数据 (Nominal Data):
由独立类别或计数(名称/标签)表示的数据。没有顺序或排名。
例子:统计有多少人喜欢咖啡(类别 1)与茶(类别 2)。

2. 顺序数据 (Ordinal Data):
可以排序或排名,但排名之间的间隔是不等或未知的。
例子:在 1 到 10 的量表上评价满意度。8 和 9 之间的差异可能并不等同于 2 和 3 之间的差异。

3. 等距数据 (Interval Data):
使用等间隔单位测量的数据(如时间和温度)。这是心理学中最精确的测量形式,因为数值单位是标准化的。
例子:以秒为单位测量的反应时间(量表上任何位置的 1 秒差异都是相同的)。

影响统计检验选择的因素:

要选择正确的检验,必须考虑三点:
1. 研究目的: 研究是在寻找组间的差异,还是变量间的关系(相关性)?
2. 实验设计: 如果是在寻找差异,设计是相关的(重复测量或匹配对)还是不相关的(独立组)?
3. 测量层次: 数据是类别、顺序还是等距数据?

4.3 何时使用特定的统计检验

你需要根据上述标准(目的、设计、数据水平)明确何时使用以下检验:

相关性检验(关系):

1. Spearman's rho (ρ): 当数据为顺序数据 (Ordinal) 时,用于检查两个变量间的关系。
2. Pearson's r: 当数据为等距数据 (Interval) 时,用于检查两个变量间的关系。

差异检验(实验):

A. 类别数据 (Nominal):
3. 卡方检验 (Chi-squared test, χ²): 数据为类别数据,且设计为相关设计(使用 McNemar 版本)或更常考的不相关设计(独立组设计)时使用。
4. 符号检验 (Sign test): 数据为类别数据且为相关设计(重复测量),特别是当数据仅测量正负差异时使用。

B. 顺序数据 (Ordinal):
5. Wilcoxon 检验: 数据为顺序数据且为相关设计时使用。
6. Mann-Whitney 检验: 数据为顺序数据且为不相关设计时使用。

C. 等距数据 (Interval)(参数检验):
7. 相关 t 检验 (Related t-test): 数据为等距数据且为相关设计时使用。
8. 不相关 t 检验 (Unrelated t-test): 数据为等距数据且为不相关设计时使用。

快速选择清单(“地毯测试”技巧)

要记住这些检验的流程,可以按照数据水平来记:

1. 类别 (Nominal):卡方检验 / 符号检验
2. 顺序 (Ordinal):Spearman / Wilcoxon / Mann-Whitney
3. 等距 (Interval):Pearson / t 检验

你知道吗? “卡方 (Chi-squared)”这个词来自希腊字母 chi (\(\chi\))。别担心,你只需要知道何时使用它们,而不需要学习如何计算!

核心重点: 推断统计检验用于确定显著性(通常 p≤0.05)。如果你的计算值通过了临界值门槛(请查看该特定检验的规则!),你就拒绝零假设。检验的选择至关重要,完全取决于你的数据类型和实验结构。