Research methods 2

欢迎来到研究方法 2：进阶技巧！

你好，未来的心理学家们！你们已经掌握了“研究方法 1”中关于实验、观察和初步数据分析的基础知识。本章——研究方法 2 (3.3.3)——将带你们把这些技能提升到一个新的高度。

我们将深入探讨研究人员如何确保研究结果的可信度（信度和效度）、如何正式地呈现研究工作，以及最令人兴奋的领域——推断统计学 (inferential statistics)。这是那种能告诉我们研究结果是真实的，还是仅仅由偶然因素造成的数学工具！

如果统计部分看起来让你望而生畏，别担心。我们会把它拆解为简单的决策步骤。读完本章后，你将能够自信地阅读和批判性地评价专业的心理学研究。让我们开始吧！

第一部分：进阶研究方法

1.1 内容分析法 (Content Analysis)

内容分析法是一种用于分析定性数据（如访谈记录、日记或报纸文章），并将其转化为定量数据（数字）以便进行统计检验的方法。你可以把它想象成对主题或类别进行系统化的计数。

如何进行内容分析（分步指南）：

1. 抽样 (Sampling)： 选择你想要分析的素材（例如，50条关于气候变化的报纸头条）。
2. 编码 (Coding)： 制定行为类别（或编码单元）。这些是你将要寻找和统计的具体主题或词汇。例子：如果研究广告，类别可能是“性别刻板印象”、“幽默的使用”或“价格焦点”。
3. 数据收集 (Data Collection)： 通读素材，统计每个类别出现的次数。
4. 分析 (Analysis)： 使用描述性统计（如计算平均频率）或对产生的定量数据进行推断统计。

核心重点： 内容分析法将文字转化为可测量的数据。这使得定性数据更容易比较，也更便于进行统计分析。

1.2 个案研究 (Case Studies)

个案研究是对一个人、一小群人、一个机构或一个事件进行的深入、详尽的调查。它们通常涉及在很长一段时间内使用多种方法（访谈、观察、病史记录等）收集数据。

经典案例：对 HM (Henry Molaison) 的研究。他在手术后出现严重的记忆丧失，为我们理解海马体在记忆形成中的作用提供了关键洞察。

个案研究的优势与局限性：

优势：
1. 细节丰富： 它们能提供大型研究往往忽略的深度、有意义且定性的见解。
2. 纵向研究 (Longitudinal)： 它们通常能追踪随时间发生的变化。
3. 独特的现象： 它们是研究罕见或特殊心理现象（如特定的脑损伤或童年创伤）的唯一途径。

局限性：
1. 缺乏概括性 (Lack of Generalisation)： 由于样本量通常只有一个人，研究结果无法可靠地推广到更广泛的人群。
2. 研究者偏差 (Researcher Bias)： 由于研究人员通常与参与者共处大量时间，存在失去客观性的风险。

快速回顾： 内容分析法用于转化数据；个案研究用于深度探索。

第二部分：确保研究质量——信度与效度

我们需要知道研究的质量如何。这通过两个关键概念来评估：信度 (Reliability)（一致性）和效度 (Validity)（准确性）。

2.1 信度 (Reliability)

信度指的是测量或研究的一致性程度。如果我们重复这项研究或再次测量同一事物，能否得到相同的结果？

记忆小贴士： 如果你能重复 (Repeat) 它并得到相同的结果，它就具有信度 (Reliability)。

评估信度的方法：

1. 重测信度 (Test-retest reliability)：
这评估心理测试（如问卷或智商测试）的一致性。让同一组参与者在两次测试（例如相隔两周）中接受测试。如果得分相似，说明测试具有信度。

2. 观察者间信度 (Inter-observer/Inter-rater reliability)：
这评估观察的一致性。如果有两名（或多名）研究者观察同一行为，他们对行为类别的观察和解读应保持一致。如果他们的结果高度相关（通常为 \(+0.80\) 或以上），则说明观察具有信度。

2.2 效度 (Validity)

效度指的是研究是否测量了它声称要测量的东西。结果是否真实有效？

类比：一个总是高出 2 度的温度计是可靠的（一致的），但不是有效的（不准确的）。

效度的类型：

1. 表面效度 (Face Validity)：
最基础的测量。从表面上看，该测试是否看起来测量了它应该测量的东西？例子：旨在测量焦虑的测试应当包含与焦虑症状明显相关的问题。

2. 共时效度 (Concurrent Validity)：
通过将一项新测试与现有的、经过验证的、测量相同内容的成熟测试进行比较来评估。如果新测试的分数与已验证测试的分数呈正相关，则说明它具有良好的共时效度。

3. 预测效度 (Predictive Validity)：
该测试是否能准确预测未来的行为或表现？例子：大学入学考试的高分应能准确预测未来的优异学术表现。

4. 生态效度 (Ecological Validity)：
该研究是否反映了现实生活中的行为？在高度人为控制的实验室环境中进行的研究通常生态效度较低。

利用相关性评估效度：

我们利用相关性来确定共时效度和预测效度。我们寻找的是新测量工具与现有标准之间的显著正相关。强相关（接近 \(+1.00\)）表明新工具测量的正是该标准所定义的构念。

要避免的常见错误： 不要混淆信度（一致性）和效度（准确性）。一个一致的（可靠的）结果可能完全是错误的（无效的）！

第三部分：设计与报告心理学调查

研究完成后，心理学家会撰写正式的科学报告，以便他人审查并重复研究结果。这些报告遵循标准化的结构。

科学报告的组成部分：

1. 摘要 (Abstract)：
一段简要的总结（通常为 150-250 字），涵盖目的、方法、主要结果和结论。它让读者能快速决定该报告是否与自己相关。

2. 引言 (Introduction)：
从宽泛背景转向具体问题。包括理论背景和先前的研究（文献综述），合乎逻辑地导出当前研究的目的 (aim) 和假设 (hypotheses)。

3. 方法 (Method)：
该部分详尽到足以支持重复实验。它描述：
(a) 设计： 实验设计（如重复测量设计）、变量、控制措施。
(b) 参与者： 样本量、抽样技术、人口统计学特征（年龄、性别、地点）。
(c) 程序： 对研究过程的分步描述，包括告知（debriefing）和伦理考量。

4. 结果 (Results)：
展示研究发现，包括描述性统计（表格、图表、集中趋势指标）和推断统计检验的结果，包括计算出的数值、临界值以及显著性水平。

5. 讨论 (Discussion)：
结果的意义。将研究结果与假设及前人研究联系起来进行解读。讨论研究的局限性，并提出实际应用和未来的研究方向。

6. 参考文献 (Referencing)：
报告中引用的所有来源（书籍、期刊、网站）列表，方便读者查阅。这可以防止剽窃并展示学术专业性。（通常使用 APA 格式）。

第四部分：数据处理与分析——推断统计检验

在这里，我们不再仅仅描述数据（如平均值等描述性统计），而是开始询问：“这个结果是重要的，还是纯属偶然？”这就是统计检验（推断统计）的目的。

4.1 概率、显著性与误差

当我们进行实验时，我们希望拒绝零假设 (null hypothesis)（即没有影响），并接受备择假设 (alternative hypothesis)（即存在影响）。

概率与显著性

在心理学中，我们计算发现的差异由随机因素导致的概率 (P)。我们通常将显著性水平设定为 p ≤ 0.05（即 5%）。

p ≤ 0.05 的含义： 结果由随机因素引起的概率仅为 5% 或更低，而有 95% 或更高的概率说明结果确实是由自变量 (IV) 的操纵引起的。如果计算出的概率小于或等于 0.05，则该结果被认为具有统计学显著性。

统计表与临界值

当你进行统计检验时，你会得到一个计算值 (calculated value)。你需要将此值与统计表中的临界值 (critical value) 进行比较。

临界值充当了边界线。要判断结果是否显著，必须根据三点检查临界值：
1. 显著性水平（通常为 0.05）。
2. 参与者数量/自由度 (N)。
3. 假设是单尾的（有方向性）还是双尾的（无方向性）。

规则： 对于许多检验，计算值必须大于或等于临界值。但对于少数检验（如符号检验 Sign test 和 Wilcoxon 检验），计算值必须小于或等于临界值。（你必须确认该特定检验的具体规则！）

I 型错误与 II 型错误

由于我们依赖于概率（而非 100% 的确定性），在解读显著性水平时可能会犯错。

1. I 型错误（假阳性）：
如果我们拒绝了零假设并接受了备择假设，但实际上零假设才是正确的，就会发生这种情况。即我们断定有影响，但实际上并没有。
记忆小贴士：I 型 = “我以为我发现了什么！”（虚假警报）。当显著性水平 (p) 设置得过高（例如 p≤0.10）时容易发生。

2. II 型错误（假阴性）：
如果我们接受了零假设，但实际上备择假设才是正确的，就会发生这种情况。即我们断定没有影响，但实际上错过了真实的影响。
记忆小贴士：II 型 = “太迟了，我错过了真实的影响。”当显著性水平 (p) 设置得过低（例如 p≤0.01）时容易发生。

4.2 测量层次

在选择统计检验前，必须确定所收集数据的测量层次 (level of measurement)（即数据类型）。

1. 类别数据 (Nominal Data)：
由独立类别或计数（名称/标签）表示的数据。没有顺序或排名。
例子：统计有多少人喜欢咖啡（类别 1）与茶（类别 2）。

2. 顺序数据 (Ordinal Data)：
可以排序或排名，但排名之间的间隔是不等或未知的。
例子：在 1 到 10 的量表上评价满意度。8 和 9 之间的差异可能并不等同于 2 和 3 之间的差异。

3. 等距数据 (Interval Data)：
使用等间隔单位测量的数据（如时间和温度）。这是心理学中最精确的测量形式，因为数值单位是标准化的。
例子：以秒为单位测量的反应时间（量表上任何位置的 1 秒差异都是相同的）。

影响统计检验选择的因素：

要选择正确的检验，必须考虑三点：
1. 研究目的： 研究是在寻找组间的差异，还是变量间的关系（相关性）？
2. 实验设计： 如果是在寻找差异，设计是相关的（重复测量或匹配对）还是不相关的（独立组）？
3. 测量层次： 数据是类别、顺序还是等距数据？

4.3 何时使用特定的统计检验

你需要根据上述标准（目的、设计、数据水平）明确何时使用以下检验：

差异检验（实验）：

A. 类别数据 (Nominal)：
3. 卡方检验 (Chi-squared test, χ²)： 数据为类别数据，且设计为相关设计（使用 McNemar 版本）或更常考的不相关设计（独立组设计）时使用。
4. 符号检验 (Sign test)： 数据为类别数据且为相关设计（重复测量），特别是当数据仅测量正负差异时使用。

B. 顺序数据 (Ordinal)：
5. Wilcoxon 检验： 数据为顺序数据且为相关设计时使用。
6. Mann-Whitney 检验： 数据为顺序数据且为不相关设计时使用。

C. 等距数据 (Interval)（参数检验）：
7. 相关 t 检验 (Related t-test)： 数据为等距数据且为相关设计时使用。
8. 不相关 t 检验 (Unrelated t-test)： 数据为等距数据且为不相关设计时使用。

快速选择清单（“地毯测试”技巧）

要记住这些检验的流程，可以按照数据水平来记：

1. 类别 (Nominal)：卡方检验 / 符号检验
2. 顺序 (Ordinal)：Spearman / Wilcoxon / Mann-Whitney
3. 等距 (Interval)：Pearson / t 检验

你知道吗？ “卡方 (Chi-squared)”这个词来自希腊字母 chi (\(\chi\))。别担心，你只需要知道何时使用它们，而不需要学习如何计算！

核心重点： 推断统计检验用于确定显著性（通常 p≤0.05）。如果你的计算值通过了临界值门槛（请查看该特定检验的规则！），你就拒绝零假设。检验的选择至关重要，完全取决于你的数据类型和实验结构。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。