Research methods 2 - Psychology (9685) - Oxford AQA International A-level

歡迎來到研究方法 2：進階技巧！

各位未來的心理學家，你們好！你們已經掌握了來自「研究方法 1」中實驗、觀察及初步數據分析的基礎知識。本章節研究方法 2 (3.3.3) 將會帶領你們將這些技巧提升到更高層次。

我們將深入探討研究人員如何確保研究結果的可信度（信度和效度），如何正式地呈現研究成果，以及最令人興奮的推論統計學 (inferential statistics)——這門能告訴我們研究結果到底是真實發現，還是純屬巧合的數學工具！

如果統計部分讓你感到畏懼，請別擔心。我們會將其拆解為簡單的決策過程。讀完本章後，你將能自信地閱讀並評論專業的心理學研究。讓我們開始吧！

第一部分：進階研究方法

1.1 內容分析法 (Content Analysis)

內容分析法是一種用於分析定性數據（如訪談記錄、日記或報紙文章），並將其轉化為可進行統計測試的定量數據（數字）的方法。你可以把它想像成系統性地計算主題或類別的過程。

如何進行內容分析法（步驟）：

1. 取樣 (Sampling)： 選擇你想分析的素材（例如：50 篇關於氣候變遷的報紙標題）。
2. 編碼 (Coding)： 建立行為類別（或編碼單位）。這些是你將要尋找並計算的特定主題或詞彙。例子：如果是研究廣告，類別可能是「性別刻板印象」、「幽默感的運用」或「價格導向」。
3. 數據收集 (Data Collection)： 檢閱素材，計算每個類別出現的次數。
4. 分析 (Analysis)： 利用描述性統計（如計算平均頻率）或對產出的定量數據進行推論統計。

重點總結： 內容分析法將文字轉化為可測量的數據，這使得定性數據更容易進行比較和統計分析。

1.2 個案研究 (Case Studies)

個案研究是對個人、小群體、機構或事件進行密集且深入的調查。它們通常涉及在長時間內使用多種方法（訪談、觀察、病歷紀錄等）來收集數據。

經典例子：對 HM (Henry Molaison) 的研究，他在術後出現嚴重的記憶喪失，為了解海馬體在記憶形成中的作用提供了關鍵的洞見。

個案研究的優點與限制：

優點：
1. 細節豐富： 它們提供了大規模研究往往會忽略的深入、有意義的定性洞見。
2. 縱向研究 (Longitudinal)： 它們通常能追蹤個案隨時間的變化。
3. 獨特現象： 這是研究罕見或特殊心理現象（如特定的腦損傷或童年創傷）的唯一途徑。

限制：
1. 缺乏概括性 (Lack of Generalisation)： 由於樣本數量通常只有一人，研究結果無法可靠地推廣至更廣泛的人群。
2. 研究者偏差 (Researcher Bias)： 由於研究者通常與受試者相處很長一段時間，存在失去客觀性的風險。

快速回顧： 內容分析法轉換數據；個案研究深入探索。

第二部分：確保高品質的研究——信度與效度

我們需要了解研究的品質如何。這可以透過兩個關鍵概念來檢查：信度 (Reliability)（一致性）和效度 (Validity)（準確性）。

2.1 信度

信度是指測量工具或研究的一致性。如果我們重複這項研究或再次測量同一事物，能否得到相同的結果？

記憶小撇步： 如果你能重複 (Repeat) 並得到相同結果，它就具有信度 (Reliability)。

評估信度的方法：

1. 重測信度 (Test-retest reliability)：
評估心理測試（如問卷或智力測驗）的一致性。讓相同的受試者進行兩次測試（例如：間隔兩週）。如果分數相近，該測試即具備信度。

2. 觀察者間信度 (Inter-observer reliability，或稱評分者間信度)：
評估觀察的一致性。如果兩名（或以上）研究者觀察相同的行為，他們對於行為類別的觀察與解讀應該要一致。如果結果高度相關（通常為 \(+0.80\) 或以上），則該觀察具備信度。

2.2 效度

效度是指研究是否真正測量了其宣稱要測量的東西。結果是真的嗎？

類比：一支溫度計總是比實際溫度高出 2 度，它是可靠的（一致的），但不具效度（不準確的）。

效度的類型：

1. 表面效度 (Face Validity)：
最基本的衡量指標。測試或測量工具從表面上看，是否似乎測量了它應該測量的東西？例子：一個旨在測量焦慮的測試，應該包含與焦慮症狀明顯相關的問題。

2. 同時效度 (Concurrent Validity)：
透過將新的測試或測量工具，與現有且已確立、測量相同事物的測試進行比較來評估。如果新測試的分數與經過驗證的舊測試分數呈正相關，則具備良好的同時效度。

3. 預測效度 (Predictive Validity)：
該測試能否準確預測未來的行為或表現？例子：大學入學考試的高分應該能準確預測學生日後較好的學業表現。

4. 生態效度 (Ecological Validity)：
研究是否反映了現實生活中的行為？在高度人工化的實驗室環境中進行的研究，通常生態效度較低。

評估效度時相關性的運用：

我們使用相關性來建立同時效度和預測效度。我們尋找的是新測量工具與現有標準之間顯著的正相關 (positive correlation)。強相關（接近 \(+1.00\)）顯示新測量工具測量的是與已驗證標準相同的概念。

常見錯誤： 別把信度（一致性）和效度（準確性）搞混了。一個一致的（可靠的）結果可能完全是錯誤的（無效的）！

第三部分：設計與撰寫心理學調查報告

研究完成後，心理學家會撰寫正式的科學報告，以便他人審查並複製其研究結果。這些報告必須遵循標準化的結構。

科學報告的組成部分：

1. 摘要 (Abstract)：
簡短的總結（通常為 150-250 字），涵蓋目的、方法、主要結果和結論。它讓讀者能快速判斷整份報告是否與他們相關。

2. 引言 (Introduction)：
從廣泛的主題逐漸收窄至特定焦點。包含背景理論與過往研究（文獻回顧），並合乎邏輯地帶出當前研究的目的 (aim) 與假設 (hypotheses)。

3. 方法 (Method)：
這部分的細節必須足以讓他人進行複製。描述內容包括：
(a) 設計： 實驗設計（如重複測量）、變數、控制變項。
(b) 參與者： 樣本大小、抽樣技術、人口統計資料（年齡、性別、地點）。
(c) 程序： 逐步描述實驗發生的過程，包括事後說明 (debriefing) 與倫理考量。

4. 結果 (Results)：
呈現研究發現，包括描述性統計（表格、圖表、集中趨勢指標）以及推論統計測試的結果，包含計算出的數值、臨界值和顯著性水準。

5. 討論 (Discussion)：
解釋結果的意義。根據假設與過往研究來詮釋發現，探討研究限制，並提出實際應用與未來的研究方向。

6. 參考文獻 (Referencing)：
列出報告中引用的所有來源（書籍、期刊、網站），讓讀者能查閱相關資料。這能防止抄襲並展現學術專業。（通常使用 APA 格式）。

第四部分：數據處理與分析——推論統計測試

在這裡，我們不再僅僅是描述數據（如平均數等描述性統計），而是開始提問：「這個結果是重要的，還是純屬偶然？」這就是統計測試（推論統計）的目的。

4.1 機率、顯著性與誤差

進行實驗時，我們希望拒絕虛無假設 (null hypothesis)（即沒有影響），並接受對立假設 (alternative hypothesis)（即有影響）。

機率與顯著性

在心理學中，我們計算發現的差異是由隨機產生的機率 (P)。我們通常將顯著性水準設為 p ≤ 0.05（或 5%）。

p ≤ 0.05 的含義： 結果由偶然產生的機率只有 5%（或更低），而有 95%（或更高）的機率，結果是因為操作自變項 (IV) 而真正產生的。如果計算出的機率小於或等於 0.05，該結果就被視為統計上顯著 (statistically significant)。

統計表格與臨界值

當你執行統計測試時，會得到一個計算值 (calculated value)。你需要將此值與統計表格中的臨界值 (critical value) 進行比較。

臨界值充當了界線。要決定結果是否顯著，你必須根據以下三點檢查臨界值：
1. 顯著性水準（通常為 0.05）。
2. 參與者人數/自由度 (N)。
3. 假設是單尾檢定（有方向性）還是雙尾檢定（無方向性）。

規則： 對於許多測試，計算值必須大於或等於臨界值。對於少數測試（如符號檢定 Sign test 和 Wilcoxon 檢定），計算值必須小於或等於臨界值。（你必須查閱該特定測試的規則！）

第一類型誤差與第二類型誤差

由於我們依賴機率（而非 100% 的確定性），在詮釋顯著性水準時，我們有犯錯的風險。

1. 第一類型誤差 (Type I Error，誤報)：
當我們實際上拒絕了虛無假設並接受對立假設，但現實中虛無假設才是正確的時候發生。我們斷定有影響，但其實沒有。
記憶小撇步：Type I = "I thought I found something!"（我以為我發現了什麼！）。發生在顯著性水準 (p) 太高時（例如 p≤0.10）。

2. 第二類型誤差 (Type II Error，漏報)：
當我們接受了虛無假設，但現實中對立假設才是正確的時候發生。我們斷定沒有影響，但實際上漏掉了一個真實的影響。
記憶小撇步：Type II = "Too late, I missed the real effect."（太遲了，我錯過了真正的效果）。發生在顯著性水準 (p) 太低時（例如 p≤0.01）。

4.2 測量尺度

在選擇統計測試前，你必須確定所收集的測量尺度 (level of measurement)（即數據類型）。

1. 名義數據 (Nominal Data)：
以類別或計數表示的數據（名稱/標籤）。沒有順序或等級之分。
例子：計算喜歡咖啡（類別 1）對比茶（類別 2）的人數。

2. 順序數據 (Ordinal Data)：
可以排序或分等級，但等級間的間距不等或未知。
例子：滿意度評分 1 到 10 分。8 和 9 之間的差距可能與 2 和 3 之間的差距不相等。

3. 等距數據 (Interval Data)：
使用相等間距單位測量的數據（如時間或溫度）。這是心理學中最精確的測量形式，因為數值單位是標準化的。
例子：以秒測量的反應時間（1 秒的差距在尺度上任何地方都是一樣的）。

影響統計測試選擇的因素：

要選擇正確的測試，必須考慮三件事：
1. 研究目的： 研究是在尋找組間的差異 (difference)，還是變數間的關係 (relationship/correlation)？
2. 實驗設計： 如果尋找差異，設計是相關的（重複測量或配對組）還是不相關的（獨立組）？
3. 測量尺度： 數據是名義、順序還是等距？

4.3 何時使用特定的統計測試

你需要根據上述標準（目的、設計、數據層級）了解何時使用以下測試。

用於相關性 (關係) 的測試：

1. Spearman's rho (ρ)： 用於檢查兩個變數之間的關係，適用於順序數據。
2. Pearson's r： 用於檢查兩個變數之間的關係，適用於等距數據。

用於差異 (實驗) 的測試：

A. 名義數據：
3. 卡方檢定 (Chi-squared test, χ²)： 適用於名義數據，且設計為相關（使用 McNemar 版本）或更常見的不相關（獨立組）設計。
4. 符號檢定 (Sign test)： 適用於名義數據及相關設計（重複測量），特別是數據僅測量正負差異的情況。

B. 順序數據：
5. Wilcoxon 檢定： 適用於順序數據及相關設計。
6. Mann-Whitney 檢定： 適用於順序數據及不相關設計。

C. 等距數據 (參數測試)：
7. 相關樣本 t 檢定 (Related t-test)： 適用於等距數據及相關設計。
8. 獨立樣本 t 檢定 (Unrelated t-test)： 適用於等距數據及不相關設計。

快速選擇檢查清單（「地毯測試」技巧）

若要記憶測試的邏輯，請參考數據層級：

1. 名義 (類別)：Chi-squared / Sign Test
2. 順序 (等級)：Spearman / Wilcoxon / Mann-Whitney
3. 等距 (分數)：Pearson / T-tests

你知道嗎？ 「Chi-squared」這個詞來自希臘字母 chi (\(\chi\))。別擔心，你只需要知道何時使用它們，不需要學會如何計算！

重點總結： 推論測試決定了顯著性（通常 p≤0.05）。如果你的計算值超過臨界值門檻（務必查看該特定測試的規則！），你就拒絕虛無假設。選擇正確的測試至關重要，這完全取決於你的數據類型和實驗結構。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。