歡迎來到研究方法 2:進階技巧!
各位未來的心理學家,你們好!你們已經掌握了來自「研究方法 1」中實驗、觀察及初步數據分析的基礎知識。本章節研究方法 2 (3.3.3) 將會帶領你們將這些技巧提升到更高層次。
我們將深入探討研究人員如何確保研究結果的可信度(信度和效度),如何正式地呈現研究成果,以及最令人興奮的推論統計學 (inferential statistics)——這門能告訴我們研究結果到底是真實發現,還是純屬巧合的數學工具!
如果統計部分讓你感到畏懼,請別擔心。我們會將其拆解為簡單的決策過程。讀完本章後,你將能自信地閱讀並評論專業的心理學研究。讓我們開始吧!
第一部分:進階研究方法
1.1 內容分析法 (Content Analysis)
內容分析法是一種用於分析定性數據(如訪談記錄、日記或報紙文章),並將其轉化為可進行統計測試的定量數據(數字)的方法。你可以把它想像成系統性地計算主題或類別的過程。
如何進行內容分析法(步驟):
1. 取樣 (Sampling): 選擇你想分析的素材(例如:50 篇關於氣候變遷的報紙標題)。
2. 編碼 (Coding): 建立行為類別(或編碼單位)。這些是你將要尋找並計算的特定主題或詞彙。例子:如果是研究廣告,類別可能是「性別刻板印象」、「幽默感的運用」或「價格導向」。
3. 數據收集 (Data Collection): 檢閱素材,計算每個類別出現的次數。
4. 分析 (Analysis): 利用描述性統計(如計算平均頻率)或對產出的定量數據進行推論統計。
重點總結: 內容分析法將文字轉化為可測量的數據,這使得定性數據更容易進行比較和統計分析。
1.2 個案研究 (Case Studies)
個案研究是對個人、小群體、機構或事件進行密集且深入的調查。它們通常涉及在長時間內使用多種方法(訪談、觀察、病歷紀錄等)來收集數據。
經典例子:對 HM (Henry Molaison) 的研究,他在術後出現嚴重的記憶喪失,為了解海馬體在記憶形成中的作用提供了關鍵的洞見。
個案研究的優點與限制:
優點:
1. 細節豐富: 它們提供了大規模研究往往會忽略的深入、有意義的定性洞見。
2. 縱向研究 (Longitudinal): 它們通常能追蹤個案隨時間的變化。
3. 獨特現象: 這是研究罕見或特殊心理現象(如特定的腦損傷或童年創傷)的唯一途徑。
限制:
1. 缺乏概括性 (Lack of Generalisation): 由於樣本數量通常只有一人,研究結果無法可靠地推廣至更廣泛的人群。
2. 研究者偏差 (Researcher Bias): 由於研究者通常與受試者相處很長一段時間,存在失去客觀性的風險。
快速回顧: 內容分析法轉換數據;個案研究深入探索。
第二部分:確保高品質的研究——信度與效度
我們需要了解研究的品質如何。這可以透過兩個關鍵概念來檢查:信度 (Reliability)(一致性)和效度 (Validity)(準確性)。
2.1 信度
信度是指測量工具或研究的一致性。如果我們重複這項研究或再次測量同一事物,能否得到相同的結果?
記憶小撇步: 如果你能重複 (Repeat) 並得到相同結果,它就具有信度 (Reliability)。
評估信度的方法:
1. 重測信度 (Test-retest reliability):
評估心理測試(如問卷或智力測驗)的一致性。讓相同的受試者進行兩次測試(例如:間隔兩週)。如果分數相近,該測試即具備信度。
2. 觀察者間信度 (Inter-observer reliability,或稱評分者間信度):
評估觀察的一致性。如果兩名(或以上)研究者觀察相同的行為,他們對於行為類別的觀察與解讀應該要一致。如果結果高度相關(通常為 \(+0.80\) 或以上),則該觀察具備信度。
2.2 效度
效度是指研究是否真正測量了其宣稱要測量的東西。結果是真的嗎?
類比:一支溫度計總是比實際溫度高出 2 度,它是可靠的(一致的),但不具效度(不準確的)。
效度的類型:
1. 表面效度 (Face Validity):
最基本的衡量指標。測試或測量工具從表面上看,是否似乎測量了它應該測量的東西?例子:一個旨在測量焦慮的測試,應該包含與焦慮症狀明顯相關的問題。
2. 同時效度 (Concurrent Validity):
透過將新的測試或測量工具,與現有且已確立、測量相同事物的測試進行比較來評估。如果新測試的分數與經過驗證的舊測試分數呈正相關,則具備良好的同時效度。
3. 預測效度 (Predictive Validity):
該測試能否準確預測未來的行為或表現?例子:大學入學考試的高分應該能準確預測學生日後較好的學業表現。
4. 生態效度 (Ecological Validity):
研究是否反映了現實生活中的行為?在高度人工化的實驗室環境中進行的研究,通常生態效度較低。
評估效度時相關性的運用:
我們使用相關性來建立同時效度和預測效度。我們尋找的是新測量工具與現有標準之間顯著的正相關 (positive correlation)。強相關(接近 \(+1.00\))顯示新測量工具測量的是與已驗證標準相同的概念。
常見錯誤: 別把信度(一致性)和效度(準確性)搞混了。一個一致的(可靠的)結果可能完全是錯誤的(無效的)!
第三部分:設計與撰寫心理學調查報告
研究完成後,心理學家會撰寫正式的科學報告,以便他人審查並複製其研究結果。這些報告必須遵循標準化的結構。
科學報告的組成部分:
1. 摘要 (Abstract):
簡短的總結(通常為 150-250 字),涵蓋目的、方法、主要結果和結論。它讓讀者能快速判斷整份報告是否與他們相關。
2. 引言 (Introduction):
從廣泛的主題逐漸收窄至特定焦點。包含背景理論與過往研究(文獻回顧),並合乎邏輯地帶出當前研究的目的 (aim) 與假設 (hypotheses)。
3. 方法 (Method):
這部分的細節必須足以讓他人進行複製。描述內容包括:
(a) 設計: 實驗設計(如重複測量)、變數、控制變項。
(b) 參與者: 樣本大小、抽樣技術、人口統計資料(年齡、性別、地點)。
(c) 程序: 逐步描述實驗發生的過程,包括事後說明 (debriefing) 與倫理考量。
4. 結果 (Results):
呈現研究發現,包括描述性統計(表格、圖表、集中趨勢指標)以及推論統計測試的結果,包含計算出的數值、臨界值和顯著性水準。
5. 討論 (Discussion):
解釋結果的意義。根據假設與過往研究來詮釋發現,探討研究限制,並提出實際應用與未來的研究方向。
6. 參考文獻 (Referencing):
列出報告中引用的所有來源(書籍、期刊、網站),讓讀者能查閱相關資料。這能防止抄襲並展現學術專業。(通常使用 APA 格式)。
第四部分:數據處理與分析——推論統計測試
在這裡,我們不再僅僅是描述數據(如平均數等描述性統計),而是開始提問:「這個結果是重要的,還是純屬偶然?」這就是統計測試(推論統計)的目的。
4.1 機率、顯著性與誤差
進行實驗時,我們希望拒絕虛無假設 (null hypothesis)(即沒有影響),並接受對立假設 (alternative hypothesis)(即有影響)。
機率與顯著性
在心理學中,我們計算發現的差異是由隨機產生的機率 (P)。我們通常將顯著性水準設為 p ≤ 0.05(或 5%)。
p ≤ 0.05 的含義: 結果由偶然產生的機率只有 5%(或更低),而有 95%(或更高)的機率,結果是因為操作自變項 (IV) 而真正產生的。如果計算出的機率小於或等於 0.05,該結果就被視為統計上顯著 (statistically significant)。
統計表格與臨界值
當你執行統計測試時,會得到一個計算值 (calculated value)。你需要將此值與統計表格中的臨界值 (critical value) 進行比較。
臨界值充當了界線。要決定結果是否顯著,你必須根據以下三點檢查臨界值:
1. 顯著性水準(通常為 0.05)。
2. 參與者人數/自由度 (N)。
3. 假設是單尾檢定(有方向性)還是雙尾檢定(無方向性)。
規則: 對於許多測試,計算值必須大於或等於臨界值。對於少數測試(如符號檢定 Sign test 和 Wilcoxon 檢定),計算值必須小於或等於臨界值。(你必須查閱該特定測試的規則!)
第一類型誤差與第二類型誤差
由於我們依賴機率(而非 100% 的確定性),在詮釋顯著性水準時,我們有犯錯的風險。
1. 第一類型誤差 (Type I Error,誤報):
當我們實際上拒絕了虛無假設並接受對立假設,但現實中虛無假設才是正確的時候發生。我們斷定有影響,但其實沒有。
記憶小撇步:Type I = "I thought I found something!"(我以為我發現了什麼!)。發生在顯著性水準 (p) 太高時(例如 p≤0.10)。
2. 第二類型誤差 (Type II Error,漏報):
當我們接受了虛無假設,但現實中對立假設才是正確的時候發生。我們斷定沒有影響,但實際上漏掉了一個真實的影響。
記憶小撇步:Type II = "Too late, I missed the real effect."(太遲了,我錯過了真正的效果)。發生在顯著性水準 (p) 太低時(例如 p≤0.01)。
4.2 測量尺度
在選擇統計測試前,你必須確定所收集的測量尺度 (level of measurement)(即數據類型)。
1. 名義數據 (Nominal Data):
以類別或計數表示的數據(名稱/標籤)。沒有順序或等級之分。
例子:計算喜歡咖啡(類別 1)對比茶(類別 2)的人數。
2. 順序數據 (Ordinal Data):
可以排序或分等級,但等級間的間距不等或未知。
例子:滿意度評分 1 到 10 分。8 和 9 之間的差距可能與 2 和 3 之間的差距不相等。
3. 等距數據 (Interval Data):
使用相等間距單位測量的數據(如時間或溫度)。這是心理學中最精確的測量形式,因為數值單位是標準化的。
例子:以秒測量的反應時間(1 秒的差距在尺度上任何地方都是一樣的)。
影響統計測試選擇的因素:
要選擇正確的測試,必須考慮三件事:
1. 研究目的: 研究是在尋找組間的差異 (difference),還是變數間的關係 (relationship/correlation)?
2. 實驗設計: 如果尋找差異,設計是相關的(重複測量或配對組)還是不相關的(獨立組)?
3. 測量尺度: 數據是名義、順序還是等距?
4.3 何時使用特定的統計測試
你需要根據上述標準(目的、設計、數據層級)了解何時使用以下測試。
用於相關性 (關係) 的測試:
1. Spearman's rho (ρ): 用於檢查兩個變數之間的關係,適用於順序數據。
2. Pearson's r: 用於檢查兩個變數之間的關係,適用於等距數據。
用於差異 (實驗) 的測試:
A. 名義數據:
3. 卡方檢定 (Chi-squared test, χ²): 適用於名義數據,且設計為相關(使用 McNemar 版本)或更常見的不相關(獨立組)設計。
4. 符號檢定 (Sign test): 適用於名義數據及相關設計(重複測量),特別是數據僅測量正負差異的情況。
B. 順序數據:
5. Wilcoxon 檢定: 適用於順序數據及相關設計。
6. Mann-Whitney 檢定: 適用於順序數據及不相關設計。
C. 等距數據 (參數測試):
7. 相關樣本 t 檢定 (Related t-test): 適用於等距數據及相關設計。
8. 獨立樣本 t 檢定 (Unrelated t-test): 適用於等距數據及不相關設計。
快速選擇檢查清單(「地毯測試」技巧)
若要記憶測試的邏輯,請參考數據層級:
1. 名義 (類別):Chi-squared / Sign Test
2. 順序 (等級):Spearman / Wilcoxon / Mann-Whitney
3. 等距 (分數):Pearson / T-tests
你知道嗎? 「Chi-squared」這個詞來自希臘字母 chi (\(\chi\))。別擔心,你只需要知道何時使用它們,不需要學會如何計算!
重點總結: 推論測試決定了顯著性(通常 p≤0.05)。如果你的計算值超過臨界值門檻(務必查看該特定測試的規則!),你就拒絕虛無假設。選擇正確的測試至關重要,這完全取決於你的數據類型和實驗結構。