雙變量數據簡介
歡迎來到雙變量數據(Bivariate Data)的世界!雖然「單變量」數據每次只看一個面向(例如學生的身高),但雙變量數據的核心在於探討變量之間的關係。我們觀察同一個體上的兩個不同變量,看看它們是否相關。例如,你玩遊戲的時間會不會影響你的反應速度呢?
在這一章,我們將學習如何將這些關係視覺化、衡量它們的強度,甚至進行預測。別擔心公式一開始看起來很嚇人——大部分的繁瑣計算都可以交給計算機處理!
1. 雙變量數據的兩種類型
在開始計算之前,我們需要了解數據是如何收集的。MEI 課程大綱將其分為兩種情況:
情況 A:隨機對非隨機(Random on Non-Random)
這種情況發生在實驗者控制其中一個變量(自變量,\(x\))並測量另一個變量(因變量,\(y\))時。
例子: 一位科學家決定分別測試 10g、20g 和 30g 的彈簧。重量是固定的(非隨機),但彈簧的伸長量會略有變化(隨機)。
情況 B:隨機對隨機(Random on Random)
這是指我們觀察兩個自然發生的現象,兩者我們都不進行控制。
例子: 測量 50 個隨機選定的人的身高和體重。身高和體重都是隨機變量。在圖表上,這通常看起來像是一團「數據雲」。
快速回顧:
• 情況 A: 有一個變量是被控制的(例如:「我選擇了這些特定的時間」)。
• 情況 B: 兩個變量都是測量得出的(例如:「我只是記錄了我所觀察到的結果」)。
2. 散點圖(Scatter Diagrams)
散點圖是我們研究的第一站。它幫助我們觀察兩個變量之間的關係(或稱相關性/Correlation)。
- 自變量 (\(x\)): 通常放在橫軸上。在情況 A 中,這就是你所控制的變量。
- 因變量 (\(y\)): 放在縱軸上。
- 離群值(Outliers): 這些是不符合整體規律的數據點。我們最初可以「肉眼」辨識這些點。
你知道嗎? 軟體繪製的散點圖通常會包含一條「趨勢線」和一個 \(r^2\) 值。\(r^2\) 越接近 1,這條線對數據的擬合程度就越好!
3. 皮爾遜積矩相關係數(Pearson’s Product Moment Correlation Coefficient, PMCC)
PMCC(以字母 \(r\) 表示)衡量的是線性關係的強度。它的值總是在 -1 到 +1 之間。
- \(r = +1\): 完美的正線性相關(一條完美的向上的直線)。
- \(r = 0\): 沒有線性相關。
- \(r = -1\): 完美的負線性相關(一條完美的向下的直線)。
什麼時候適合使用 \(r\)?
要使 PMCC 的假設檢定有效,數據必須遵循雙變量常態分佈(Bivariate Normal Distribution)。你通常無法證明這一點,但你可以觀察散點圖上的點是否呈現橢圓形(像橄欖球狀)的雲團。如果數據呈現偏態、雙峰或非線性,那麼 PMCC 就不是正確的工具!
PMCC 的假設檢定
我們檢定在整個母體中是否存在相關性的證據(以希臘字母 \(\rho\) 表示,讀作 'rho')。
- 虛無假設 (\(H_0\)): \(\rho = 0\)(母體中沒有相關性)。
- 對立假設 (\(H_1\)): \(\rho > 0\)、\(\rho < 0\)(單尾)或 \(\rho \neq 0\)(雙尾)。
- 檢定統計量: 你計算出的 \(r\) 值。
- 決策: 將你的 \(p\)-值與顯著性水平比較,或者將你的 \(r\) 值與查表得出的臨界值比較。
常見錯誤: 永遠不要說「這證明了」存在相關性。請使用較保守的語句,例如:「有足夠的證據顯示……之間存在正相關。」
4. 斯皮爾曼等級相關係數(Spearman’s Rank Correlation Coefficient, \(r_s\))
有時數據不是線性的,或者比較「雜亂」。斯皮爾曼等級相關係數用於尋找關聯性,而不僅僅是線性相關。它衡量的是關係有多單調(monotonic)(即一個變量增加時,另一個變量是否通常也會增加,即使它不是直線?)。
步驟流程:
1. 將你的 \(x\) 值按等級排序(最小的為 1,以此類推)。
2. 將你的 \(y\) 值按等級排序。
3. 使用計算機計算這些等級的 PMCC。這個值就是你的 \(r_s\)。
鼓勵小貼士: 別擔心「並列等級(tied ranks)」(即兩個數值相同的情況)。MEI 的 Minor 部分大綱排除了手動計算這些情況的要求!
PMCC 與 Spearman 的比較:該用哪一個?
- 如果數據是線性的,且看起來像雙變量常態「雲團」,請使用 PMCC (\(r\))。
- 如果數據是非線性的(但呈現單調關係),或者你對常態分佈的假設有疑慮,請使用 Spearman (\(r_s\))。
5. 線性回歸(Linear Regression)
回歸的目的在於找到「最佳擬合線」。我們使用最小二乘法(Least Squares),這能使點到線的垂直距離的平方和達到最小。
兩條回歸線
在情況 B(隨機對隨機)中,其實有兩條線!
- \(y\) 對 \(x\) 的回歸線: 當你知道 \(x\) 時,用它來估計 \(y\)。它最小化的是垂直距離。
- \(x\) 對 \(y\) 的回歸線: 當你知道 \(y\) 時,用它來估計 \(x\)。它最小化的是水平距離。
關鍵事實: 兩條線都一定會經過平均值點 \((\bar{x}, \bar{y})\)。
殘差(Residuals)
殘差是實際觀測值與回歸線預測值之間的差。
\(殘差 = 觀測到的\,y - 預測的\,y\)
如果殘差很小且隨機分佈,說明你的線性模型擬合得很好!
6. 進行預測
我們使用回歸方程式 \(y = a + bx\) 來預測數值。但是,你必須小心:
- 內插法(Interpolation): 預測數據範圍之內的值。這通常是可靠的。
- 外插法(Extrapolation): 預測數據範圍之外的值。這是危險的,因為線性趨勢可能不會持續下去!
類比: 內插法就像猜測一部你看過開頭和結尾的電影的中段劇情。外插法就像僅憑第一部電影就試圖猜測續集會發生什麼事——你可能會完全猜錯!
重點總結:
• PMCC (\(r\)) 衡量線性強度;需要「常態分佈雲團」。
• Spearman (\(r_s\)) 使用等級衡量關聯性;不需要常態分佈假設。
• 假設檢定始於 \(H_0: 無相關性\)。
• 回歸線用於預測:盡量使用內插法,少用外插法!