歡迎來到雙變量數據的世界!
在本章中,我們將探討兩個不同變量之間的關係。你可以把它想像成數學界的「配對服務」——我們想找出一個變量的變化(例如你的溫習時間)是否與另一個變量的變化(例如你的考試成績)有關聯。讀完這些筆記後,你將學會如何將這些關係視覺化、衡量它們的強弱,甚至預測未來的數值。如果一開始覺得術語有點多,別擔心,我們會一步一步來!
1. 雙變量數據的兩種類型
在我們開始繪圖之前,我們必須先了解我們正在測量的是什麼。在進階數學(Further Maths)的世界裡,我們將雙變量數據分為兩類「情況」(Cases):
情況 A:隨機變量對非隨機變量(Random on Non-Random)
這種情況發生在實驗者控制其中一個變量(自變量,通常為 \(x\)),並測量另一個變量(因變量,\(y\))時。
例子: 你決定測試一條彈簧,掛上特定的重量(2kg, 4kg, 6kg)並測量它的伸長量。重量是你選擇的,所以它們不是「隨機」的,但彈簧的伸長量則是隨機的。
情況 B:隨機變量對隨機變量(Random on Random)
這種情況發生在兩個變量都是自然發生,而我們只是觀察它們時。兩者均不受人為控制。
例子: 你測量 50 名隨機學生的身高和體重。你並沒有「選擇」一名學生剛好 170cm 高;身高和體重都是隨機變量。這種情況在圖表上通常看起來像是一團「數據雲」。
快速回顧:
• 情況 A: 其中一個受控(就像實驗室裡的科學家)。
• 情況 B: 兩個都是隨機的(就像觀察自然現象)。
重點提示: 辨識情況非常重要,因為這會改變我們日後詮釋結果的方式!
2. 散佈圖(Scatter Diagrams)
散佈圖是我們的首選分析工具。它是一種視覺化呈現方式,每個數據對都會在網格上顯示為一個點。
如何建立:
1. 自變量(或你控制的變量)放在水平的 \(x\)軸。
2. 因變量(你測量的變量)放在垂直的 \(y\)軸。
3. 尋找極端值(Outliers):這些點「不符合」整體規律。它們可能是測量誤差,也可能是非常特殊的案例。
你知道嗎? 軟件通常會為你繪製一條「趨勢線」。它有時還會給你一個稱為 \(r^2\) 的值。這告訴你 \(y\) 的變化中有多少比例是由 \(x\) 的變化所解釋的。
重點提示: 永遠先觀察散佈圖。如果這些點看起來雜亂無章,線性模型可能並非最佳選擇!
3. 衡量相關性:皮爾遜積動差相關係數(PMCC,\(r\))
皮爾遜積動差相關係數(Pearson’s Product Moment Correlation Coefficient,簡稱 PMCC,以 \(r\) 表示)是一個用來衡量點與完美直線有多貼近的數值。
關於 \(r\) 的重要規則:
• 範圍: \(r\) 的值始終在 \(-1\) 和 \(1\) 之間。
• \(r = 1\): 完全正線性相關(斜率向上)。
• \(r = -1\): 完全負線性相關(斜率向下)。
• \(r = 0\): 完全沒有線性相關。
什麼時候可以使用它?
只有當數據屬於隨機對隨機(情況 B)且符合雙變量正態分佈(Bivariate Normal Distribution)時,你才能對 \(r\) 進行正式的假設檢定。在散佈圖上,這看起來像是一團橢圓形(雞蛋狀)的點。如果數據呈現曲線,或數據分佈偏斜,PMCC 可能會產生誤導!
記憶小撇步: 把 \(r\) 看作「直線的可靠性」。如果 \(r\) 接近 1 或 -1,代表這條直線非常可靠。
重點提示: PMCC 衡量的是線性關係,對於曲線並不適用!
4. 斯皮爾曼等級相關係數(Spearman’s Rank,\(r_s\))
有時數據並非呈現完美的直線,或者很難精確測量(例如才藝比賽中的「排名」)。這就是斯皮爾曼等級相關係數派上用場的時候。
為何使用它?
• 它測試的是關聯性(整體趨勢),而非單純的直線關係。
• 它適用於非線性數據,只要它是單調的(始終遞增或始終遞減)。
• 它對數據的「正態分佈」沒有任何假設要求。它非常強大且適用範圍廣!
處理過程:
1. 將兩個變量的數據分別進行排名(第 1 名、第 2 名、第 3 名……)。
2. 計算這些排名的 PMCC(你的計算機可以直接做到!)。
常見錯誤: 別忘了,當你對數據進行排名時,你會「丟失」關於數值之間實際距離的一些資訊。只有在數據不適合使用 PMCC 時,才使用斯皮爾曼相關係數。
重點提示: 直線和「正態」數據用 \(r\);曲線或排名數據用 \(r_s\)。
5. 相關性的假設檢定
我們使用假設檢定來判斷樣本中發現的相關性是否真的存在於整個總體中,還是僅僅是巧合。
設定:
• 零假設(Null Hypothesis, \(H_0\)): 總體中沒有相關性(總體相關係數 \(\rho = 0\))。
• 備擇假設(Alternative Hypothesis, \(H_1\)): 存在相關性(\(\rho \neq 0\)、\(\rho > 0\) 或 \(\rho < 0\))。
決策:
將你計算出的 \(r\) 或 \(r_s\) 值與查表得出的臨界值(Critical Value)進行比較(或使用軟件提供的 p-value)。
• 如果你的值比臨界值更極端,則拒絕 \(H_0\)。
• 結論必須結合情境:例如「有足夠的證據顯示氣溫與雪糕銷量之間存在正相關」。
重點提示: 假設檢定並不能證明因果關係;它只能證明變量之間存在關聯。
6. 回歸線(最佳擬合線)
回歸線是一種形式為 \(y = a + bx\) 的數學方程,能幫助我們預測數值。
最小二乘法回歸(Least Squares Regression)
此方法能找到使殘差(Residuals)平方和最小化的那條線。
什麼是殘差? 它是實際數據點與直線之間的垂直距離。
殘差 = 觀測值 – 預測值。
該用哪條線?
• 在情況 A 中: 我們通常只有一條線(即 \(y\) 對 \(x\) 的回歸)。
• 在情況 B 中: 我們有兩條可能的線!
1. 使用 \(y\) 對 \(x\) 來估計給定 \(x\) 下的 \(y\)。
2. 使用 \(x\) 對 \(y\) 來估計給定 \(y\) 下的 \(x\)。
這兩條線永遠都會穿過「平均點」\((\bar{x}, \bar{y})\)。
內插法(Interpolation)與外推法(Extrapolation)
• 內插法: 預測數據範圍內的數值。這通常是安全且可靠的。
• 外推法: 預測數據範圍外的數值。這非常危險,因為趨勢可能不會持續下去!
快速回顧:
• 殘差: 殘差越小,擬合效果越好。
• 內插法: 留在數據範圍內(安全)。
• 外推法: 超出數據範圍(有風險)。
重點提示: 明智地使用回歸線!不要試圖用基於幼兒的數據模型來預測 50 歲成人的身高(那就是外推法!)。
7. 雙變量數據總結
• 視覺化: 先用散佈圖檢查「情況」並尋找極端值。
• 衡量: 線性/正態數據用 \(r\);非線性/排名數據用 \(r_s\)。
• 檢定: 使用假設檢定來確認關係是否在統計學上顯著。
• 預測: 使用回歸線進行內插,但要非常小心外推的情況。
• 詮釋: 永遠將你的數學發現連結回題目所提供的現實情境中。