歡迎來到關係的世界!
在統計學中,我們經常想知道兩件事物之間是否有關聯。你花在玩遊戲上的時間會影響考試成績嗎?外面的溫度會改變冰淇淋的銷量嗎?本章的主角是雙變量數據 (Bivariate data),這只是一個比較高級的說法,意思是「包含兩個變量的數據」。
學完這些筆記後,你將能夠識別規律、畫出預測未來的直線,並明白為什麼即使兩件事同時發生,也不代表其中一件事導致了另一件事!
1. 基礎概念:雙變量數據
雙變量數據涉及成對的測量值。每個「對象」都會給我們兩項資訊(例如一個人的身高和體重)。
要觀察這些關係,我們使用散點圖 (Scatter Diagram)。但在繪製點之前,我們需要先分清哪個軸代表什麼:
- 解釋變量 (Explanatory Variable)(自變量):這是我們認為可能「解釋」變化的變量。它總是放在 \(x\) 軸(水平軸)上。
- 反應變量 (Response Variable)(應變量):這是我們正在測量的「結果」。它總是放在 \(y\) 軸(垂直軸)上。
例子:如果你正在調查「溫習時數」是否影響「考試成績」,溫習時數就是解釋變量 (\(x\)),而考試成績就是反應變量 (\(y\))。
快速複習:記住字母表中 \(x\) 在 \(y\) 之前,正如「解釋」的原因 (Explanatory) 應在「反應」的結果 (Response) 之前!
2. 描述關係:相關性 (Correlation)
當我們觀察散點圖時,我們是在尋找相關性——即對點的分佈狀況的描述。
相關性的類型
- 正相關 (Positive Correlation):當 \(x\) 增加,\(y\) 也增加。點從左下向右上分佈(像是在爬山)。
- 負相關 (Negative Correlation):當 \(x\) 增加,\(y\) 減少。點從左上向右下分佈(像是在溜滑梯)。
- 零相關 (Zero Correlation):點像雲一樣散佈在各處。沒有明顯的關聯。
相關性的強弱
我們還會描述這種規律有多「整齊」:
- 強 (Strong):點非常接近一條直線。
- 弱 (Weak):你可以看出大致的方向,但點分佈得比較散。
你知道嗎?相關性有點像友誼。相關性「強」意味著這兩個變量是「好朋友」,總是緊密地跟隨對方!
3. 相關性 vs. 因果關係 (Correlation vs. Causation)
這是考試中最愛考的題目!僅僅因為兩件事有相關性,並不代表其中一件事導致了另一件事。這被稱為關聯 (Association)。
例子:冰淇淋銷量和鯊魚襲擊次數之間存在正相關。吃冰淇淋會導致鯊魚咬人嗎?當然不會!兩者都是由第三個因素引起的:天氣炎熱。
當相關性是偶然的,或是由其他因素引起時,我們稱之為虛假相關 (Spurious correlation)。
重點總結:相關性顯示了一種連結,但它不能證明「產品 A」導致了「結果 B」。
4. 最優擬合線 (Line of Best Fit)
最優擬合線是一條穿過點群中間的直線,用來顯示總體趨勢。你可以用它來進行預測。
如何精確繪製:
- 計算平均數點 (Double Mean Point)。這是點 \((\bar{x}, \bar{y})\),其中 \(\bar{x}\) 是所有 \(x\) 值的平均數,\(\bar{y}\) 是所有 \(y\) 值的平均數。
- 你的直線必須穿過這個平均數點 \((\bar{x}, \bar{y})\)。
- 盡量讓線條上方和下方的點數量大致相等。
進行預測
- 內插法 (Interpolation):預測數據範圍內的值。這通常非常可靠!
- 外推法 (Extrapolation):預測數據範圍外的值(例如,如果你的數據只到 10 年車齡,卻去預測 100 年車齡的汽車價格)。警告:這風險很高且通常不準確,因為趨勢可能會改變!
常見錯誤:學生經常嘗試強行讓擬合線穿過原點 \((0,0)\)。除非數據真的符合原點且符合現實情境,否則不要這樣做!
5. 測量相關性(Higher Tier 高階課程)
基礎程度 (Foundation) 的學生用文字描述相關性,而高階程度 (Higher) 的學生則使用 -1 到 +1 之間的數字。
斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient)
這衡量兩個變量的等級(順序)吻合程度。
\(+1\) = 等級完全吻合。
\(-1\) = 等級完全相反。
\(0\) = 完全不吻合。
公式(考試時會提供)為:
\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
其中 \(d\) 是等級之間的差,\(n\) 是對數。
皮爾森積動差相關係數 (Pearson’s Product Moment Correlation Coefficient, PMCC)
這衡量線性(直線)關係的強度。
+1:完美的正線性相關。
-1:完美的負線性相關。
0:無線性相關。
斯皮爾曼 vs. PMCC:有什麼區別?
- PMCC 僅適用於直線。
- 斯皮爾曼適用於任何一種變量增加、另一種也增加的關係(即使它是曲線!)。
- 例子:如果數據呈曲線狀,斯皮爾曼相關係數可能會很高(接近 \(+1\)),但 PMCC 可能會較低,因為它不是完美的直線。
重點總結:數值越接近 \(+1\) 或 \(-1\),相關性就越強。接近 \(0\) 的數值表示相關性很弱。
總結:散點圖速覽
- 繪圖:\(x\) 是解釋變量,\(y\) 是反應變量。
- 相關性:可以是正、負或零;也可以是強或弱。
- 因果關係:有相關性不代表有因果關係!
- 最優擬合線:必須穿過平均數點 \((\bar{x}, \bar{y})\)。
- 預測:內插法安全;外推法是「危險地帶」。
- 係數:\(-1\)(負)到 \(+1\)(正)。\(0\) 代表無相關。
如果公式起初看起來很嚇人,別擔心——專注於圖表告訴你的「故事」,數學自然會變得簡單!