雙變量數據簡介

歡迎!在本章中,我們將從觀察單組數據(例如學生的身高)轉向同時觀察兩個不同的變量,看看它們之間是否存在某種聯繫。這就是我們所說的雙變量數據 (Bivariate Data)

你可以把這想像成當一名數據偵探。如果你注意到天氣越熱,雪糕的銷量就越高,你就已經發現了兩個變量之間的聯繫:氣溫銷量。理解這些聯繫不僅能幫助企業預測未來,還能幫助科學家理解這個世界是如何運作的!

1. 什麼是雙變量數據?

"Bivariate"(雙變量)這個詞聽起來很深奧,但其實很簡單:
Bi 代表「二」(就像單車是 bicycle,bi 就代表雙輪)。
Variate 指的是「變量」。

因此,雙變量數據就是指樣本中每個「項目」都包含兩個變量的數據。例如,如果你測量了 20 個人的臂展和身高,你就會得到 20 組數據。

快速回顧:
自變量 (Independent Variable) (\(x\)):這是我們認為可能會引起變化的變量。我們通常將其標記在橫軸(x 軸)上。
應變量 (Dependent Variable) (\(y\)):這是我們為了觀察其反應而測量的變量。我們將其標記在縱軸(y 軸)上。

2. 散點圖 (Scatter Diagrams)

散點圖(或稱散點圖表)是視覺化雙變量數據的最佳方式。每一組數據點都會作為圖表上的一個坐標點 \((x, y)\) 呈現出來。

識別規律與分組

有時,散點圖上的點看起來像是一大團雲霧。但有時,你可能會注意到群體內部存在明顯的分區或分組。
例子: 如果你繪製一群動物的「奔跑速度」對比「腿長」,你可能會看到兩個明顯的群聚(clusters)——一組是狗,一組是貓。識別這些分組是解讀數據的關鍵。

圖表標繪

在考試中,你可能會被要求在現有的散點圖上添加數據點
別擔心,這很簡單: 只要像在普通數學圖表上找坐標一樣處理這些數值即可。如果 \(x = 5\) 且 \(y = 10\),就在橫軸找到 5,在縱軸找到 10,然後清楚地標上一個「X」!

重點總結: 散點圖能幫助我們「看見」兩個變量之間的關係。記得時刻觀察這些點是否形成了某種規律,或者是否分成了不同的群體。

3. 理解相關性 (Correlation)

相關性描述了兩個變量之間聯繫的性質和強弱。

相關性的類型:

1. 正相關 (Positive Correlation): 當 \(x\) 增加時,\(y\) 也會增加。數據點通常從左下向右上呈現「上坡」趨勢。
類比: 你進行體育訓練的時間越長,你的技術水平通常就越高。

2. 負相關 (Negative Correlation): 當 \(x\) 增加時,\(y\) 反而減少。數據點從左上向右下呈現「下坡」趨勢。
類比: 你開車行駛的哩程數越多,油箱裡的汽油就越少。

3. 無相關 (No Correlation): 沒有明顯的規律。數據點像灑出的鹽一樣散落在各處。
例子: 你的鞋碼與數學考試分數之間的關係。

相關性的強弱:

強 (Strong): 數據點非常接近並形成一條直線。
弱 (Weak): 數據點大致遵循一個方向,但散開成一團寬廣的雲狀。

小貼士: 如果你可以輕鬆地在數據點周圍畫出一個細長的「香腸」形狀,那麼相關性通常是的。如果你需要一個很大的「雲朵」形狀才能把它們全部包圍,那相關性就是的。

4. 回歸線 (Regression Lines)

回歸線其實就是更精確的「最佳擬合線」(Line of Best Fit)。它是一條盡可能靠近所有數據點的直線。

重要提示: 在這部分課程中,你不需要計算該直線的方程式,你只需要學會如何解讀它。

使用回歸線進行預測

我們利用回歸線,根據給定的 \(x\) 值來預測 \(y\) 的值。
內插法 (Interpolation): 預測數據範圍之內的數值。這通常非常可靠。
外推法 (Extrapolation): 預測數據範圍之外的數值(例如,如果你的數據只到 \(x=10\),嘗試去預測 \(x=100\) 時的情況)。
警告: 外推法是很危險的!適用於較小數值的規律,不一定適用於更大的數值。

重點總結: 回歸線是預測工具。內插法是你的好朋友,而外推法是一個風險很高的猜測!

5. 相關性與因果關係(黃金法則)

這是本章最重要的概念!相關性並不代表因果關係 (Correlation does not imply causation)。

僅僅因為兩件事物有聯繫(相關),並不代表其中一件事是導致另一件事的原因。這背後可能存在一個「隱藏」的第三變量在起作用。

經典例子: 統計顯示,隨著雪糕銷量增加,鯊魚襲擊事件的數量也會增加。
• 是吃雪糕讓鯊魚想咬人嗎?當然不是!
• 隱藏的變量是天氣/夏天。當天氣炎熱時,更多人會吃雪糕,同時也更多人會去海邊游泳。天氣熱導致了這兩件事同時發生,但雪糕並不是導致鯊魚襲擊的原因。

你知道嗎? 在美國,尼古拉斯·基治 (Nicolas Cage) 出演的電影數量與掉進游泳池溺水的人數之間有著強相關性。這就是所謂的「虛假相關」(spurious correlation)——純屬巧合!

總結:避免常見錯誤

1. 搞混軸線: 務必檢查哪個變量是 \(x\)(橫軸),哪個是 \(y\)(縱軸)。
2. 假設因果: 在考試中,絕對不要直接說「\(x\) 導致了 \(y\)」。相反,請說「\(x\) 與 \(y\) 之間存在正相關/負相關」。
3. 過度信任外推法: 如果題目問為什麼預測可能不可靠,檢查一下該數值是否遠遠超出了原始數據範圍。
4. 忽視分組: 如果數據點明顯形成了兩個不同的群聚,提到可能測量的是兩個不同的群體。

重點總結: 做一個保持懷疑精神的科學家!尋找規律,清楚地描述它們,但不要急於對因果關係下結論。