歡迎來到雙變量數據的世界!

你有沒有想過,花在社交媒體的時間與考試成績之間是否存在某種規律?或者身高較高的人,鞋碼是否真的會比較大?在本章中,我們將探討兩個不同的「變量」(我們可以測量的數據)如何相互關聯。讀完這份筆記後,你將能像專家一樣解讀散點圖,並學會使用數學模型來預測未來!如果數學平時對你來說像外星語,別擔心——我們會將它拆解,讓你一步步掌握。

1. 什麼是散點圖?

散點圖 (Scatterplot) 其實就是一種利用點來顯示兩組數據之間關係的圖表。一個變量放在 x 軸(橫軸),另一個變量則放在 y 軸(縱軸)。

類比: 你可以把散點圖想像成一張數據點的「地圖」。每個點代表一個人或一個事件。例如,如果我們在研究身高和體重,一個點就代表某個人的特定身高及其對應的特定體重。

相關類型 (Types of Associations)

當我們觀察這群點組成的「雲狀分佈」時,我們是在尋找一種規律,這也稱為相關 (Association / Correlation)

正相關 (Positive Association): 點的趨勢基本上從左到右向移動。這意味著當一個數值增加時,另一個數值也隨之增加。(例子:溫習時間愈長,成績通常愈高。)

負相關 (Negative Association): 點的趨勢基本上從左到右向移動。這意味著當一個數值增加時,另一個數值反而減少。(例子:汽車行駛的里程數愈多,油箱裡的汽油就愈少。)

無相關 (No Association): 點就像灑落一地的閃粉一樣到處亂跳,沒有明顯的規律。(例子:你的鞋碼和你最喜歡的顏色。)

快速複習:
正相關: \(x \uparrow, y \uparrow\)
負相關: \(x \uparrow, y \downarrow\)
無相關: 完全沒有規律!

重點總結: 散點圖讓我們一眼就能看出兩件事物是否相關。如果點形成了一種類似「直線」的形狀,就代表它們之間存在關係!

2. 「模型」(最佳擬合線)

由於現實世界的數據往往比較凌亂,點通常不會排成一條完美的直線。為了從混亂中理出頭緒,我們會畫出一條最佳擬合線 (Line of best fit)(或稱趨勢線 trend line)。這是一條穿過那群點中央的直線。

解讀方程

在 SAT 考試中,你經常會看到這條線以線性方程的形式出現:\( y = mx + b \)。

斜率 (\(m\)): 這告訴你當 \(x\) 每增加一個單位時,\(y\) 值預計會改變多少。
例子: 如果斜率是 \(5\),這代表你每多溫習 1 小時,預測分數就會提高 5 分。

y 截距 (\(b\)): 這是當 \(x\) 為零時,\(y\) 的預測值。
例子: 如果 y 截距是 \(40\),這代表如果你溫習了 0 小時,預測分數會是 40 分。

你知道嗎? 最佳擬合線不一定要觸及任何實際的數據點!它只是對整體趨勢的一個總結。

要避免的常見錯誤: 不要誤以為斜率總是「總數」。斜率是變化率 (rate of change)。在應用題中,要留意「每 (per)」、「每個 (each)」或「每一 (every)」等字眼來辨認斜率。

重點總結: 最佳擬合線是數據的「簡化版」,幫助我們進行預測。

3. 進行預測:預測值 vs. 實際值

SAT 最常見的問題之一,就是要求你比較預測值 (Predicted value)實際值 (Actual value)

實際值: 這是現實生活中的數據點(圖表上的那個點)。
預測值: 這是針對特定的 \(x\),在最佳擬合線上所對應的數值。

步驟拆解:如何找出差異

1. 在橫軸上找到問題所要求的 \(x\) 值。
2. 將手指向上移到那個,看它的 實際 (Actual) 數值。
3. 在同一個 \(x\) 位置,將手指移到那條,看它的 預測 (Predicted) 數值。
4. 點與線之間的垂直「間距」就是誤差(通常稱為殘差 residual)。

如果點在線的上方,代表模型低估 (underestimated) 了實際值。如果點在線的下方,則代表模型高估 (overestimated) 了實際值。

重點總結: 「線」是數學上的最佳猜測;「點」則是真實發生的情況。

4. 線性模型 vs. 指數模型

SAT 希望你了解「以固定速率增長」的關係,與「增長得越來越快」的關係之間的區別。

線性增長 (Linear Growth)

形狀: 一條直線。
規則: 每次都加上相同的數值。
例子: 你每週儲蓄 \$10。(\(10, 20, 30, 40...\))

指數增長 (Exponential Growth)

形狀: 一條越來越陡峭的曲線。
規則: 每次都乘以相同的百分比或倍數。
例子: 細菌數量每小時翻倍。(\(2, 4, 8, 16...\))

記憶小竅門:
Linear = Line(直線)
Exponential = Explosion(像爆炸一樣,變得非常快!)

重點總結: 如果題目提到「固定速率 (constant rate)」或「固定金額 (fixed amount)」,請聯想到線性 (Linear)。如果提到「百分比增長 (percent increase)」、「翻倍 (doubling)」或「三倍 (tripling)」,請聯想到指數 (Exponential)

5. 離群值:數據中的叛逆者

有時候你會看到一個點遠離所有其他的點,這被稱為離群值 (Outlier)

類比: 如果你在測量小學五年級學生的身高,這時突然走進來一名 NBA 球員,那麼這名球員的身高就是離群值。它不符合該群體其餘部分的規律。

為什麼這很重要: 離群值會把最佳擬合線往它們的方向「拉」,導致模型對其餘數據的預測變得不那麼準確。在辨認趨勢時,我們通常會觀察整體的「雲狀分佈」而忽略個別奇特的點。

考試快速總結:
1. 看方向: 向上 = 正相關,向下 = 負相關。
2. 解讀斜率: 它是「每單位」的變化量。
3. 檢查 y 截距: 它是起始值(當 \(x = 0\) 時)。
4. 找差異: 點 = 實際,線 = 預測。
5. 線性 vs. 指數: 相加 vs. 相乘。

一開始覺得困難是很正常的!散點圖的核心在於觀察視覺規律。一旦你開始能「看見」點群中的隱形線條,你就會成為這方面的達人!