簡介:發掘數據間的關聯
歡迎來到相關與線性回歸 (Correlation and Linear Regression) 的世界!你有沒有想過兩件事之間是否存在實際聯繫?例如,花更多時間在社交媒體上,是否真的會導致考試成績下降?又或者,室外氣溫會影響商店售賣雪糕的數量嗎?
在本章中,我們將學習如何處理兩組數據,並找出它們之間是否存在線性關係(看起來像是一條直線的關係)。這是一個強大的工具,科學家、企業和研究人員都利用它來對未來做出精明的預測。別擔心你是否「數學腦」——我們會一步步為你拆解!
1. 散點圖:觀察規律
在進行任何複雜計算之前,我們總是先從「觀察」數據開始。散點圖 (Scatter diagram) 就是一個將數據對繪製成點的圖表。通常,我們將橫軸稱為 \(x\)(自變量,independent variable),縱軸稱為 \(y\)(應變量,dependent variable)。
觀察重點:
- 正相關 (Positive Correlation):當 \(x\) 增加時,\(y\) 也傾向增加。(點的「雲團」呈向上趨勢)。
- 負相關 (Negative Correlation):當 \(x\) 增加時,\(y\) 傾向減少。(點的「雲團」呈向下趨勢)。
- 無相關 (No Correlation):點散佈在各處,像灑出的胡椒粉;沒有明確的趨勢。
- 線性與非線性:這些點看起來像是一條直線,還是曲線?注意:在本課程中,我們重點研究直線關係!
比喻:想像一下觀察一群鳥。即使牠們沒有排成完美的直線,你通常也能看出整個群體是正朝「右上方」飛還是「右下方」飛。散點圖就能向我們展示數據群體的「方向」。
重點總結:
務必先畫出或觀察散點圖。它能告訴你直線模型是否適合應用於這些數據!
2. 相關係數 (\(r\))
雖然散點圖讓我們對數據有了「感覺」,但積差相關係數 (Product Moment Correlation Coefficient, PMCC)(由字母 \(r\) 表示)給了我們一個精確的數值,用來衡量這種關係的強弱。
\(r\) 的重要性質:
- \(r\) 的值始終在 \(-1\) 和 \(1\) 之間。
- \(r = 1\):完全正線性相關(所有點完全位於一條向上的直線上)。
- \(r = -1\):完全負線性相關(所有點完全位於一條向下的直線上)。
- \(r = 0\):完全沒有線性相關。
解讀強弱:
- 值接近 1 或 -1(例如 \(0.9\) 或 \(-0.85\))表示有強烈的線性關係。
- 值接近 0(例如 \(0.1\) 或 \(-0.2\))表示有微弱的線性關係。
你知道嗎? 相關性不代表因果關係!僅僅因為兩件事相關,並不代表其中一件事「導致」了另一件事。例如,雪糕銷量和鯊魚襲擊次數都在夏季增加,這是因為天氣炎熱,但吃雪糕並不會導致鯊魚襲擊!
重點總結:
\(r\) 越接近 \(1\) 或 \(-1\),直線對數據的擬合度就越好。符號(+ 或 -)告訴你相關的方向。
3. 線性回歸:找出最佳直線
如果我們確定存在線性關係,我們就會想找出穿過數據中心的「完美」直線。這稱為 \(y\) 對 \(x\) 的回歸線 (Regression line of \(y\) on \(x\))。
我們使用最小二乘法 (Method of Least Squares) 來找出這條直線。你不需要推導公式,但你需要知道這種方法是為了找出使數據點與直線之間的總「間隙」(垂直距離)最小化的直線。
方程式:
直線寫作:\(y = a + bx\)
其中:
- \(a\) 是 \(y\)-截距(直線與縱軸相交的位置)。
- \(b\) 是斜率/梯度(\(x\) 每增加 1 個單位,\(y\) 的變化量)。
常見錯誤: 在 H1 數學中,我們通常專注於 \(y\) 對 \(x\) 的回歸線。當我們知道 \(x\) 時,就用這條線來預測 \(y\) 的值。請確保正確地將數據輸入計算機 (GC),以獲得準確的 \(a\) 和 \(b\) 值!
重點總結:
回歸線是穿過數據點的數學「平均」路徑,表達為 \(y = a + bx\)。
4. 內插法與外推法
現在進入實用部分:利用我們的直線來做預測!
內插法 (Interpolation)(「安全」區域)
內插法是指預測一個落在原始數據範圍內的 \(x\) 值所對應的 \(y\) 值。
例子: 如果你擁有學生學習 1 到 10 小時的數據,預測學習 5 小時學生的成績屬於內插法。如果你的 \(r\) 值夠強,這通常非常可靠。
外推法 (Extrapolation)(「危險」區域)
外推法是指預測一個落在數據範圍外的 \(x\) 值所對應的 \(y\) 值。
例子: 使用同樣的數據來預測學習 50 小時學生的成績。這通常是不可靠的,因為我們不知道線性趨勢是否會無限期持續下去!(實際上,學生最終會精疲力竭,或者成績會達到上限)。
快速回顧:
- 內插法:數據範圍內 = 可靠。
- 外推法:數據範圍外 = 不可靠。
重點總結:
預測原始數據範圍之外的值時要非常小心。現有的趨勢並不代表它會永遠保持不變!
5. 評估模型
在考試中,你可能會被問到:「解釋該情境在多大程度上符合線性回歸模型。」
如何回答:
- 檢查散點圖:點看起來是否構成一條直線?
- 檢查相關係數 (\(r\)):\(r\) 是否接近 \(1\) 或 \(-1\)?如果是,表示擬合度強。
- 檢查背景資料:這合乎邏輯嗎?(例如:如果模型預測一個人的體重為負數,那肯定哪裡出了問題!)。
記憶小技巧: 把 \(r\) 想成是你那條線的「成績單」。得分 \(0.95\) 是 A(擬合度極佳!),而得分 \(0.3\) 是 D(擬合度很差!)。
最終檢查清單:
- 繪製散點圖以觀察趨勢。
- 計算 \(r\) 以衡量線性聯繫的強度。
- 使用計算機找出回歸線 \(y = a + bx\)。
- 利用直線預測 \(y\)(但要小心外推法!)。
- 根據 \(r\) 的強度和數據範圍對可靠性進行評價。