歡迎來到相關與迴歸的世界!

你有沒有想過你的溫習時間與考試成績之間是否有關聯?或者長得高的人腳掌是否通常也比較大?在 S1 單元的這一章中,我們將學習如何用數學方法來衡量這些關係。我們將從觀察單一數組數據,進階到觀察雙變數數據 (bivariate data)——這只是「包含兩個變數的數據」的一種專業說法。

即使你還覺得自己「不是讀數學的料」也不用擔心。我們會將內容拆解成簡單的步驟,從在圖表上畫點,到利用方程式預測未來!

1. 基礎知識:變數與散點圖

在進行任何計算之前,我們需要知道自己正在看什麼。當我們有兩個變數時,通常會將它們標記為 xy

解釋變數與反應變數

解釋變數 (Explanatory Variable, x):這是自變數。我們認為它可能是導致變化的「原因」。我們總是將它畫在橫軸 (horizontal axis)上。
反應變數 (Response Variable, y):這是應變數。這是我們用來觀察它如何隨 x 變化的測量對象。我們將它畫在縱軸 (vertical axis)上。

例子:如果你正在研究陽光如何影響植物生長,「陽光」就是解釋變數 (x),而「植物高度」則是反應變數 (y)

散點圖 (Scatter Diagrams)

散點圖就是將每一對數據點 \((x, y)\) 作為一個點畫在圖表上。它能幫助我們直觀地看出關係的「形態」。

正相關 (Positive Correlation):點從左到右呈「上升」趨勢。當 x 增加,y 也增加。
負相關 (Negative Correlation):點從左到右呈「下降」趨勢。當 x 增加,y 減少。
無相關 (No Correlation):點像一群飛蟲一樣四處散落。沒有明顯的規律。

快速複習:
記得檢查你的坐標軸!x 是用來解釋的,y 是用來反應的。

重點總結:散點圖是我們觀察數據的第一步。它們能在視覺上展示關係的方向(正或負)及強弱。

2. 衡量相關性:積動差相關係數 (PMCC, r)

視覺觀察固然好,但數學家更喜歡用數字說話。這個數字就是積動差相關係數 (Product Moment Correlation Coefficient),簡稱 r

'r' 告訴我們什麼?

r 的值總是落在 -1+1 之間。
• \(r = +1\):完全正線性相關(所有點都在一條向上的直線上)。
• \(r = -1\):完全負線性相關(所有點都在一條向下的直線上)。
• \(r = 0\):完全沒有線性相關。
越接近 1 或 -1,關係就越強。

記憶小撇步:r 看作「關係的緊密度」。
0.9 是「最好的朋友」(關係強),0.3 是「點頭之交」(關係弱),而 0 則是「陌生人」(沒有關聯)。

常見陷阱:相關性 vs. 因果關係

你知道嗎?僅僅因為兩件事的 r 值很高,並不代表其中一件事導致了另一件事。例如,雪糕銷量和鯊魚襲擊次數在夏天都會增加。它們是相關的,但吃雪糕並不會導致鯊魚襲擊!它們兩者都是因為受到第三個因素影響:天氣炎熱。

重點總結:PMCC (r) 衡量的是線性(直線)關係的強弱和方向。它不能證明兩者之間存在因果關係!

3. 線性迴歸:最佳擬合線

如果數據存在線性相關,我們可以在數據中畫出一條直線。在 S1 中,我們使用最小二乘迴歸線 (Least Squares Regression Line)。其方程式如下:
\(y = a + bx\)

'a' 和 'b' 代表什麼?

b(斜率):這告訴我們每當 x 增加 1 個單位時,y 會變化多少。如果 b 是 2,那麼每當 x 增加 1,y 就會增加 2。
a(截距):這是當 \(x = 0\) 時 y 的值。在現實情境中,這通常是「初始值」。

最小二乘法 (Method of Least Squares)

你不需要推導這些公式,但你需要學會如何從公式手冊中使用它們。通常你需要先計算總結統計量:
\(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
\(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)

然後:
\(b = \frac{S_{xy}}{S_{xx}}\)
\(a = \bar{y} - b\bar{x}\)
(其中 \(\bar{x}\) 和 \(\bar{y}\) 分別是 x 和 y 的平均值)。

步驟說明:繪製迴歸線
1. 找出平均點 \((\bar{x}, \bar{y})\)。迴歸線永遠會經過這個點。
2. 選取一個 x 的值(例如 \(x=0\) 來求 a),並計算對應的 y 值。
3. 將這兩點標出並用尺連接起來。

重點總結:迴歸線 \(y = a + bx\) 是一個數學模型,用來根據解釋變數 (x) 來預測反應變數 (y) 的值。

4. 進行預測:內插法 vs. 外推法

迴歸線的全部意義在於預測,但我們必須小心!

內插法 (Interpolation - 安全區)

當你利用迴歸線預測的 x 值位於你現有數據範圍之內時,這就是內插法。通常這種預測非常可靠。

外推法 (Extrapolation - 危險區)

當你試圖預測的 x 值位於數據範圍之外時,這就是外推法。
比喻:如果你測量嬰兒從 0 到 1 歲的成長數據,並用那條線去預測他們 50 歲時的身高,你的線可能會算出他們有 10 米高!
常見錯誤:學生經常盲目相信外推法。在考試中,如果題目問你預測是否可靠,且 x 值在數據範圍外,請務必回答:「不可靠,這是外推法 (extrapolation),可能不準確。」

快速複習:
• 數據範圍之內 = 內插法 = 可靠。
• 數據範圍之外 = 外推法 = 不可靠。

重點總結:為了確保準確性,只應在原有數據的範圍內使用你的迴歸模型。

5. 編碼 (Coding / Change of Variable)

有時候數字太大或小數點太多,我們會使用編碼來簡化計算(例如 \(p = x - 100\))。
編碼不會改變 PMCC (r)。 無論單位如何變化,關係的強弱保持不變。
• 如果你為編碼後的數據計算了迴歸線,記得要代回原式,以便得出原始變數的最終答案。

重點總結:編碼只是簡化計算的捷徑。它會影響迴歸方程式中的 'a' 和 'b' 值,但絕不會改變相關係數 r

成功小貼士

不要慌張:如果公式看起來很可怕,請記住它們都在公式手冊裡。你只需要知道將哪些數值代入即可。
檢查正負號:負的 \(S_{xy}\) 意味著負相關。如果你的 r 是負的,但 b 是正的,那你一定計算出錯了!
情境最重要:在最終解釋時,請務必提到現實世界中的變數(例如「體重」和「身高」),而不僅僅是「x」和「y」。