Correlation and regression - Further Mathematics (XFM01) - Pearson Edexcel International AS Level

歡迎來到相關與迴歸的世界！

你有沒有想過你的溫習時間與考試成績之間是否有關聯？或者長得高的人腳掌是否通常也比較大？在 S1 單元的這一章中，我們將學習如何用數學方法來衡量這些關係。我們將從觀察單一數組數據，進階到觀察雙變數數據 (bivariate data)——這只是「包含兩個變數的數據」的一種專業說法。

即使你還覺得自己「不是讀數學的料」也不用擔心。我們會將內容拆解成簡單的步驟，從在圖表上畫點，到利用方程式預測未來！

1. 基礎知識：變數與散點圖

在進行任何計算之前，我們需要知道自己正在看什麼。當我們有兩個變數時，通常會將它們標記為 x 和 y。

解釋變數與反應變數

• 解釋變數 (Explanatory Variable, x)：這是自變數。我們認為它可能是導致變化的「原因」。我們總是將它畫在橫軸 (horizontal axis)上。
• 反應變數 (Response Variable, y)：這是應變數。這是我們用來觀察它如何隨 x 變化的測量對象。我們將它畫在縱軸 (vertical axis)上。

例子：如果你正在研究陽光如何影響植物生長，「陽光」就是解釋變數 (x)，而「植物高度」則是反應變數 (y)。

散點圖 (Scatter Diagrams)

散點圖就是將每一對數據點 \((x, y)\) 作為一個點畫在圖表上。它能幫助我們直觀地看出關係的「形態」。

• 正相關 (Positive Correlation)：點從左到右呈「上升」趨勢。當 x 增加，y 也增加。
• 負相關 (Negative Correlation)：點從左到右呈「下降」趨勢。當 x 增加，y 減少。
• 無相關 (No Correlation)：點像一群飛蟲一樣四處散落。沒有明顯的規律。

快速複習：
記得檢查你的坐標軸！x 是用來解釋的，y 是用來反應的。

重點總結：散點圖是我們觀察數據的第一步。它們能在視覺上展示關係的方向（正或負）及強弱。

2. 衡量相關性：積動差相關係數 (PMCC, r)

視覺觀察固然好，但數學家更喜歡用數字說話。這個數字就是積動差相關係數 (Product Moment Correlation Coefficient)，簡稱 r。

'r' 告訴我們什麼？

r 的值總是落在 -1 到 +1 之間。
• \(r = +1\)：完全正線性相關（所有點都在一條向上的直線上）。
• \(r = -1\)：完全負線性相關（所有點都在一條向下的直線上）。
• \(r = 0\)：完全沒有線性相關。
• 越接近 1 或 -1，關係就越強。

記憶小撇步：把 r 看作「關係的緊密度」。
0.9 是「最好的朋友」（關係強），0.3 是「點頭之交」（關係弱），而 0 則是「陌生人」（沒有關聯）。

常見陷阱：相關性 vs. 因果關係

你知道嗎？僅僅因為兩件事的 r 值很高，並不代表其中一件事導致了另一件事。例如，雪糕銷量和鯊魚襲擊次數在夏天都會增加。它們是相關的，但吃雪糕並不會導致鯊魚襲擊！它們兩者都是因為受到第三個因素影響：天氣炎熱。

重點總結：PMCC (r) 衡量的是線性（直線）關係的強弱和方向。它不能證明兩者之間存在因果關係！

3. 線性迴歸：最佳擬合線

如果數據存在線性相關，我們可以在數據中畫出一條直線。在 S1 中，我們使用最小二乘迴歸線 (Least Squares Regression Line)。其方程式如下：
\(y = a + bx\)

'a' 和 'b' 代表什麼？

• b（斜率）：這告訴我們每當 x 增加 1 個單位時，y 會變化多少。如果 b 是 2，那麼每當 x 增加 1，y 就會增加 2。
• a（截距）：這是當 \(x = 0\) 時 y 的值。在現實情境中，這通常是「初始值」。

最小二乘法 (Method of Least Squares)

你不需要推導這些公式，但你需要學會如何從公式手冊中使用它們。通常你需要先計算總結統計量：
\(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
\(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)

然後：
\(b = \frac{S_{xy}}{S_{xx}}\)
\(a = \bar{y} - b\bar{x}\)
（其中 \(\bar{x}\) 和 \(\bar{y}\) 分別是 x 和 y 的平均值）。

步驟說明：繪製迴歸線
1. 找出平均點 \((\bar{x}, \bar{y})\)。迴歸線永遠會經過這個點。
2. 選取一個 x 的值（例如 \(x=0\) 來求 a），並計算對應的 y 值。
3. 將這兩點標出並用尺連接起來。

重點總結：迴歸線 \(y = a + bx\) 是一個數學模型，用來根據解釋變數 (x) 來預測反應變數 (y) 的值。

4. 進行預測：內插法 vs. 外推法

迴歸線的全部意義在於預測，但我們必須小心！

內插法 (Interpolation - 安全區)

當你利用迴歸線預測的 x 值位於你現有數據範圍之內時，這就是內插法。通常這種預測非常可靠。

外推法 (Extrapolation - 危險區)

當你試圖預測的 x 值位於數據範圍之外時，這就是外推法。
比喻：如果你測量嬰兒從 0 到 1 歲的成長數據，並用那條線去預測他們 50 歲時的身高，你的線可能會算出他們有 10 米高！
常見錯誤：學生經常盲目相信外推法。在考試中，如果題目問你預測是否可靠，且 x 值在數據範圍外，請務必回答：「不可靠，這是外推法 (extrapolation)，可能不準確。」

快速複習：
• 數據範圍之內 = 內插法 = 可靠。
• 數據範圍之外 = 外推法 = 不可靠。

重點總結：為了確保準確性，只應在原有數據的範圍內使用你的迴歸模型。

5. 編碼 (Coding / Change of Variable)

有時候數字太大或小數點太多，我們會使用編碼來簡化計算（例如 \(p = x - 100\)）。
• 編碼不會改變 PMCC (r)。 無論單位如何變化，關係的強弱保持不變。
• 如果你為編碼後的數據計算了迴歸線，記得要代回原式，以便得出原始變數的最終答案。

重點總結：編碼只是簡化計算的捷徑。它會影響迴歸方程式中的 'a' 和 'b' 值，但絕不會改變相關係數 r。

成功小貼士

• 不要慌張：如果公式看起來很可怕，請記住它們都在公式手冊裡。你只需要知道將哪些數值代入即可。
• 檢查正負號：負的 \(S_{xy}\) 意味著負相關。如果你的 r 是負的，但 b 是正的，那你一定計算出錯了！
• 情境最重要：在最終解釋時，請務必提到現實世界中的變數（例如「體重」和「身高」），而不僅僅是「x」和「y」。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。