👋 歡迎來到散佈圖的世界!
你好!這一章的重點在於如何找出數據之間的關係。如果統計學有時讓你覺得很抽象,別擔心——我們本質上是在學習如何像偵探一樣尋找規律!散佈圖是統計工具箱中最直觀、最簡單的工具之一。
你將會學到:
- 如何在散佈圖上繪製數據點。
- 如何識別並描述兩個變量之間的關係(相關性)。
- 如何繪製並運用最佳擬合線(Line of best fit)來進行預測。
1. 繪製與詮釋散佈圖 (C10.7.1)
散佈圖(或稱散點圖)是一種用於顯示兩個變量之間關係的圖表。我們處理的是所謂的雙變量數據(涉及兩個變量的數據)。
坐標軸:自變量與應變量
當你繪製散佈圖時,你需要決定哪個變量放在哪個軸上:
- 自變量 (Independent Variable)(x 軸):這是你認為可能影響另一個變量的因素。我們通常先控制或測量這個變量。(例如:溫習時間。)
- 應變量 (Dependent Variable)(y 軸):這是隨自變量改變而變化的變量。(例如:考試成績。)
每一對測量值(例如一位學生的溫習時間與其成績)都會成為圖表上的一個點。
⚠️ 如何繪製散佈圖(課程要求)
課程要求特定的繪圖規範:
1. 繪製數據點:數據點應清晰標記,例如使用小十字 (x)。
2. 刻度與標籤:確保你的坐標軸有清晰的變量名稱標籤和刻度。
快速回顧:把散佈圖想像成將所有個別數據點同時展現出來,讓你一眼就能看出它們是形成了一團雲霧還是明顯的趨勢。
2. 理解相關性 (C10.7.2)
相關性(Correlation)描述的是散佈圖上兩個變量之間的關係或連結。它告訴你變量之間是如何聯繫的——它們是否同時增加、一個增加時另一個是否減少,或者它們之間是否完全沒有聯繫。
相關性的類型
你需要識別三種主要的線性相關性:
1. 正相關 (Positive Correlation)
- 描述:當自變量 (x) 增加時,應變量 (y) 也隨之增加。數據點呈現從左下到右上的趨勢。
- 現實例子:天氣越熱,雪糕銷量越高。(兩者同時增加。)
2. 負相關 (Negative Correlation)
- 描述:當自變量 (x) 增加時,應變量 (y) 隨之減少。數據點呈現從左上到右下的趨勢。
- 現實例子:汽車車齡越高,價值越低。(一個增加,另一個減少。)
3. 零(或無)相關 (Zero Correlation)
- 描述:兩個變量之間沒有明顯關係。數據點在圖表上隨機散佈,形成一團沒有形狀的雲。
- 現實例子:一個人的身高與其喜愛的顏色之間的關係。(沒有聯繫。)
相關性的強度
我們還會根據強度來描述相關性:強 (Strong)、中等 (Moderate) 或 弱 (Weak)。
- 強:數據點非常接近,幾乎連成一條直線。
- 中等:數據點顯示出清晰的趨勢,但在可能的直線周圍分佈較為鬆散。
- 弱:幾乎難以察覺趨勢;數據點散佈得很開,但仍能隱約看出一個大致的方向(正或負)。
- 完全:所有點精確地落在直線之上(這在真實數據中很少見)。
你知道嗎?
在統計學中,相關性並不一定意味著因果關係。僅僅因為兩件事同時發生(例如夏天時雪糕銷量高且犯罪率高),並不代表一者導致了另一者(這通常是由第三個因素,如氣溫,導致了兩者共同變化)。
課程重要提示:你只需要描述相關性(正、負、零及其強度)。本課程不要求計算數值(即相關係數)。
重點摘要:相關性在於方向和緊密度。正為上升,負為下降,零為散亂的雲。點越密集,相關性就越強。
3. 最佳擬合線 (LOBF) (C10.7.3)
最佳擬合線(Line of best fit)是一條穿過散點圖中間的直線,用於總結變量之間的關係。它能幫助我們做出合理的預測。
繪製最佳擬合線的規則(目測法)
準確繪製 LOBF 對於得分至關重要。必須使用一把尺畫出一條直線,並滿足以下條件:
- 它必須穿過平均點 (Mean Point)。
- 它應延伸覆蓋整個數據範圍。
- 在線的兩側,數據點的分佈應大致均勻。
步驟 1:計算平均點 \((\bar{x}, \bar{y})\)
「目測」繪製線條最準確的方法是強迫它穿過平均點(也稱為重心)。
- 計算所有 x 值的平均值:\(\bar{x} = \frac{\sum x}{n}\)
- 計算所有 y 值的平均值:\(\bar{y} = \frac{\sum y}{n}\)
- 平均點為 \((\bar{x}, \bar{y})\)。清晰地標記此點(通常使用圓圈或其他符號)。
類比:平均點就像是你數據雲的「平衡中心」。你的尺必須穿過這個精確的點進行旋轉。
步驟 2:定位並繪製線條
- 將尺放在圖表上,使其通過平均點 \((\bar{x}, \bar{y})\)。
- 調整尺的角度,直到直線上方和下方的數據點數量大致相等。
- 確保線條從圖表上顯示的最小 x 值延伸到最大 x 值(或覆蓋整個網格)。
利用最佳擬合線進行預測
畫好之後,LOBF 讓你估算未經測量的數值:
- 內插法 (Interpolation):在原始數據點的範圍內進行預測。這通常被認為是可靠的。
- 外推法 (Extrapolation):在原始數據點的範圍外進行預測(即延伸線條)。這較不可靠,因為你假設該趨勢在測量數據之外依然持續。
❌ 常見錯誤
不要僅僅連接第一個和最後一個數據點!那幾乎不可能代表數據的真實趨勢。線條必須使到所有點的總距離達到最小化。
重點摘要:最佳擬合線是對數據趨勢的合理猜測,它以數據的平均值為中心。
4. 進階內容:線性回歸方程 (E10.7.4)
對於 Extended 學生,你必須知道如何使用圖形計算機 (GDC) 來找出數學上精確的最佳擬合線,這被稱為線性回歸方程。
雖然「目測」畫出的 LOBF 給出了一個不錯的估計,但線性回歸方程給出的是數學上唯一正確的線,它最小化了線與每一個數據點之間的誤差(距離)。
線性回歸方程
由 GDC 算出的方程通常呈直線形式:
$$\mathbf{y = mx + c} \quad \text{或} \quad \mathbf{y = ax + b}$$
其中:
- m (或 a) 是直線的斜率 (gradient),代表變化率。
- c (或 b) 是 y 截距 (y-intercept)。
使用圖形計算機 (GDC)
你的 GDC 內置了執行線性回歸的統計功能:
- 輸入數據:將你的成對數據值(x 和 y)輸入到統計列表(L1 和 L2)中。
- 選擇回歸:選擇適當的雙變量統計計算或「線性回歸」模式(通常標記為 a + bx 或 mx + b)。
- 讀取結果:計算機將立即提供斜率(m 或 a)和截距(c 或 b)的值。
- 寫出方程:將這些值代入線性方程格式中。
例子:如果你的計算機給出 \(m = 2.5\) 且 \(c = 10\),則最佳擬合線的方程為 \(\mathbf{y = 2.5x + 10}\)。
利用方程進行預測
一旦有了方程,你進行預測的準確度會比看圖表高得多:
例子:如果方程為 \(y = 2.5x + 10\),你想預測一位溫習了 \(x = 5\) 小時的學生的成績 (y):
$$y = 2.5(5) + 10$$
$$y = 12.5 + 10$$
$$y = 22.5$$
💡 使用回歸方程的小貼士
請記住,只在完成計算後才將最終數值進行正確取捨(通常取 3 位有效數字,除非另有說明)。除非題目要求你陳述方程本身的準確度,否則不要隨意對方程中的斜率和截距值進行四捨五入。
重點摘要(進階):線性回歸方程是最佳擬合線的數學版本,使用 GDC 可以快速且精確地得出。
📝 散佈圖快速回顧
- 目的:顯示兩個變量之間的關係(相關性)。
- 繪圖(核心/進階):將點標記為小十字 (x)。
- 相關性:由方向(正、負、零)和強度(弱、中等、強)描述。
- 最佳擬合線 (LOBF):必須是一條穿過平均點 $(\bar{x}, \bar{y})$ 的直線,且兩側點分佈均勻。
- 線性回歸(僅進階):使用 GDC 找出精確的 LOBF 方程(如 \(y = mx + c\))以進行精確預測。
繼續練習精確繪製 LOBF——這通常是考試中得分較高的實踐技能!你一定做得到的!