簡介:將數據轉化為知識

你好!歡迎來到這章令人興奮的數據分析與視覺化 (Data Analysis and Visualisation)。你在 AS 水平的學習中,已經掌握了試算表、資料庫和建模等基本工具。現在,我們進入 A Level 的階段,學習如何運用這些工具來處理現實世界中複雜的數據難題。

這個單元非常重要,因為單單擁有數據是不夠的;你必須具備清理整合詮釋數據的能力,並將其呈現給他人,從而協助他們做出明智的決策。把自己想像成一名數據偵探,將雜亂無章的原始資訊轉化為美觀且具洞察力的故事吧!

17.1 數據分析與視覺化

本節的核心要求是將你已有的 AS 技能(第 8、9、10 節)應用到更高複雜度的層面:處理來自多個來源且不完善的數據,並以視覺化方式呈現分析後的結果。

1. 數據轉換與清理

在分析數據之前,你必須確保數據可靠。數據轉換與清理 (Transforming and cleaning data) 是指修正錯誤、處理缺失值以及確保數據格式一致的過程。

類比:如果你正在蓋房子,清理數據就像是打地基。如果地基不穩(數據髒亂),整棟房子(你的分析結果)就會崩塌。

提取有效資訊的關鍵清理任務:

  • 格式標準化 (Standardising Formats):確保所有日期的格式統一(例如:DD/MM/YYYY),且所有文字輸入格式一致(例如:統一使用 "UK" 而非 "United Kingdom")。
  • 處理異常值 (Handling Outliers):識別並決定如何處理那些與其他數據大相徑庭的點(例如:薪水輸入為 5,000,000,這很可能是輸入錯誤)。
  • 移除重複項目 (Removing Duplicates):確保每個獨特的實體(例如:客戶、交易)只出現一次。
  • 處理缺失數據 (Dealing with Missing Data):透過合理的估算來填補空缺,或者決定剔除不完整的記錄。

重點總結:乾淨的數據能直接產生有意義的資訊。這裡的黃金法則就是「垃圾進,垃圾出 (GIGO)」!

2. 從不同來源獲取數據

在現實的資訊科技系統中,數據很少會整齊地放在同一個地方。你通常需要處理從兩個不同的資料庫、試算表或日誌中匯出的數據。這需要特定的技術來管理多來源輸入。

數據的比較與整合

這涉及將來自不同檔案且擁有共同欄位(例如產品編號或員工姓名)的資訊集合起來,並將有用的部分合併為一個連貫的數據集。

  • 比較 (Comparing):對比各數據集以識別異同。例子:比較倉庫資料庫記錄的庫存量與線上銷售系統記錄的庫存量。
  • 整合 (Consolidating):合併數據,通常是根據關鍵準則,從多個來源加總或計算總數。例子:將五個地區分部的每月銷售試算表合併為一張總表,以計算每條產品線的銷售總額。
拆分與合併數據欄位

這些是必要的轉換技術,通常透過試算表函數(如 LEFT、RIGHT、MID、FIND、CONCATENATE 或「資料剖析/分欄」工具)來完成。

1. 將數據拆分為獨立欄位 (Splitting Data into Discrete Fields)

這意味著取用一個欄位並將其內容分拆為兩個或多個不同的欄位。當一個欄位包含多項需要分開分析的資訊時,你就需要這樣做。

  • 例子:一個名為 'ProductCode' 的欄位包含 A456-RED。你可能需要將其拆分為 'Product_ID' (A456)'Colour' (RED)
  • 為什麼?如果你想按顏色進行排序,顏色必須位於其專屬的獨立欄位中。

2. 合併數據至所需欄位 (Merging and Combining Data)

這剛好相反:取用兩個或多個獨立欄位並將它們連接在一起,通常是為了展示目的(例如製作郵寄標籤)。

  • 例子:'First Name'(名)和 'Last Name'(姓)欄位合併,中間加上空格,以創建一個 'Full Name'(全名)欄位。
  • 常見錯誤:合併文字欄位時,忘記加入必要的字元,例如空格或逗號!
快速回顧:數據流轉週期

(2 個來源) → 整合/比較 → (單一原始數據集)
(原始數據集) → 清理與轉換(拆分/合併) → (最終乾淨數據集)
(最終乾淨數據集) → 分析與視覺化(樞紐分析/圖表) → (資訊)

3. 以視覺化方式傳達資訊

數據清理並準備好後,最後且關鍵的一步就是將其呈現出來,讓使用者無需翻閱數千行數據,即可快速掌握分析結果。這就是視覺化 (Visualisation) 的作用。

樞紐分析表 (Pivot Table Reports)

樞紐分析表是強大的摘要工具,主要用於試算表軟體(亦可透過交叉資料表查詢在資料庫中使用)。

  • 定義:樞紐分析表透過使用者定義的列、欄和篩選器,對大型數據集進行分組、平均、計數或加總,從而動態地摘要數據。
  • 目的:它們允許使用者快速旋轉(或「樞紐」)數據結構,以觀察不同的角度,而無需為每個分組手動編寫複雜的公式。
  • 例子:想像你有一整年的交易數據。樞紐分析表可以快速顯示 每個月 (列) 按 產品類別 (欄) 分割後的 總收入 (值)。
  • 優點:它們能即時、動態地生成複雜的數據摘要,並根據利益相關者的提問輕鬆進行調整。
樞紐分析圖 (Pivot Charts)

樞紐分析圖只是樞紐分析表中摘要數據的圖形化表示。

你知道嗎?如果你更改樞紐分析表中的分組或篩選條件,樞紐分析圖會自動更新以反映新的摘要——這就是視覺化的「動態」特性。

  • 目的:以視覺方式傳達在樞紐分析表報告中識別出的趨勢、模式和洞察。
  • 合適的圖表類型:你必須選擇適合數據及你想傳達訊息的圖表類型(你在 AS Level 試算表第 8.4 節中學過長條圖、圓形圖和折線圖)。
    • 長條圖 (Bar Chart):適合比較離散類別(例如:不同地區的銷售額)。
    • 折線圖 (Line Graph):非常適合展示隨時間變化的趨勢(例如:每月銷售表現)。
    • 圓形圖 (Pie Chart):用於展示比例(部分的總和,例如:不同產品的市場佔有率)。
  • 效率:設計精良的樞紐分析圖能在幾秒鐘內傳達出樞紐分析表需要幾分鐘才能看懂的內容。

重點總結:樞紐分析表總結了發生了什麼事。樞紐分析圖則能快速揭示數字背後的故事,並有助於高效溝通

數據分析與視覺化總結

本章的主旨是以整合的方式應用你既有的 IT 技能來解決商業問題。成功的數據分析與視覺化需要三個要素:

1. 準備:清理並轉換髒亂的數據(拆分、合併、整合)。
2. 分析:使用強大的摘要工具(如樞紐分析表報告)來詮釋複雜的數據關係。
3. 溝通:使用動態的樞紐分析圖,清晰且高效地呈現你的發現。

持續練習這些技能,特別是處理來自不同來源的數據,你一定能掌握這個重要的 A Level 單元!