👋 歡迎來到「數據」章節 (內容 3.1)

各位未來的「數位社會」專家好!這一章極為重要,因為數據是數位世界的燃料。我們所研究的一切——演算法、人工智慧、網路——全都依賴數據。只要你了解數據的運作方式、來源及其演變過程,你就掌握了整門課程的關鍵!

我們將會拆解一些棘手的概念,例如數據與資訊的區別,以及海量數據(大數據)如何影響我們的身分與隱私。別擔心這些概念聽起來很專業,我們會用簡單的類比來確保你能輕鬆掌握!


1. 數據 (Data) 與資訊 (Information):至關重要的區別

原始材料 vs. 成品

在「數位社會」課程中,我們對用語必須精確。在日常對話中,「數據」和「資訊」經常被混用,但在概念上,它們有著本質的區別。

核心定義
  • 數據 (Data): 指的是原始、未經處理的事實、數字、符號或觀察結果。單看數據本身是沒有意義的——它缺乏情境。
    例子:「45」、「史密斯 (Smith)」、「喜歡貓」、「上午 10:30」。
  • 資訊 (Information): 指的是經過處理、組織、結構化,並在特定情境下呈現的數據。資訊提供了意義與關聯性。
    例子:「史密斯先生 (Smith) 預定搭乘的火車 (45) 已於上午 10:30 (10:30 AM) 出發。」

類比時間!👨‍🍳 把它想成烹飪:
數據就是原材料:麵粉、雞蛋、糖。
處理 (Processing) 就是烹飪過程:攪拌、烘焙、裝飾。
資訊就是成品:一個生日蛋糕!

快速總結

數據回答了「這是什麼?」(原始事實)。資訊則回答了「這代表什麼?」(情境化的事實)。


2. 數據的類型

並非所有的數據都是一樣的!我們會透過不同的方式分類數據,以了解其用途與潛在影響。

定量數據 vs. 定性數據

  • 定量數據 (Quantitative Data):
    這類數據與數字有關,可以被測量或計算。它們結構化強,容易輸入資料庫。
    例子:年齡、身高、交易金額、網站點擊次數。
  • 定性數據 (Qualitative Data):
    這類數據具描述性,處理的是品質、屬性或特徵。它們通常是非結構化的,沒有先進演算法的輔助,電腦很難處理。
    例子:用戶評論(「我覺得這款應用程式很難用」)、訪談記錄、感受調查。

你知道嗎? 社群媒體上的貼文大多屬於定性數據(文字、圖像),但平台會透過計算按讚數、分享次數以及觀看時間,將其轉化為定量數據。

大數據 (Big Data):數位社會的巨大堆疊

在「數位社會」課程中,我們非常著重於大數據。它指的是數據集規模極大且極其複雜,傳統數據處理應用程式已無法應付。

大數據的三個「V」(記憶口訣!)

要理解大數據,請記住三個「V」:

  1. 容量 (Volume): 數據的龐大數量。我們指的是拍位元組 (Petabytes,即數千個 Terabytes)。例子:臉書一個月內上傳的所有照片。
  2. 速度 (Velocity): 數據產生、收集與處理的速度。數據必須幾乎在即時狀態下進行分析。例子:股票交易或即時定位追蹤。
  3. 多樣性 (Variety): 數據的不同形式。它包括一切:結構化的數字、非結構化的文字、音訊、視訊、感測器讀數和衛星影像。
為什麼大數據很重要?

處理大數據的目的不僅僅是儲存;而是找出人類分析師可能忽略的規律 (Patterns) 與關聯。這些規律推動了預測、個人化服務與針對性的政策(這將數據與權力 (Power) 的概念連結了起來)。


3. 數據收集與數據生命週期

這些數據是從哪裡來的?在它成為有意義的資訊之前,經歷了怎樣的路徑?

數據如何收集(主動 vs. 被動)

數據收集方式與價值觀與道德 (Values and Ethics) 的倫理概念直接相關,特別是在「知情同意」方面。

  • 主動數據收集:
    使用者或個人刻意提供數據。他們知道自己正在輸入資訊。
    例子:填寫註冊表單、提交問卷調查、在照片中標記自己。
  • 被動數據收集:
    數據在個人未自覺提供的情況下被收集,通常是透過監控活動或數位足跡。這也是大多數隱私問題產生的來源。
    例子:追蹤瀏覽歷史的 Cookies、記錄使用模式的智慧裝置、記錄你位置的 GPS、電子郵件中的元數據 (metadata)。

數據生命週期:從收集到洞察

數據並非靜止的;它在系統中不斷移動(這將數據與系統 (Systems) 的概念連結了起來)。

  1. 收集: 從來源(主動或被動)獲取原始數據。
  2. 儲存: 將數據保存在資料庫、數據倉儲或雲端。
  3. 處理/分析: 使用演算法(見 3.2 內容)來清理、結構化、組織及分析數據,以找出規律。
  4. 資訊/洞察: 分析的結果——這是用於決策的有意義產出。
  5. 使用/行動: 應用洞察,例如投放精準廣告、推薦產品或制定政府政策。
快速複習:被動數據是「潛伏者」

在考試討論隱私時,請記住被動數據收集(對我們數位足跡的隱蔽追蹤)通常會引發最大的倫理挑戰,並影響身分 (Identity) 的概念。


4. 數據在數位社會的影響

數據的龐大數量與應用方式,對全球個人與社群產生了深遠影響。本節將內容(數據)直接連結到核心概念(身分、權力、價值觀與道德)。

數據所有權與控制

一個重大的爭論圍繞在:由使用者產生的數據,所有權歸誰?

當你使用免費服務(例如社群媒體)時,你通常是交換了平台存取權,以換取使用與將你的數據商業化的權利。這引發了巨大企業與一般公民之間權力 (Power) 平衡的疑慮。

  • 數據所有權: 是屬於使用者、收集數據的平台,還是裝置製造商?像歐洲的《一般資料保護規範》(GDPR) 這樣的法律,正試圖讓公民對個人數據擁有更多控制權。
  • 數據可攜性 (Data Portability): 將你的數據從一個服務提供商轉移到另一個提供商的權利。這對於維持競爭性市場和賦權使用者至關重要。

隱私疑慮與個人數據

收集海量數據的能力,讓公司與政府能夠建立極其詳細的個人檔案,這往往會導致隱私權受到侵犯。

情境範例: 某公司收集了一名年輕人的線上活動數據(搜尋大學、使用學習應用程式的時間、音樂喜好)。這份檔案不僅可用於精準行銷,也可能被賣給保險公司,或被大學用來預測其社會經濟背景,這侵犯了當事人的身分 (Identity),並違背了公平原則。

數據偏見與不平等

數據是由人類收集與組織的,這意味著它容易產生偏見。如果訓練系統的數據有缺陷,或者反映了現有的社會偏見,系統產生的結果也會帶有偏見,進而可能強化社會不平等。

  • 收集偏見 (Collection Bias): 只從富裕地區收集的數據,可能導致服務忽略低收入地區的需求。
  • 代表性偏見 (Representation Bias): 如果人臉辨識系統的訓練數據中,絕大多數來自某個族群,那麼在辨識其他族群的人時,效果會很差(甚至產生危險)。

重點總結: 有偏見的數據會產生有偏見的資訊,這會影響價值觀與道德 (Values and Ethics) 以及數位社會中的公平性。


第 3.1 章 數據總結

我們學到數據是原材料,必須經過處理轉化為資訊才能獲得意義。大數據由容量 (Volume)、速度 (Velocity) 和多樣性 (Variety) 定義,而其收集過程(主動與被動)引發了關於隱私、所有權與演算法偏見的深遠問題。掌握這些概念,將為理解下一章「演算法 (3.2)」奠定基礎!繼續保持努力!