歡迎來到 AS Level IT:數據處理與資訊!

你好!這一章節「數據處理與資訊」是我們資訊科技所有學習內容的基石。你可以把它想像成學習「原始食材」與「美味成品」之間的區別。我們將探索零碎的事實如何轉化為有用的知識、我們如何保護這些知識,以及電腦每天處理龐大數據的不同方式。

別擔心如果有某些術語看起來很陌生——我們會將加密(Encryption)和驗證(Validation)等複雜概念拆解成簡單的步驟。讓我們開始吧!

1.1 理解數據與資訊

數據與資訊有何區別?

這是考試中的經典問題,所以請密切注意它們的區別!

  • 數據(Data): 這是原始、未經結構化的事實、數字或符號。它們本身沒有內在含義或背景。
    例子:25.04.2024、45、USD、A123。

  • 資訊(Information): 這是經過處理、整理並賦予背景的數據,使其變得有用且具備含義。
    例子:在 25.04.2024,編號為 A123 的產品以 USD 200 的價格售出了 45 個單位。

重點歸納: 數據透過背景(Context)含義(Meaning)轉化為資訊。

數據的來源與用途

我們主要透過兩種方式收集數據:直接(親自收集)或間接(使用他人收集的數據)。

直接數據(一手資料 / Primary Source)

這是為了當前目的而專門收集的數據。通常準確度較高且更有針對性,但獲取的時間和成本通常較高。

  • 來源:
    • 問卷與調查(直接詢問客戶)。
    • 訪談(與專家或用戶交流)。
    • 數據記錄(Data Logging)(傳感器自動記錄溫度、壓力等)。
    • 觀察(觀察並記錄行為)。
  • 適用情況: 當你需要高度相關、最新且完全客製化以符合你研究需求的數據時,這是最理想的選擇。
間接數據(二手資料 / Secondary Source)

這是已經存在的數據,通常是為了其他目的而收集,但對你也有用。獲取速度快且成本低,但可能過時或相關性較低。

  • 來源:
    • 氣象數據(來自氣象局)。
    • 人口普查數據或選民登記冊。
    • 教科書、期刊和網站的研究。
    • 企業收集並出售給第三方的個人資訊(例如:營銷名單)。
  • 適用情況: 非常適合大規模分析、歷史比較,或在預算和時間有限的情況下使用。
快速回顧:直接 vs. 間接

想像一下買鞋子:
直接數據: 親自測量你的腳(準確、具體)。
間接數據: 使用標準鞋碼表(快速、通用,但不一定完全合腳)。

1.2 資訊的品質

即使數據經過了處理,如果沒有達到高品質,它依然沒有用處。以下因素會影響所得資訊的可靠性:

  • 準確性(Accuracy): 數據是否正確且無錯誤?不準確的數據會導致錯誤的決策。
  • 相關性(Relevance): 資訊是否確實與所問的任務或問題相關?
  • 時效性(Age / Timeliness): 資訊是否為最新?過於老舊的資訊可能已失去意義(例如:昨天的股票價格)。
  • 詳細程度(Level of Detail): 詳細程度是否符合目的?(太少會缺乏背景;太多則會讓使用者感到困惑)。
  • 完整性(Completeness): 是否所有必要的數據都在?缺失欄位或間隙會降低可靠性。

比喻:如果你正在計算每月銷售額,對執行長來說,知道總數(低詳細度)可能就足夠了,但銷售經理則需要按產品和地區細分的銷售數據(高詳細度)。

1.3 加密:確保數據安全

數據經常在網絡上傳輸或存儲在可存取的區域,因此加密的必要性至關重要。加密確保即使未經授權的人取得數據,數據依然無法閱讀。

加密(Encryption)是將資訊或數據轉換為密碼(密文,Ciphertext)的過程,旨在防止未經授權的存取。

加密方法

加密依賴數學過程(演算法)和金鑰(Key,一個秘密數值)來擾亂和還原數據。

  1. 對稱加密(Symmetric Encryption,僅有私鑰):

    在加密和解密數據時使用相同的金鑰。它的速度很快,但挑戰在於如何安全地將私鑰分享給接收者。
    例子:用一把共同持有的鑰匙鎖上日記本。

  2. 非對稱加密(Asymmetric Encryption,公鑰與私鑰):

    使用兩把數學相關的金鑰:公鑰(Public Key,廣泛公開)私鑰(Private Key,由擁有者妥善保管)。用公鑰加密的數據只能用對應的私鑰解密(反之亦然)。這解決了安全分享金鑰的問題。
    例子:寄送一個鎖上的箱子(公鑰),只有接收者才有開啟箱子的主鑰匙(私鑰)。

加密協議

這些是管理安全通訊的一套標準規則,特別是在客戶端與伺服器之間的通訊(例如瀏覽網站)。

  • TLS/SSL(傳輸層安全性協定 / 安全通訊端層):
    • 用途: 用於保護網絡上的通訊,最常見於瀏覽安全網站(HTTPS)時。
    • 運作方式: 確保你的網絡瀏覽器(客戶端)與網站伺服器之間交換的數據是私密且防竄改的。它首先使用非對稱加密來安全地約定一個對稱金鑰,用於後續大量的數據傳輸。
  • IPsec(網際網絡協定安全性):
    • 用途: 用於保護 IP 通訊的一套協議。常被用來建立虛擬私人網絡(VPN)
    • 運作方式: 它在網絡層運作,在數據包通過互聯網時進行保護,從而保護整個通訊流程。

加密的用途

加密對於以下方面至關重要:

  • 保護數據: 保護存儲在硬碟上的文件(磁碟加密)。
  • 系統加密: 在大型系統(如銀行或政府系統)內保護登入憑證和通訊渠道。
你知道嗎?

SSL 是較舊的版本;TLS 是現代的標準。當你在瀏覽器看到掛鎖圖標時,該連接就是受到 TLS 保護的!

1.4 檢查數據的準確性

在處理數據之前,我們必須確保數據正確。我們使用兩種主要方法:驗證(Validation)核對(Verification)

驗證(確保數據「合理」)

驗證(Validation)檢查輸入的數據是否落在可接受的範圍內或符合預定義的規則。它不保證數據在事實上是正確的,只保證數據對於系統來說是適當的。

  • 驗證檢查的類型:
    • 存在檢查(Presence Check): 確保必填欄位已填寫(例如:客戶必須輸入姓名)。
    • 範圍檢查(Range Check / Limit Check): 檢查數據是否在指定的最小值和最大值之間(例如:年齡必須在 18 到 99 之間)。
    • 類型檢查(Type Check): 確保數據屬於正確的數據類型(例如:電話號碼欄位只包含數字,不包含字母)。
    • 長度檢查(Length Check): 檢查字元的數量(例如:產品代碼必須恰好為 6 個字元)。
    • 格式檢查(Format Check): 檢查數據是否符合特定模式或結構(例如:電子郵件地址必須包含「@」符號)。
    • 查找檢查(Lookup Check): 將輸入與儲存在別處的可接受值列表進行比較(例如:將國家代碼與資料庫列表進行核對)。
    • 一致性檢查(Consistency Check): 檢查不同欄位中的數據是否邏輯一致(例如:送貨日期不能早於訂單日期)。
    • 檢查位(Check Digit): 由代碼其餘部分計算出的額外位數,用於檢測輸入錯誤(常見於 ISBN 或條碼)。

核對(確保數據「正確」)

核對(Verification)檢查輸入到系統的數據是否與原始來源數據完全一致。

  • 核對方法:
    • 視覺核對(Visual Checking): 人手查看螢幕輸入並與原始文件進行比較。(速度較慢,但對發現明顯錯誤很有效)。
    • 雙重數據輸入(Double Data Entry): 由兩個不同的人或系統輸入兩次數據。系統隨後比較兩次輸入並標記任何差異。(對準確性極為有效,但工作量加倍)。
    • 同位檢查(Parity Check)、總和檢查碼(Checksum)、雜湊總和(Hash Total)、控制總和(Control Total): 這些技術檢查主要用於傳輸或批次處理,以確保數據在傳輸過程中沒有損壞或丟失。
    • 控制總和(Control Total): 從數據中導出的一個無實際意義的數字(例如:將所有客戶 ID 號碼相加)。處理後檢查此總和,以確保所有記錄都已包含在內。
關鍵區別:驗證 vs. 核對

驗證: 檢查輸入是否合理(500 是合理的年齡嗎?不是)。
核對: 檢查輸入是否轉錄正確(我輸入的客戶 ID 是 1234,但本來應該是 1243 嗎?)。

兩者缺一不可: 你需要驗證來阻止明顯錯誤的數據(如 -5 歲),也需要核對來阻止雖準確但輸入錯誤的數據(如將正確病人的體重輸入到錯誤病人的檔案中)。

1.5 數據處理方法

一旦我們有了高品質數據,就需要對其進行處理。選擇的方法完全取決於應用程式的要求,特別是輸出速度的需求,以及輸入是否會影響過程本身。

1. 批次處理(Batch Processing)

數據在一段時間內收集,並在預定時間分組(「批次」)在一起處理,通常在電腦使用率較低時(例如:夜間)進行。

  • 特性:
    • 無需立即互動。
    • 非常適合需要大量處理能力的海量數據。
  • 用途:
    • 計算水電費帳單。
    • 更新信用卡和借記卡帳戶(交易會分批並在夜間處理)。
    • 薪資處理與客戶帳戶更新。
  • 順序主檔更新過程:
    1. 數據被收集到交易檔(Transaction File)中(所有新變更)。
    2. 主檔(Master File)和交易檔按相同順序排序(通常按主鍵)。
    3. 系統按順序讀取兩個檔案,並比較記錄。
    4. 根據交易檔記錄更新主檔,建立一個新的更新後主檔。
比喻:批次處理

想像洗衣服。你在整個星期收集所有的髒衣服(數據批次),然後在星期六晚上運作一次洗衣機(處理時間)。

2. 線上處理(Online Processing)

數據在輸入時立即處理,通常涉及與使用者或系統的直接互動,但該操作*不一定*會實時影響物理環境。

  • 特性:
    • 需要立即反饋或完成交易。
    • 涉及使用者的實時輸入。
  • 用途與步驟:
    • 電子資金轉帳(EFT): 當你使用借記卡時,交易會立即處理以檢查餘額並更新你的銀行帳戶。
    • 線上購物: 下訂單會立即更新庫存水平。
    • 自動庫存控制: 系統隨商品售出而更新庫存。
    • 電子數據交換(EDI): 企業之間文件的自動傳輸(如發票或訂單)。
    • 企業對企業(B2B)買賣。

3. 實時處理(Real-Time Processing,關鍵連結:輸出影響輸入)

這是一種特殊的線上處理,其過程的輸出直接影響或控制下一次的輸入。回應時間是即時的,因為延遲可能會造成嚴重的後果。

  • 特性:
    • 通常由微處理器或專用電腦系統控制。
    • 連續反饋迴路:感測(輸入)-> 處理 -> 驅動(輸出)-> 感測...
  • 用途(微處理器控制系統):
    • 溫室/中央暖氣/空調: 傳感器測量溫度(輸入);如果太冷,系統開啟加熱器(輸出)。
    • 防盜警報: 運動傳感器(輸入)觸發警報器(輸出)。
    • 交通/行人流控制: 紅綠燈根據傳感器檢測到的車輛情況進行調整。
    • 停車場閘門: 傳感器檢測票據,促使閘門升起或保持關閉。
  • 無線傳感與執行器網絡(WSANs): 這些是一組設備,用於感知情況並以無線方式進行操作。
    • 智慧家居: 根據環境條件控制照明或安全系統。
    • 自動駕駛載具(汽車、無人機、船隻): 不斷感知環境(距離、速度、障礙物)並立即調整方向、速度或高度(輸出)。
    • 導航系統(太空火箭): 感知當前位置並立即修正軌跡。
處理方法的重點總結

批次(Batch): 等待並一次過處理(水電費帳單)。
線上(Online): 立即執行,但屬於單一交易(ATM 取款)。
實時(Real-Time): 立即執行,且動作會*改變*物理世界,要求即時回應(交通燈)。

第一章:總結

我們確立了數據(原始事實)與資訊(經過處理、具備背景的數據)之間的本質關係。我們了解到數據必須具備高品質(準確、相關、及時),並透過加密(對稱和非對稱協議,如 TLS/SSL)進行保護。最後,我們探討了如何利用驗證(檢查合理性)和核對(與來源比對以檢查準確性)來維護數據完整性,並分析了批次處理線上處理實時處理各自適用的場景。