歡迎來到網絡科學 (Option C) 學習筆記!

各位未來的電腦科學家好!本章節網絡科學 (Web Science) 是你們選修單元中非常精彩的一部分。這不僅僅是關於如何建立網站,更是要理解網絡作為一個龐大且持續演變的系統——一個連結了數十億人、機器與思想的「社會技術網絡」。

我們將探索網絡的底層結構、搜尋引擎的運作原理、社交連結背後的數學規律,以及「更智能」網絡的未來願景。

別擔心「PageRank」或「本體論 (Ontology)」這類術語聽起來很複雜,我們會把它們拆解成簡單的現實案例!

C.1 網絡的結構

網絡作為圖 (The Web as a Graph)

從本質上講,萬維網 (World Wide Web) 是一個巨大的圖結構 (Graph Structure)

  • 節點 (Nodes/Vertices): 指的是獨立的網頁、文件、圖片或資源。
  • 邊 (Edges/Links): 指的是連結一個節點到另一個節點的超連結 (Hyperlinks)。

這種簡單的圖結構對於理解一切至關重要,從搜尋引擎如何運作(追蹤邊),到資訊如何傳播(跨越節點),都離不開它。

關鍵尋址與協定概念

統一資源標識符 (URI) 與 URL

URI (Uniform Resource Identifier) 是一個通用術語,指代任何用於識別資源的字串。

URL (Uniform Resource Locator) 則是 URI 的一種具體類型,它不僅識別資源,還告訴你「如何」找到該資源(即存取機制)。可以把 URI 看作名字,而 URL 則是名字加上實體地址。

協定:HTTP 與 TCP/IP

通訊的骨幹依賴於各種協定:

1. 超文本傳輸協定 (HTTP)

  • HTTP 是用於在客戶端(你的瀏覽器)與伺服器之間傳輸數據的協定。
  • 關鍵特性:HTTP 是無狀態 (Stateless) 的。 這點極為重要。這意味著伺服器會忘記關於客戶端先前請求的所有資訊。每一個請求都被視為全新的請求。
    類比:想像一個侍應生,他在送上主菜後立刻忘記了你點的飲料。你每次開口時都必須重新提醒他是誰以及你想要什麼。
  • 為了克服這種無狀態特性(特別是針對登入或購物車功能),網絡會使用 Cookie Session ID 來追蹤用戶。

2. TCP/IP

  • TCP (傳輸控制協定): 確保數據封包能可靠地並按正確順序傳遞。
  • IP (網際網路協定): 處理定址問題,確保封包能被路由到正確的目標 IP 地址。
域名系統 (DNS)

DNS 就像是互聯網的電話簿。

  • 人類使用易記的域名(例如 www.google.com)。
  • 電腦使用數字化的 IP 地址(例如 172.217.14.174)。
  • 過程: 當你輸入域名時,你的電腦會向 DNS 伺服器發送請求,伺服器會查詢對應的 IP 地址並回傳。隨後,你的瀏覽器便會利用這個 IP 地址連線至伺服器。
C.1 重點回顧:
網絡是一個由節點(網頁)和邊(連結)組成的圖。HTTP 是無狀態的,並依賴 DNS 將人類可讀的名稱轉譯為機器可讀的 IP 地址。

C.2 資訊搜尋:搜尋技術

搜尋引擎的組成部分

搜尋引擎是用於索引及檢索網絡上大量資訊的複雜系統。它們通常包含三個主要部分:

  1. 網絡爬蟲 (Crawler/Spider/Bot): 該程式系統性地瀏覽網絡,追蹤連結並下載網頁,以發現新的及更新後的內容。
  2. 索引器 (Indexer): 負責處理下載的頁面,提取關鍵字、計算連結結構,並將資訊儲存在龐大的索引(就像巨大的圖書館目錄)中。
  3. 查詢處理器 (Query Processor/Search Interface): 接收用戶的搜尋詞,對照索引進行查詢,並應用排名演算法來呈現結果。

網頁排名演算法

僅僅找到相關網頁是不夠的;搜尋引擎必須優先展示最重要的網頁。這就是排名演算法的工作,其中最著名的是 PageRank(由 Google 開發)。

PageRank 的核心原則: 如果重要的頁面連結到某個頁面,那麼該頁面也被視為重要。

  • 這不僅取決於頁面收到的連結數量(入度/In-degree),更取決於連結的品質
  • 如果頁面 A 連結到頁面 B,頁面 A 就像是在為頁面 B「投票」。
  • 如果頁面 A 本身很重要,它的投票權重就會比來自不重要頁面的投票更高。
  • PageRank 計算是遞迴式 (Recursive) 的:一個頁面的重要性取決於連結到它的頁面的重要性,從而形成一個複雜的迭代過程。

現有搜尋引擎的局限性

儘管搜尋引擎功能強大,但仍面臨嚴峻挑戰:

  • 網絡垃圾郵件 (SEO 操縱): 人們嘗試透過關鍵字堆疊、隱藏文字,或建立虛假連結網絡(連結農場)來欺騙演算法,以人為提升排名。
  • 深網/隱形網 (Deep Web/Invisible Web): 大量資料無法被索引,因為它們位於密碼牆之後、需要提交表單(例如銀行帳戶、私人資料庫),或是屬於專有資料。
  • 語言與文化壁壘: 對於相關性的定義可能因語言和文化而異。
  • 過濾泡沫與偏見: 演算法根據你的歷史紀錄個性化搜尋結果,可能導致你只能看到符合你既有觀點的資訊,將你與多元觀點隔絕。
你知道嗎? Google 除了 PageRank 之外,還會使用許多(通常多達數百種)專有因素來為搜尋結果排名,使得確切的排名流程高度保密且不斷演進。

C.3 社交網絡與網絡分析

社交網絡 (Web 2.0) 引入了用戶產生內容與建立連結的平台。網絡科學使用社交網絡分析 (Social Network Analysis, SNA) 來剖析這些連結。

網絡分析中的關鍵概念

在社交網絡(如 Facebook 或 Twitter)中:

  • 節點: 個人、群體或實體。
  • 邊: 關係或互動(例如:成為好友、追蹤、提及)。
網絡指標

我們使用指標來衡量節點的重要性和結構:

  • 度中心性 (Degree Centrality): 節點擁有的直接連結數量。(例如:擁有 500 位好友的人具有高度中心性。)
  • 路徑長度 (Path Length): 兩個節點之間的最短距離(最小步數/邊數)。這正是著名的「六度分隔理論」的基礎。
  • 聚類係數 (Clustering Coefficient): 衡量一個節點的鄰居們彼此連結的緊密程度。高聚類係數暗示該節點屬於一個緊密的社群。

冪律分佈與集散節點 (Power Law & Hubs)

許多真實世界的網絡,包括社交網絡和網絡本身,都遵循冪律分佈 (Power Law distribution)(或稱為無尺度網絡)。

  • 在常態分佈中,大多數項目接近平均值。
  • 在冪律分佈中,少數節點(集散節點/Hubs)擁有極多連結,而絕大多數節點只有很少的連結。
  • 類比: 在 Instagram 上,少數名星擁有數百萬追蹤者(集散節點),而普通用戶通常只有幾百個。
  • 重要性: 集散節點對於網絡穩定性至關重要(如果它們失效,網絡連接能力會大幅下降),同時也是資訊擴散的主要媒介(病毒式內容的傳播核心)。

社交網絡中的倫理與法律問題

用戶資料的收集與使用引發了嚴重的倫理與法律擔憂:

  • 私隱與資料洩漏: 大規模資料收集(通常未經用戶完全知情)使個人容易遭到側寫、追蹤及資料外洩的風險。
  • 操縱: 社交網絡結構分析可用於識別關鍵影響者(集散節點),進行針對性廣告或政治宣傳,可能剝削行為弱點。
  • 治理: 誰來監管這些全球性平台上的言論與內容(如仇恨言論、假新聞)?各國法律往往難以跟上無國界的數位通訊。

C.4 超越語法:語意網

對意義 (Semantics) 的需求

目前的網絡 (Web 2.0) 主要為人類閱讀而設計。雖然電腦可以透過 HTML 讀取網頁的「結構」(語法),但它們難以理解內容的「意義」(語意)。

例子:電腦看到 "

15.00

",卻無法分辨這是時間、價格、溫度還是數量。

語意網 (Semantic Web)(通常稱為 Web 3.0)的目標是建立一個資料網絡,讓電腦能理解資訊的含義,從而實現自動化處理。

語意網的核心技術

資源描述框架 (RDF)

RDF 是以機器可讀方式表達資訊的基礎技術,它使用稱為三元組 (Triples) 的簡單陳述句。

三元組永遠由三個部分組成:

  1. 主語 (Subject): 被描述的資源。
  2. 謂語 (Predicate/Property): 關係或屬性。
  3. 賓語 (Object): 值或其他資源。

例子: 如果我們想表達 "Tim Berners-Lee 發明了萬維網",其三元組為:
(Tim Berners-Lee, 發明, 萬維網)。
這種結構使機器能夠構建龐大且互聯的意義事實資料庫。

本體論 (Ontologies)

如果說 RDF 提供了事實的格式(三元組),那麼本體論 (Ontologies) 就提供了知識的規則與結構。

  • 本體論是對共用概念化的正式且明確的規範。
  • 將本體論視為一本共用的字典或知識地圖,定義了特定領域內的類別(事物的類型)、屬性(關係)與約束(規則)。
  • 例子:生物學的本體論會正式定義「哺乳動物」,定義其屬性(如「有毛髮」),並定義約束(如「屬於」動物類型)。

本體論允許不同的系統對術語的精確含義達成共識,從而實現有效的資料整合與自動化推理。

語意網的挑戰

  • 採用率: 要讓數百萬用戶和組織持續使用標準化的語意標記,過程困難且緩慢。
  • 複雜性: 開發及維護複雜、詳細的本體論需要消耗大量資源。
  • 不確定性與矛盾: 真實世界的資料通常雜亂、矛盾且模糊。標準的語意語言難以輕易處理這些歧義。

C.5 網絡的未來

網絡的演進

網絡大致經歷了三個階段:

  • Web 1.0 (唯讀網絡): 靜態內容、簡單瀏覽、互動受限。(1990 年代)。
  • Web 2.0 (社交/互動網絡): 用戶產生內容、網誌、社交網絡、動態介面。(2000 年代初期)。
  • Web 3.0 (語意/空間網絡): 專注於機器理解(語意網)、去中心化系統(區塊鏈),以及整合物理與數位現實(物聯網、元宇宙)。

物聯網 (IoT)

物聯網對於未來網絡至關重要。它是指嵌入了技術的實體物件(設備、車輛、電器、感測器)組成的網絡,使其能夠收集並交換資料。

物聯網產生了海量資料(大數據),需要進行處理,這就需要語意網所預想的結構與智慧來解析這些即時輸入的資訊。

未來網絡面臨的持續挑戰

網絡的持續擴張正面臨幾個重大的社會技術挑戰:

  • 安全與信任: 隨著更多設備(IoT)與個人資料移至線上,網路攻擊、身分盜用與資料操縱的風險呈指數級增長。
  • 資訊過載: 海量的內容使得品質篩選與有效搜尋變得日益困難。
  • 數位落差: 擁有高速網路與必要技術的人,與缺乏這些條件的人之間的差距,可能在全球範圍內造成嚴重的社會與經濟不平等。
  • 網絡治理: 確定誰來管控這個全球性、無國界系統的基礎設施、標準與內容規則,仍是一個複雜的政治與技術挑戰。
重點總結:網絡科學核心概念

1. 結構: 網絡是一個圖。HTTP 是無狀態的。

2. 搜尋: PageRank 評估來自重要頁面的連結(而不僅僅是連結的數量)。

3. 社交: 網絡通常遵循冪律分佈(集散節點)。

4. 語意: 使用 RDF 三元組本體論 為數據賦予機器可理解的意義。