歡迎來到網絡科學 (Option C) 學習筆記！

各位未來的電腦科學家好！本章節網絡科學 (Web Science) 是你們選修單元中非常精彩的一部分。這不僅僅是關於如何建立網站，更是要理解網絡作為一個龐大且持續演變的系統——一個連結了數十億人、機器與思想的「社會技術網絡」。

我們將探索網絡的底層結構、搜尋引擎的運作原理、社交連結背後的數學規律，以及「更智能」網絡的未來願景。

別擔心「PageRank」或「本體論 (Ontology)」這類術語聽起來很複雜，我們會把它們拆解成簡單的現實案例！

C.1 網絡的結構

網絡作為圖 (The Web as a Graph)

從本質上講，萬維網 (World Wide Web) 是一個巨大的圖結構 (Graph Structure)。

節點 (Nodes/Vertices)： 指的是獨立的網頁、文件、圖片或資源。
邊 (Edges/Links)： 指的是連結一個節點到另一個節點的超連結 (Hyperlinks)。

這種簡單的圖結構對於理解一切至關重要，從搜尋引擎如何運作（追蹤邊），到資訊如何傳播（跨越節點），都離不開它。

關鍵尋址與協定概念

統一資源標識符 (URI) 與 URL

URI (Uniform Resource Identifier) 是一個通用術語，指代任何用於識別資源的字串。

URL (Uniform Resource Locator) 則是 URI 的一種具體類型，它不僅識別資源，還告訴你「如何」找到該資源（即存取機制）。可以把 URI 看作名字，而 URL 則是名字加上實體地址。

協定：HTTP 與 TCP/IP

通訊的骨幹依賴於各種協定：

1. 超文本傳輸協定 (HTTP)

HTTP 是用於在客戶端（你的瀏覽器）與伺服器之間傳輸數據的協定。
關鍵特性：HTTP 是無狀態 (Stateless) 的。 這點極為重要。這意味著伺服器會忘記關於客戶端先前請求的所有資訊。每一個請求都被視為全新的請求。
類比：想像一個侍應生，他在送上主菜後立刻忘記了你點的飲料。你每次開口時都必須重新提醒他是誰以及你想要什麼。
為了克服這種無狀態特性（特別是針對登入或購物車功能），網絡會使用 Cookie 和 Session ID 來追蹤用戶。

2. TCP/IP

TCP (傳輸控制協定)： 確保數據封包能可靠地並按正確順序傳遞。
IP (網際網路協定)： 處理定址問題，確保封包能被路由到正確的目標 IP 地址。

域名系統 (DNS)

DNS 就像是互聯網的電話簿。

人類使用易記的域名（例如 www.google.com）。
電腦使用數字化的 IP 地址（例如 172.217.14.174）。
過程： 當你輸入域名時，你的電腦會向 DNS 伺服器發送請求，伺服器會查詢對應的 IP 地址並回傳。隨後，你的瀏覽器便會利用這個 IP 地址連線至伺服器。

C.1 重點回顧：
網絡是一個由節點（網頁）和邊（連結）組成的圖。HTTP 是無狀態的，並依賴 DNS 將人類可讀的名稱轉譯為機器可讀的 IP 地址。

C.2 資訊搜尋：搜尋技術

搜尋引擎的組成部分

搜尋引擎是用於索引及檢索網絡上大量資訊的複雜系統。它們通常包含三個主要部分：

網絡爬蟲 (Crawler/Spider/Bot)： 該程式系統性地瀏覽網絡，追蹤連結並下載網頁，以發現新的及更新後的內容。
索引器 (Indexer)： 負責處理下載的頁面，提取關鍵字、計算連結結構，並將資訊儲存在龐大的索引（就像巨大的圖書館目錄）中。
查詢處理器 (Query Processor/Search Interface)： 接收用戶的搜尋詞，對照索引進行查詢，並應用排名演算法來呈現結果。

網頁排名演算法

僅僅找到相關網頁是不夠的；搜尋引擎必須優先展示最重要的網頁。這就是排名演算法的工作，其中最著名的是 PageRank（由 Google 開發）。

PageRank 的核心原則： 如果重要的頁面連結到某個頁面，那麼該頁面也被視為重要。

這不僅取決於頁面收到的連結數量（入度/In-degree），更取決於連結的品質。
如果頁面 A 連結到頁面 B，頁面 A 就像是在為頁面 B「投票」。
如果頁面 A 本身很重要，它的投票權重就會比來自不重要頁面的投票更高。
PageRank 計算是遞迴式 (Recursive) 的：一個頁面的重要性取決於連結到它的頁面的重要性，從而形成一個複雜的迭代過程。

現有搜尋引擎的局限性

儘管搜尋引擎功能強大，但仍面臨嚴峻挑戰：

網絡垃圾郵件 (SEO 操縱)： 人們嘗試透過關鍵字堆疊、隱藏文字，或建立虛假連結網絡（連結農場）來欺騙演算法，以人為提升排名。
深網/隱形網 (Deep Web/Invisible Web)： 大量資料無法被索引，因為它們位於密碼牆之後、需要提交表單（例如銀行帳戶、私人資料庫），或是屬於專有資料。
語言與文化壁壘： 對於相關性的定義可能因語言和文化而異。
過濾泡沫與偏見： 演算法根據你的歷史紀錄個性化搜尋結果，可能導致你只能看到符合你既有觀點的資訊，將你與多元觀點隔絕。

你知道嗎？ Google 除了 PageRank 之外，還會使用許多（通常多達數百種）專有因素來為搜尋結果排名，使得確切的排名流程高度保密且不斷演進。

C.3 社交網絡與網絡分析

社交網絡 (Web 2.0) 引入了用戶產生內容與建立連結的平台。網絡科學使用社交網絡分析 (Social Network Analysis, SNA) 來剖析這些連結。

網絡分析中的關鍵概念

在社交網絡（如 Facebook 或 Twitter）中：

節點： 個人、群體或實體。
邊：關係或互動（例如：成為好友、追蹤、提及）。

網絡指標

我們使用指標來衡量節點的重要性和結構：

度中心性 (Degree Centrality)： 節點擁有的直接連結數量。（例如：擁有 500 位好友的人具有高度中心性。）
路徑長度 (Path Length)： 兩個節點之間的最短距離（最小步數/邊數）。這正是著名的「六度分隔理論」的基礎。
聚類係數 (Clustering Coefficient)： 衡量一個節點的鄰居們彼此連結的緊密程度。高聚類係數暗示該節點屬於一個緊密的社群。

冪律分佈與集散節點 (Power Law & Hubs)

許多真實世界的網絡，包括社交網絡和網絡本身，都遵循冪律分佈 (Power Law distribution)（或稱為無尺度網絡）。

在常態分佈中，大多數項目接近平均值。
在冪律分佈中，少數節點（集散節點/Hubs）擁有極多連結，而絕大多數節點只有很少的連結。
類比： 在 Instagram 上，少數名星擁有數百萬追蹤者（集散節點），而普通用戶通常只有幾百個。
重要性： 集散節點對於網絡穩定性至關重要（如果它們失效，網絡連接能力會大幅下降），同時也是資訊擴散的主要媒介（病毒式內容的傳播核心）。

社交網絡中的倫理與法律問題

用戶資料的收集與使用引發了嚴重的倫理與法律擔憂：

私隱與資料洩漏： 大規模資料收集（通常未經用戶完全知情）使個人容易遭到側寫、追蹤及資料外洩的風險。
操縱： 社交網絡結構分析可用於識別關鍵影響者（集散節點），進行針對性廣告或政治宣傳，可能剝削行為弱點。
治理： 誰來監管這些全球性平台上的言論與內容（如仇恨言論、假新聞）？各國法律往往難以跟上無國界的數位通訊。

C.4 超越語法：語意網

對意義 (Semantics) 的需求

目前的網絡 (Web 2.0) 主要為人類閱讀而設計。雖然電腦可以透過 HTML 讀取網頁的「結構」（語法），但它們難以理解內容的「意義」（語意）。

例子：電腦看到 "

15.00

"，卻無法分辨這是時間、價格、溫度還是數量。

語意網 (Semantic Web)（通常稱為 Web 3.0）的目標是建立一個資料網絡，讓電腦能理解資訊的含義，從而實現自動化處理。

語意網的核心技術

資源描述框架 (RDF)

RDF 是以機器可讀方式表達資訊的基礎技術，它使用稱為三元組 (Triples) 的簡單陳述句。

三元組永遠由三個部分組成：

主語 (Subject)： 被描述的資源。
謂語 (Predicate/Property)： 關係或屬性。
賓語 (Object)： 值或其他資源。

例子： 如果我們想表達 "Tim Berners-Lee 發明了萬維網"，其三元組為：
(Tim Berners-Lee, 發明, 萬維網)。
這種結構使機器能夠構建龐大且互聯的意義事實資料庫。

本體論 (Ontologies)

如果說 RDF 提供了事實的格式（三元組），那麼本體論 (Ontologies) 就提供了知識的規則與結構。

本體論是對共用概念化的正式且明確的規範。
將本體論視為一本共用的字典或知識地圖，定義了特定領域內的類別（事物的類型）、屬性（關係）與約束（規則）。
例子：生物學的本體論會正式定義「哺乳動物」，定義其屬性（如「有毛髮」），並定義約束（如「屬於」動物類型）。

本體論允許不同的系統對術語的精確含義達成共識，從而實現有效的資料整合與自動化推理。

語意網的挑戰

採用率： 要讓數百萬用戶和組織持續使用標準化的語意標記，過程困難且緩慢。
複雜性： 開發及維護複雜、詳細的本體論需要消耗大量資源。
不確定性與矛盾： 真實世界的資料通常雜亂、矛盾且模糊。標準的語意語言難以輕易處理這些歧義。

C.5 網絡的未來

網絡的演進

網絡大致經歷了三個階段：

Web 1.0 (唯讀網絡)： 靜態內容、簡單瀏覽、互動受限。（1990 年代）。
Web 2.0 (社交/互動網絡)： 用戶產生內容、網誌、社交網絡、動態介面。（2000 年代初期）。
Web 3.0 (語意/空間網絡)： 專注於機器理解（語意網）、去中心化系統（區塊鏈），以及整合物理與數位現實（物聯網、元宇宙）。

物聯網 (IoT)

物聯網對於未來網絡至關重要。它是指嵌入了技術的實體物件（設備、車輛、電器、感測器）組成的網絡，使其能夠收集並交換資料。

物聯網產生了海量資料（大數據），需要進行處理，這就需要語意網所預想的結構與智慧來解析這些即時輸入的資訊。

未來網絡面臨的持續挑戰

網絡的持續擴張正面臨幾個重大的社會技術挑戰：

安全與信任： 隨著更多設備（IoT）與個人資料移至線上，網路攻擊、身分盜用與資料操縱的風險呈指數級增長。
資訊過載： 海量的內容使得品質篩選與有效搜尋變得日益困難。
數位落差： 擁有高速網路與必要技術的人，與缺乏這些條件的人之間的差距，可能在全球範圍內造成嚴重的社會與經濟不平等。
網絡治理： 確定誰來管控這個全球性、無國界系統的基礎設施、標準與內容規則，仍是一個複雜的政治與技術挑戰。

重點總結：網絡科學核心概念

1. 結構： 網絡是一個圖。HTTP 是無狀態的。

2. 搜尋： PageRank 評估來自重要頁面的連結（而不僅僅是連結的數量）。

3. 社交： 網絡通常遵循冪律分佈（集散節點）。

4. 語意： 使用 RDF 三元組 與 本體論 為數據賦予機器可理解的意義。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

Web science