Paper 3 語言分析:解讀 N-Gram 圖表

嘿,未來的語言學家!歡迎來到語言分析中最令人振奮、且以數據為導向的領域之一。在 Paper 3 的第一部分(語言演變)中,你不僅需要分析歷史文獻,還需要解讀能證明這些演變真實存在的硬數據。這就是 N-gram 圖表 發揮作用的地方!

本章將讓你掌握解讀這些語言學圖表的技巧。別擔心「N-gram」聽起來很複雜——它其實只是一種計算詞彙出現頻率的精妙方式,用來觀察語言在數百年來的變化。這項技能對於達成 AO4(理解研究方法)和 AO5(分析數據)的要求至關重要。

什麼是語料庫數據?為什麼我們需要它?

數位圖書館:語言語料庫

要研究語言如何隨時間演變(這稱為歷時語言學 Diachronic Linguistics),我們需要大量可靠的文本,不能僅僅依靠幾封信件或詩歌。

  • 關鍵術語:語料庫 (Corpus,複數為 Corpora)

    語料庫是一個龐大且結構化的數位文本集合(書面或口語),旨在代表某種特定語言或變體(例如美式英語或 18 世紀的醫學文獻)。

  • 類比:將語料庫想像成世界上最大的數位圖書館,並按日期和體裁完美分類。電腦無須翻閱書頁,就能瞬間計算出特定單字或短語出現的次數。

用於產生這些圖表最著名的語料庫是 Google Books Corpus,其中包含了自 1500 年至今出版的數十億個掃描詞彙。

剖析 N-Gram

'N-gram' 這個術語指的是在語料庫文本中出現的「N」個項目的序列(通常是單字或字母)。

  • N = 數字。這個數字告訴你正在計算的序列包含多少個單字。
  • 1-gram (Unigram,一元語法):單個詞。
    例子:"bicycle"(腳踏車), "internet"(互聯網), "thou"(你,古英語)
  • 2-gram (Bigram,二元語法):兩個詞的序列。
    例子:"shall not"(將不), "social media"(社交媒體), "I am"(我是)
  • 3-gram (Trigram,三元語法):三個詞的序列。
    例子:"at the end"(最後), "if you like"(如果你喜歡)

快速回顧: N-gram 是我們計算的目標,而語料庫則是我們進行計算的龐大素材來源。

解讀 N-Gram 圖表:語言變化的視覺化

N-gram 圖表(或檢視器)獲取語料庫中的原始計數數據,並將其繪製成圖表。這能讓我們觀察到頻率(單字或短語使用的頻繁程度)隨時間的變化。

理解圖表軸線

N-gram 圖表通常構造為顯示隨時間的變化:

  1. X 軸(橫軸):時間/年份

    此軸通常從較早的日期(例如 1700 年)延伸至現代(例如 2000 年),顯示你正在分析的歷史時期

  2. Y 軸(縱軸):頻率或百分比

    這是最關鍵的軸。它顯示了 N-gram 的相對頻率。頻率通常表示為該年度出版的所有詞彙的百分比。這一點很重要,因為它標準化了數據——它考慮到了 1950 年出版的書籍遠多於 1750 年的事實。

關鍵點: 線條的斜率代表了演變的故事。陡峭的上升代表快速普及;平穩的下降則代表趨於過時。

Paper 3 分析 N-Gram 圖表的技巧

當考試中出現 N-gram 圖表時,你的任務不僅僅是描述線條,而是要分析它們並將其與語言學概念連結(AO5)。

1. 識別關鍵趨勢(基礎)
  • 上升的線條:代表使用率或普及度增加。這通常暗示詞彙習得 (Lexical Acquisition)(詞彙進入語言)或意義的詞義擴大 (Broadening)
    例子:"technology"(科技)的使用率在 1940 年後急劇上升。
  • 下降的線條:代表使用率降低,可能導致詞彙流失 (Lexical Loss) 或變得過時 (Archaism)
    例子:"whilst" 的使用率隨著 "while" 的增加而下降。
  • 平坦的線條:代表使用穩定,通常是基礎語法或常見詞彙(例如 "the" 或 "water")。
2. 分析競爭與替代

圖表通常會比較兩個或多個功能相同的詞彙。這種分析揭示了詞彙替換 (Lexical Replacement)

  • 交叉點:仔細觀察兩條線交叉的位置。該點標誌著一個詞彙正式變得比另一個詞彙更常用的時間點。
    例子:"radio" 的線條可能在 1930 年代左右與 "wireless" 的線條交叉,顯示較新的詞彙在詞彙競爭中獲勝。
  • 分歧:如果兩個詞起初使用率接近,隨後一個急劇上升而另一個下降,則顯示它們的意義可能已分歧 (Diverged),或者其中一個正在取代另一個。
3. 情境化異常情況(尋找「原因」)

如果你看到突然的劇烈波動(尖峰或谷底),你必須將這些語言數據與現實世界的社會、政治或技術背景相連結(AO4)。

  • 突然的尖峰:通常由重大歷史事件引起。
    例子:1914 年至 1918 年間 "trench warfare"(壕溝戰)的使用率出現巨大尖峰。
  • 突然的習得:新發明或新概念迫使新詞彙產生。
    例子:"internet" 或 "email" 在 1990 年左右從零使用率開始並迅速上升。

💡 需避免的常見錯誤

  • 錯誤 1:混淆計數與頻率。 你必須記住 Y 軸顯示的是相對頻率(該詞與當年所有其他詞彙相比的常見程度),而不是出現的絕對次數。這能避免因出版書籍數量波動而導致的結果偏差。
  • 錯誤 2:忽略日期。 在分析中務必提及具體的時間區段(例如:「該詞在 1880 年至 1910 年間使用率達到高峰,隨後開始急劇下降」)。
  • 錯誤 3:僅僅描述線條。 考官希望看到的是分析。不要只說「線條往上走」。要說「'astronaut'(太空人)在 1960 年後的使用率顯著上升,反映了在全球『太空競賽』背景下推動的詞彙習得。」

圖表呈現的現實語言演變概念

N-gram 圖表是 Paper 3 中你所學的許多語言演變核心概念的絕佳視覺證據。

A. 語義演變(意義偏移)

圖表可以顯示與詞義變化相關的頻率偏移。

  • 詞義褒義化 vs. 貶義化:如果一個詞的頻率急劇下降,可能是因為貶義化 (Pejoration)(該詞獲得了負面含義),導致使用者尋求替代詞。
    你知道嗎?由於語義偏移,'gay' 一詞在 1960 年後的使用頻率和情境發生了戲劇性的變化。
  • 詞義縮小 vs. 擴大:如果一個詞的使用率在幾個世紀內緩慢而穩定地上升,可能是由於詞義擴大 (Broadening)(其意義涵蓋了更多概念)。如果一個詞急劇衰退,可能已經詞義縮小 (Narrowed) 到一個非常具體、狹窄的情境中。
B. 語法與拼寫演變

N-gram 不僅適用於單字,也非常適合識別語法結構變化或拼寫演變。

  • 正字法(拼寫):比較 "colour" 與 "color"(如果搜尋 "the colour" 與 "the color",它們就是 Bigram)可以顯示正字法如何在地理上有所不同,以及這些差異何時定型。
  • 語法/句法:分析 "hath" 與 "has" 的使用情況,揭示了早期現代英語時期舊詞尾變化形式的逐漸衰退,以及邁向現代句法的過程。
C. 詞彙競爭

圖表清晰地展示了同義詞或替代短語之間的競爭,這通常會導致一個詞彙成為主流。

例子:比較短語 "cannot help but" 和 "can't help but" 的圖表,顯示了隨著時間推移,書面英語變得越來越口語化或非正式,因為縮寫且更具對話感的版本出現了頻率上升。

N-Gram 分析快速檢查清單

  1. 正在追蹤哪一個特定的 N-gram(詞彙/短語)?
  2. 圖表涵蓋的時間段是什麼?
  3. 總體趨勢是什麼(上升/下降/平坦)?
  4. 是否存在顯示詞彙替換的交叉點?(兩個競爭的詞彙是什麼?)
  5. 是否有突然的尖峰或谷底(異常情況)?(什麼歷史背景解釋了它?)
  6. 這張圖表說明了哪種具體的語言演變概念(例如:詞彙流失、褒義化、詞彙習得)?

如果你能回答這六個問題,你已經成功解讀了數據,並準備好將其綜合運用到你的 Paper 3 文章中!