語料庫數據與詞彙表:語言學家的工具箱(Paper 3:語言演變)

哈囉!歡迎來到 Paper 3 最令人興奮,同時也可能讓人感到手足無措的部分:分析量化數據!如果圖表和數字不是你的強項,請別擔心。當我們研讀由語料庫(Corpus)生成的詞彙表時,我們並不是在做數學題;我們只是在運用海量的統計證據,來證明語言是如何隨時間演變的。

本章將帶你了解語言學家如何利用大型數位資料庫(語料庫)來追蹤英語詞彙、意義及用法的演變——這對於在 Paper 3 第一部分(Section A)取得佳績至關重要。

什麼是語料庫(以及為什麼它很重要)?

在處理表格之前,你必須先了解數據的來源:語料庫(Corpus)

語料庫數據的定義

語料庫(複數:*corpora*)是一個大型且結構化的自然文本或口語樣本集合,並以電子方式儲存。你可以把它想像成一座龐大且整理得一絲不苟的數位語言圖書館。

  • 規模:語料庫通常包含數億,有時甚至數十億個單字。
  • 目的:它們讓語言學家能透過觀察規律、頻率和語境,而非僅僅依賴直覺,來科學地研究語言。

你知道嗎?「英國國家語料庫」(BNC)是最著名的例子之一,它包含了一億個單字的英式英語,涵蓋了書面語和口語文本。

Paper 3 中的歷時觀點(Diachronic Perspective)

在 Paper 3 中,我們通常會查看歷時語料庫(diachronic corpora),即涵蓋不同歷史時期的文本集合(例如:將 18 世紀的英語語料庫與 21 世紀的英語語料庫進行比較)。

  • 歷時(Diachronic):跨越時間的研究語言(例如:追蹤 'awful' 這個詞從「充滿敬畏」(full of awe)演變成「糟糕」(terrible)的過程)。
  • 共時(Synchronic):在特定時間點研究語言(這對 Paper 3 Section A 的關聯性較小)。

重點摘要:語料庫提供了支持語言演變理論所需的原始統計證據。

解讀詞彙表

詞彙表只是呈現從語料庫得出的統計結果的一種方式。當你在考試中看到詞彙表時,你的任務就是將這些數字轉化為有意義的語言學觀察。

1. 分析詞彙頻率(Frequency)

頻率告訴你一個特定的詞或短語在語料庫中出現的次數。這通常會進行標準化處理,以顯示「每百萬字中的使用次數」,讓不同規模的文本間能進行公平比較。

  • 高頻(High Frequency):顯示該詞被廣泛使用,可能標誌著大眾化(popularisation)詞彙化(lexicalisation,即將新詞轉為標準用法)例子:如果「selfie」(自拍)在 2010 年代的語料庫中頻率為每百萬字 50 次,但在 1990 年代為 0,這就是它近期被採納的強有力證據。
  • 低頻(Low Frequency):可能意味著該詞已過時(archaism)、屬於專業術語,或是尚未被廣泛接受。

記憶小撇步(F):頻率(Frequency)= For How Often is it used?(它多久被使用一次?)

2. 分析離散度與範圍(Dispersion and Range)

雖然頻率告訴你一個詞「出現了多少次」,但離散度(Dispersion)範圍(Range)告訴你它在不同類型的文本(語體、寄存、作者)中「分布得多廣」。

  • 高離散度:該詞在不同的語體(如報紙、學術論文、小說、日常對話)中一致出現。這顯示它是語言中主流且根深蒂固的一部分。
  • 低離散度:該詞集中在一兩種文本類型中。例子:如果像「phoneme」(音素)這樣的專業術語在學術語料庫中很常見,但在其他地方卻不見蹤影,則說明它具有低離散度,仍屬於專門詞彙。

記憶小撇步(D):離散度(Dispersion)= Do they use it Different places?(他們會在不同場合使用它嗎?)

3. 理解搭配(Collocation):語義演變的關鍵

搭配(Collocation)可以說是語言演變分析中最有價值的數據。詞彙表通常會包含一個列表,列出最常出現在焦點詞彙附近的單詞。

什麼是搭配詞(Collocates)?

搭配詞是習慣上或統計上傾向於一起出現的詞。它們是詞彙的語言「好朋友」。

  • 想像花生醬和果醬,或炸魚和薯條。 它們就是屬於一對的。
  • 例子:單字 'strong' 常與 'tea'(茶)、'opinion'(觀點)和 'wind'(風)搭配。
利用搭配詞識別語義轉移(Semantic Shift)

如果一個詞的含義發生了改變(語義轉移),它的搭配詞也會隨時間而改變。

  • 情境:在 19 世紀的語料庫中,'gay' 的搭配詞可能包括 'party''mood''dress'(指「快樂」或「明亮」)。
  • 改變:在 21 世紀的語料庫中,'gay' 的搭配詞壓倒性地包含像 'rights'(權利)、'community'(社群)或 'marriage'(婚姻)這類詞(反映了其現代關於性傾向的意義)。

分析搭配詞的這種轉變,為意義收窄(narrowing)貶義化(pejoration)褒義化(amelioration)提供了不容置疑的證據。

記憶小撇步(C):搭配(Collocation)= Changing Context(改變的語境,從而導致 Changing Connotations,即改變的內涵)。

快速回顧:解讀數據(FCD)

觀察詞彙表時,請務必檢視 FCD:

Frequency(頻率):它是在增加還是在減少?(該詞有多常見?)
Collocation(搭配):它的新鄰居是誰?(含義發生了什麼變化?)
Dispersion(離散度):它是否正在擴散?(該詞被接受的程度有多廣?)

將語料庫數據應用於語言演變(考試重點)

在 Paper 3 中,你將利用詞彙表和 n-gram 圖表數據來支持你對主要散文文本的分析,並結合你對語言演變理論的認知。

逐步分析流程

第一步:將數據語境化(Contextualise)

首先,確認表格所代表的時間跨度(例如:1700-1800 年對比 2000-2020 年)。語言演變必須以歷時(diachronically)的角度進行分析。

第二步:注意顯著的頻率轉移(詞彙變化)

尋找頻率上的劇烈增減。

  • 增加:'digital'(數位)一詞在 1980 年代到 2000 年代之間的急劇上升,顯示了技術變革對詞庫的影響。該詞正在經歷功能轉移(functional shift)(它現在可能被用作形容詞,而不僅僅是名詞)。
  • 減少:'hark' 這種正式問候語的衰退,暗示了過時詞彙(archaisms)的出現,以及因社會規範改變而導致的詞彙流失(例如:語言演變的功能理論)。
第三步:分析搭配詞的轉移(語義變化)

這是你拿高分的關鍵。重點關注附帶的詞彙列表(搭配詞)。

  • 例子:如果 'cool' 一詞的搭配詞從 'water''breeze'(字面上的溫度)轉移到 'style''attitude'(抽象的讚賞),你所看到的就是該詞的褒義化(amelioration)意義擴張(broadening)
  • 關鍵術語:運用精確的術語,如語義收窄(semantic narrowing)貶義化(pejoration)褒義化(amelioration)隱喻延伸(metaphorical extension)來解釋變化的「方式」,並輔以搭配詞數據證明。
第四步:結合理論綜合分析(AO4)

將統計證據連結到更廣泛的語言學概念。

  • 如果出現了一個新的高頻詞(如 'vlog'),你可以將其與文化傳播理論(Cultural Transmission Theory)連結——科技推動了對新標籤的需求;或是詞彙空缺理論(Theory of Lexical Gaps)——新的概念需要新的語言位置。
  • 如果一個舊詞衰退,你可以將其連結到標準化過程(導致過時),或是如果變化看起來很隨機,則連結到隨機波動理論(Random Fluctuation Theory)

應避免的常見錯誤

  • 錯誤 1:將原始數據視為絕對。請記住頻率是相對於語料庫規模的。務必使用標準化數據(例如:「每百萬字」)。
  • 錯誤 2:陳述過於明顯的事實。不要只說「這個詞變頻繁了」。你必須解釋「為什麼」(社會背景、技術、語體轉換)以及這「意味著什麼」(例如:「這顯示了回應大眾傳媒的詞彙擴張」)。
  • 錯誤 3:將搭配(Collocation)與同義詞(Synonymy)混淆。搭配詞是與目標詞「一起出現」的詞;它們不一定是與目標詞「意思相同」的詞(語料庫數據中有時會單獨列出同義詞)。專注於它們的夥伴關係,而非替代關係。

重點摘要:詞彙表是你的量化證據。它們證明了感知的變化(例如一個詞變得更常見)是否在統計上可驗證,使你能夠超越猜測,進行自信的分析。