Word tables derived from corpus data - English Language (9093) - Cambridge International AS Level

歡迎來到語料庫數據的世界！

你好！今天我們將深入探討英語語言研究中一個引人入勝的部分：源自語料庫數據的詞頻表。別被這個專業名稱嚇到了！簡單來說，我們將學習如何成為「語言偵探」。我們不再只是閱讀單一故事，而是利用電腦同時查看數百萬個詞彙，從中尋找規律。這就像是從直升機上俯瞰整片森林，而不是僅僅盯著一棵樹看。

在劍橋 9093 考試中，你可能會收到一張詞彙表，並被要求分析它們揭示了關於文本或特定說話方式的什麼訊息。讓我們一起來拆解如何掌握這些技巧吧！

什麼是語料庫（Corpus）？

在查看表格之前，我們需要知道數據來自何處。語料庫（複數為 corpora）是一個龐大的真實語言數位資料庫。它包含了從書籍、新聞報導到咖啡店內人們對話紀錄等各式各樣的內容。

可以這樣理解：如果說單一書籍是語言的「相片」，那麼語料庫就是整個語言景觀的「衛星地圖」。

理解詞頻表（Word Frequency Tables）

你最常見到的語料庫數據形式是詞頻表。這不過是一個簡單的列表，顯示單詞在文本或文本集合中出現的次數。

1. 原始頻率（Raw Frequency）

這是單詞出現的實際次數。例如，在一篇新聞報導中，"government"（政府）這個詞可能出現了 25 次。
小貼士：高頻詞通常是「功能詞」（function words），例如 the, and, to, of。與 freedom（自由）、crisis（危機）或 innovative（創新的）等「內容詞」（content words）相比，這些功能詞通常較缺乏分析價值。

2. 相對頻率（Relative Frequency，每百萬詞次）

有時，數據會以「每百萬詞次出現的頻率」來呈現。這讓我們能夠公平地比較短文本和長文本。這就像體育比賽中的「打擊率」一樣，無論比賽長短，它都能告訴你某件事發生的頻率。

重點總結：

務必找出出現頻率最高的內容詞（名詞、動詞、形容詞）。它們通常會揭示文本的主題內容和語氣。

「物以類聚」：搭配詞（Collocation）

語言學家 J.R. Firth 曾有名言：「你可以通過一個詞的同伴來了解它。」（You shall know a word by the company it keeps.）在語料庫數據中，這被稱為搭配詞（Collocation）。

搭配詞是指經常自然地結對出現的詞彙。
例子：我們會說 "heavy rain"（大雨），但通常不會說 "weighty rain"。儘管意思相似，但這兩個詞並不「搭配」。

這對你的考試有什麼影響？
如果你看到一張表格顯示 "immigrants"（移民）一詞常與 "flood"（洪水）或 "stream"（溪流）搭配，這告訴你作者正在使用「水隱喻」。這暗示了作者將該主題視為需要控制或令人生畏的事物。數據能幫助我們證明文本中的偏見（Bias）和觀點（Perspective）！

N-Gram 與詞串（Clusters）

有時表格不僅僅顯示單詞，還會顯示詞組。這些被稱為 N-Grams （或詞串）。
- 2-gram 是兩個詞組成的（例如："social media"）
- 3-gram 是三個詞組成的（例如："as a result"）

這些詞串通常充當話語標記（Discourse Markers）。它們有助於組織文本，並顯示文本的正式或非正式程度。例如，"I don't know" 是口語中常見的詞串，而 "on the other hand" 則是正式文章中常見的表達。

逐步解析：如何分析詞頻表

如果起初看到滿滿的數字感到困惑，請別擔心！只要按照這些步驟操作：

第一步：找出「異常值」（Outliers）
尋找那些出現頻率遠超該主題預期的詞彙。如果你正在閱讀一則汽車廣告，而 "family"（家庭）出現的次數多於 "engine"（引擎），那麼其目的在於建立情感聯繫，而非強調技術規格。

第二步：比較與對照（Compare and Contrast）
如果考試中提供了兩張表格（例如：男性對話 vs. 女性對話，或 19 世紀新聞 vs. 21 世紀新聞），請尋找它們之間的差異。哪些詞在一方中缺失，卻出現在另一方？

第三步：聯繫受眾與目的（Audience and Purpose）
永遠要回歸到課程大綱！為什麼要使用這個詞？是為了說服特定的受眾嗎？是為了符合部落格或報告的體裁（Genre）慣例嗎？

第四步：觀察詞性規律（Word Classes）
出現率最高的詞大多是形容詞（描述性/情緒性）還是動詞（動作導向）？這能讓你深入了解文本的風格（Style）。

記憶輔助：三個 C

當你看到語料庫數據時，請記住三個 C：
1. Count（計數）：該詞出現了多少次？（頻率）
2. Company（同伴）：它附近有哪些詞？（搭配詞）
3. Context（語境）：文本的主題是什麼，受眾又是誰？（與課程大綱聯繫）

應避免的常見錯誤

1. 只列出數字：不要只說「'happy' 這個詞出現了 10 次」。請解釋這為什麼重要——它是否營造了一種正面的語氣？
2. 忽略「功能詞」：雖然 "the" 和 "is" 通常很無聊，但如果文本中 "I" 和 "me" 的頻率很高，則顯示它是第一人稱且具備主觀性。
3. 忘記「人」的因素：電腦生成表格，但文本是人寫的。永遠要問：作者的目的是什麼？

快速複習框：

- 語料庫（Corpus）：龐大的語言數位資料庫。
- 頻率（Frequency）：單詞出現的頻率。
- 搭配詞（Collocation）：習慣結伴出現的詞彙。
- N-Gram：詞彙序列（詞串）。
- 分析（Analysis）：將數據與語氣、偏見、受眾和目的聯繫起來。

你可以做到的！分析詞頻表只是閱讀的另一種方式。你不是在字裡行間找答案，而是在數字之間進行解讀！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。