Paper 3 语言分析:理解 N-Gram(N元语法)图表

嘿,未来的语言学家!欢迎来到语言分析中最令人兴奋、最注重数据的领域之一。在 Paper 3 的 Section A(语言演变)中,你不仅需要分析历史文本,还需要解读能证明这些变化真实存在的硬数据。这就是 N-gram(N元语法)图表大显身手的地方!

本章将为你提供解读这些语言学图表的技能。别担心“N-gram”听起来很复杂——它其实就是一种统计词语的巧妙方法,用来观察我们的语言在几百年间是如何发生演变的。这项技能对于实现 AO4(理解研究方法)和 AO5(分析数据)至关重要。

什么是语料库数据,为什么我们需要它?

数字图书馆:语言语料库

为了研究语言随时间的变化(即历时语言学,Diachronic Linguistics),我们需要海量且可靠的文本。我们不能仅仅依赖几封信件或几首诗。

  • 核心术语:语料库 (Corpus,复数:Corpora)

    语料库是一个规模庞大、结构化的数字化文本集合(书面或口语),旨在代表特定的语言或语言变体(例如美式英语,或 18 世纪的医学文本)。

  • 类比:你可以把语料库想象成世界上最大的数字图书馆,按照日期和体裁完美地分类整理。计算机无需翻页,就能瞬间统计出某个特定词语或短语出现的每一个次数。

用于生成这些图表最著名的语料库是 Google 图书语料库 (Google Books Corpus),其中包含了自 1500 年至今出版的数十亿册书籍中扫描的词汇。

剖析 N-Gram(N元语法)

术语“N-gram”指的是在文本语料库中发现的由“N”个项目(通常是单词或字母)组成的序列。

  • N = 数字。这个数字告诉你正在统计的序列中有多少个单词。
  • 1-gram (Unigram,一元语法):单个单词。
    例子:“bicycle”(自行车),“internet”(互联网),“thou”(古英语:你)
  • 2-gram (Bigram,二元语法):由两个单词组成的序列。
    例子:“shall not”(不应),“social media”(社交媒体),“I am”(我是)
  • 3-gram (Trigram,三元语法):由三个单词组成的序列。
    例子:“at the end”(最后),“if you like”(如果你喜欢)

快速回顾:N-gram 是我们要统计的对象,而语料库是我们进行统计的海量源材料。

解读 N-Gram 图表:变化的视觉化呈现

N-gram 图表(或查看器)将语料库中的原始计数数据提取出来,绘制成图表。这使我们能够观察到频率(单词/短语使用的频繁程度)随时间的变化。

理解图表坐标轴

N-gram 图表通常被设计用来展示随时间的变化:

  1. X 轴(横轴):时间/年份

    该轴通常从较早的年份(例如 1700 年)延伸至现代(例如 2000 年)。它展示了你正在分析的历史时期

  2. Y 轴(纵轴):频率或百分比

    这是最关键的坐标轴。它显示了 N-gram 的相对频率。频率通常表示为该年出版的所有单词中的百分比。这一点非常重要,因为它对数据进行了标准化——它考虑到了 1950 年出版的书籍数量远多于 1750 年这一事实。

关键点:线条的斜率讲述了故事。急剧上升意味着快速普及;稳步下降则意味着逐渐被淘汰。

Paper 3 中分析 N-Gram 图表的技能

当你在考试中面对 N-gram 图表时,你的任务不仅仅是描述线条,而是要分析它们并将它们与语言学概念联系起来 (AO5)。

1. 识别关键趋势(基础)
  • 上升的线条:表明单词/短语的使用率增加或受欢迎程度提升。这通常暗示了词汇习得 (Lexical Acquisition)(词汇进入语言)或意义的词义扩大 (Broadening)
    例子:“technology”(技术)的使用率在 1940 年后急剧上升。
  • 下降的线条:表明使用率下降,可能导致词汇丧失 (Lexical Loss)古语化 (Archaism)(词汇变得过时)。
    例子:“whilst”的使用率随着“while”的增加而下降。
  • 平坦的线条:暗示使用稳定,通常代表基础性的语法项或常用词汇(如“the”或“water”)。
2. 分析竞争与替代

通常,图表会比较两个或多个功能相同的术语。这种分析揭示了词汇替代 (Lexical Replacement)

  • 交叉点:仔细观察两条线相交的地方。该点标志着一个术语正式变得比另一个术语更常用的时间。
    例子:“radio”的曲线可能在 20 世纪 30 年代左右与“wireless”的曲线相交,显示出新词在词汇竞赛中胜出。
  • 发散:如果两个词起初使用情况一致,随后一个迅速上升而另一个迅速下降,则说明它们的含义可能已经发散 (Diverged)(分化),或者其中一个正在取代另一个。
3. 语境化异常值(探究“原因”)

如果你看到突发的急剧上升或下降,你必须将这些语言数据与现实世界的社会、政治或技术语境联系起来 (AO4)。

  • 突发高峰:通常由重大的历史事件引起。
    例子:1914 年至 1918 年间“trench warfare”(堑壕战)使用率的大幅激增。
  • 突然习得:新发明或新概念迫使新词汇的产生。
    例子:“internet”或“email”在 1990 年前后从零使用量开始急剧上升。

💡 避免常见的错误

  • 错误 1:混淆计数与频率。你必须记住 Y 轴显示的是相对频率(该词在当年所有词汇中的占比),而不是它出现的绝对次数。这避免了因某年出版书籍数量差异而导致的分析偏差。
  • 错误 2:忽视日期。在分析中务必提及特定的时间段(例如:“该词在 1880 年至 1910 年间使用达到顶峰,随后开始急剧下降”)。
  • 错误 3:仅仅描述线条。考官需要的是分析。不要只说“线条上升了”。应该说:“1960 年后‘astronaut’(宇航员)使用率的显著上升趋势,反映了在全球‘太空竞赛’背景下产生的词汇习得现象。”

由图表展示的现实语言演变概念

N-gram 图表是你在 Paper 3 中学习的许多核心语言演变概念的完美视觉证明。

A. 语义演变(意义偏移)

图表可以显示与词义变化相关的频率偏移。

  • 褒义化 vs. 贬义化:如果一个词的频率急剧下降,可能是因为发生了贬义化 (Pejoration)(它获得了负面含义),导致说话者寻求替代词。
    你知道吗?“gay”一词在 1960 年后因语义偏移,其频率和语境发生了巨大变化。
  • 词义缩小 vs. 词义扩大:如果一个词的使用率在几个世纪里缓慢而稳定地增长,可能是因为词义扩大 (Broadening)(其含义涵盖了更多概念)。如果一个词急剧下降,它可能已经词义缩小 (Narrowed)到非常具体、小众的语境中。
B. 语法和正字法(拼写)演变

N-gram 不仅适用于单个单词;它们也是发现语法结构变化或拼写转移的绝佳工具。

  • 正字法(拼写):比较“colour”与“color”(如果搜索“the colour”与“the color”,它们就是二元语法),可以显示正字法在地理上的差异以及这些变体何时固定下来。
  • 语法/句法:分析“hath”与“has”的使用,揭示了在早期现代英语时期,旧的屈折变化逐渐消亡并向现代句法过渡的过程。
C. 词汇竞争

图表清晰地展示了同义词或替代短语之间的竞争,这通常导致其中一个术语占据主导地位。

例子:一张比较“cannot help but”和“can't help but”的图表显示了随着时间推移,书面英语中正式程度的变化,缩略的、更口语化的版本频率在不断上升。

N-Gram 分析快速检查清单

  1. 正在追踪的是哪个特定的 N-gram(单词/短语)?
  2. 图表涵盖了什么时间段?
  3. 总体趋势是什么(上升/下降/平坦)?
  4. 是否存在显示词汇替代的交叉点?(正在竞争的两个术语是什么?)
  5. 是否有突发的上升或下降(异常值)?(什么历史语境可以解释它?)
  6. 该图表展示了哪个具体的语言演变概念(例如:词汇丧失、褒义化、词汇习得)?

如果你能回答这六个问题,你就已经成功解读了数据,并准备好将其整合进你的 Paper 3 论文中了!