自然语言处理

让机器读懂语言的几十年接力

语言是序列、是上下文、是词义之间隐秘的牵连。带着卷二那台「会学习的机器」，这一卷用五课追溯从 N-gram 到 LSTM 的三十年接力——每一代都在解开上一代留下的死结，并在结尾留下一个只有卷四能破的悬念。

整套课程 · 五部分，一条路

卷一基础数学把世界变成数字

卷二神经网络让数字学会学习

卷三 · 你在这里自然语言处理教机器读懂语言

卷四大语言模型一路长成 ChatGPT

卷五附录回到原典与全景

这一卷的故事

神经网络可以学习任何函数，但语言有特殊的挑战：它是序列的，每个词的意思取决于上下文；它是稀疏的，可能的词组合几乎无限多；它是语义的，「猫」和「小猫」在字符上毫无关联，但意思几乎相同。

最早的语言模型（N-gram）选择忽略这一切：光靠数数——历史数据里这两个词之后最常见的词是什么？这个方法在短距离搭配上表现不错，支撑了手机输入法和早期语音识别几十年。但它记性只有几个词，而且把「猫」和「小猫」当成完全不同的符号。

词向量解决了符号问题：把每个词变成一组数字，让意思相近的词数字也相近。一个精妙的训练技巧让这些数字自动编码词义——「国王 − 男人 + 女人 ≈ 女王」不是人为设计，是从语料里自然浮现的。接上神经网络后，模型第一次能举一反三：即使没见过「黑洞运转的___」，也能从「天体运转」推断答案。

RNN 给网络装上了记忆向量；LSTM 给记忆装上了阀门，防止重要信息被稀释。到这一卷结束，你会看到一个悬而未决的问题：无论 LSTM 多精巧，它仍然必须一步一步地读——无法并行，限制了模型规模的天花板。这个问题要等下一卷解决。

承上启下

← 你带着什么走进这一卷

带着卷二那台「会学习的机器」，这一卷只追问一件事：怎么让它读懂语言？你会看到三十年里，工程师如何一代代逼近答案。

这一卷又交给后面什么 →

故事会停在一个悬念上：LSTM 再精巧，也必须一个词一个词地读，无法并行——这道天花板，正是卷四第一课要砸开的。

课程路径 · 5 课

语言的概率游戏：N-gram不懂语法、不懂语义，光靠「数数」能不能接出下一个词？

词向量为什么「国王 − 男人 + 女人 ≈ 女王」？词的含义如何变成坐标？

前馈神经网络语言模型N-gram 的稀疏灾难是怎么被绕开的？

RNN 循环神经网络固定窗口看不到更早的词——能不能给网络装上「记忆」？

LSTM 长短期记忆网络RNN 的记忆为什么传不远？——给记忆装上「阀门」