III
VOLUME III自然语言处理
让机器读懂语言的几十年接力
语言是序列、是上下文、是词义之间隐秘的牵连。带着卷二那台「会学习的机器」,这一卷用五课追溯从 N-gram 到 LSTM 的三十年接力——每一代都在解开上一代留下的死结,并在结尾留下一个只有卷四能破的悬念。
开始第一课 →整套课程 · 五部分,一条路
卷一基础数学把世界变成数字
卷二神经网络让数字学会学习
卷三 · 你在这里自然语言处理教机器读懂语言
卷四大语言模型一路长成 ChatGPT
卷五附录回到原典与全景
这一卷的故事
神经网络可以学习任何函数,但语言有特殊的挑战:它是序列的,每个词的意思取决于上下文;它是稀疏的,可能的词组合几乎无限多;它是语义的,「猫」和「小猫」在字符上毫无关联,但意思几乎相同。
最早的语言模型(N-gram)选择忽略这一切:光靠数数——历史数据里这两个词之后最常见的词是什么?这个方法在短距离搭配上表现不错,支撑了手机输入法和早期语音识别几十年。但它记性只有几个词,而且把「猫」和「小猫」当成完全不同的符号。
词向量解决了符号问题:把每个词变成一组数字,让意思相近的词数字也相近。一个精妙的训练技巧让这些数字自动编码词义——「国王 − 男人 + 女人 ≈ 女王」不是人为设计,是从语料里自然浮现的。接上神经网络后,模型第一次能举一反三:即使没见过「黑洞运转的___」,也能从「天体运转」推断答案。
RNN 给网络装上了记忆向量;LSTM 给记忆装上了阀门,防止重要信息被稀释。到这一卷结束,你会看到一个悬而未决的问题:无论 LSTM 多精巧,它仍然必须一步一步地读——无法并行,限制了模型规模的天花板。这个问题要等下一卷解决。
承上启下
← 你带着什么走进这一卷
带着卷二那台「会学习的机器」,这一卷只追问一件事:怎么让它读懂语言?你会看到三十年里,工程师如何一代代逼近答案。
这一卷又交给后面什么 →
故事会停在一个悬念上:LSTM 再精巧,也必须一个词一个词地读,无法并行——这道天花板,正是卷四第一课要砸开的。
课程路径 · 5 课