IV
VOLUME IV

大语言模型

从注意力机制到 ChatGPT

2017 年,一篇论文扔掉了所有循环结构,只留下注意力——此后一切都变了。这一卷走完现代大语言模型的完整技术栈:从 Transformer 架构到三阶段训练,从规模工程到知识蒸馏——看 ChatGPT 如何从卷一的一个向量,一路长出来。

开始第一课 →
整套课程 · 五部分,一条路
基础数学把世界变成数字
神经网络让数字学会学习
自然语言处理教机器读懂语言
· 你在这里大语言模型一路长成 ChatGPT
附录回到原典与全景
这一卷的故事

《Attention Is All You Need》的核心主张极其简单:不需要循环,让每个词同时「查询」所有其他词。这个操作完全可以并行,让 GPU 的成千上万个核心第一次能被充分利用。参数量从亿级突破到千亿、万亿——规模本身就是一种能力,这是研究者在之前几十年都没有预料到的。

一个 Transformer Block = 多头注意力(多种关系同时建模)+ FFN(逐位置深加工)+ 残差连接(梯度高速公路)+ LayerNorm(数值稳定)。把它叠 96 层,配上合适的分词器和位置编码,就是 GPT-3 的主体。解码器优先(GPT 风格)和编码器优先(BERT 风格)是两种截然不同的设计选择,决定了模型能做什么。

但一个能「续写文本」的模型不等于「有帮助的助手」。预训练给了知识,监督微调(SFT)教会了对话格式,RLHF用人类的偏好判断进一步打磨——这三步连在一起,才造就了 ChatGPT。

在规模与效率之间,工程师发明了一系列折中方案:FlashAttention 让注意力在 GPU 片上缓存内完成、不反复读写慢速显存;MoE 让模型有更多参数但每次只激活一小部分;知识蒸馏让大模型的能力传给小模型。到这一卷结束,ChatGPT 不再是魔法。

承上启下
← 你带着什么走进这一卷

卷三结尾留下的难题——「必须按顺序读、无法并行」——就是这一卷的开场。一个叫「注意力」的想法,把它干净利落地解决了。

这一卷又交给后面什么 →

这是最后一卷。读完它你会发现:从卷一第一课那个向量,到 ChatGPT,是一条没有断点的路——AI 不是魔法,是一连串可以追溯的数学与工程决策。

课程路径 · 12
19
注意力机制「它太累了」——「它」指谁?让每个词自己决定该看向哪里
读 →
20
多头注意力一句话里既有指代、又有语法、又有情感——一个「头」忙得过来吗?
读 →
21
Transformer 架构把注意力、FFN、残差拼在一起——2017 年那篇论文到底做了什么?
读 →
22
Tokenizer 分词器模型眼里的「字」是什么?为什么 strawberry 数不对 r 的个数?
读 →
23
编码器、解码器与大语言模型同样是 Transformer,BERT 为什么不能生成文章,GPT 为什么是主流?
读 →
24
残差连接与层归一化96 层 Transformer——梯度怎么从第 96 层传回第 1 层而不消失?
读 →
25
预训练 · 监督微调 · 强化学习「会接话」和「会帮忙」之间有一道鸿沟——ChatGPT 的三个训练阶段
读 →
26
KV 缓存、稀疏注意力与 FlashAttention注意力的账单是 O(n²)——处理一本书,工程师用什么手段把它变快?
读 →
27
MoE 混合专家架构GPT-4 据说有 1.8 万亿参数——推理每次却只用其中一小部分,怎么做到的?
读 →
28
模型蒸馏大模型的能力能「传授」给小模型吗——软标签里藏着什么「暗知识」?
读 →
29
串讲:从 N-gram 到 Transformer学了这么多细节,怎么把它们重新串成一条线?——每一代技术,都是来解上一代死结的
读 →
30
前沿与未来:下一程ChatGPT 之后呢?——当下最活跃的研究方向,与大模型可能的演变
读 →