VOLUME IV

大语言模型

从注意力机制到 ChatGPT

2017 年，一篇论文扔掉了所有循环结构，只留下注意力——此后一切都变了。这一卷走完现代大语言模型的完整技术栈：从 Transformer 架构到三阶段训练，从规模工程到知识蒸馏——看 ChatGPT 如何从卷一的一个向量，一路长出来。

开始第一课 →

整套课程 · 五部分，一条路

卷一基础数学把世界变成数字

卷二神经网络让数字学会学习

卷三自然语言处理教机器读懂语言

卷四 · 你在这里大语言模型一路长成 ChatGPT

卷五附录回到原典与全景

这一卷的故事

《Attention Is All You Need》的核心主张极其简单：不需要循环，让每个词同时「查询」所有其他词。这个操作完全可以并行，让 GPU 的成千上万个核心第一次能被充分利用。参数量从亿级突破到千亿、万亿——规模本身就是一种能力，这是研究者在之前几十年都没有预料到的。

一个 Transformer Block = 多头注意力（多种关系同时建模）+ FFN（逐位置深加工）+ 残差连接（梯度高速公路）+ LayerNorm（数值稳定）。把它叠 96 层，配上合适的分词器和位置编码，就是 GPT-3 的主体。解码器优先（GPT 风格）和编码器优先（BERT 风格）是两种截然不同的设计选择，决定了模型能做什么。

但一个能「续写文本」的模型不等于「有帮助的助手」。预训练给了知识，监督微调（SFT）教会了对话格式，RLHF用人类的偏好判断进一步打磨——这三步连在一起，才造就了 ChatGPT。

在规模与效率之间，工程师发明了一系列折中方案：FlashAttention 让注意力在 GPU 片上缓存内完成、不反复读写慢速显存；MoE 让模型有更多参数但每次只激活一小部分；知识蒸馏让大模型的能力传给小模型。到这一卷结束，ChatGPT 不再是魔法。

承上启下

← 你带着什么走进这一卷

卷三结尾留下的难题——「必须按顺序读、无法并行」——就是这一卷的开场。一个叫「注意力」的想法，把它干净利落地解决了。

这一卷又交给后面什么 →

这是最后一卷。读完它你会发现：从卷一第一课那个向量，到 ChatGPT，是一条没有断点的路——AI 不是魔法，是一连串可以追溯的数学与工程决策。

课程路径 · 12 课

注意力机制「它太累了」——「它」指谁？让每个词自己决定该看向哪里

读 →

多头注意力一句话里既有指代、又有语法、又有情感——一个「头」忙得过来吗？

读 →