大语言模型
从注意力机制到 ChatGPT
2017 年,一篇论文扔掉了所有循环结构,只留下注意力——此后一切都变了。这一卷走完现代大语言模型的完整技术栈:从 Transformer 架构到三阶段训练,从规模工程到知识蒸馏——看 ChatGPT 如何从卷一的一个向量,一路长出来。
开始第一课 →《Attention Is All You Need》的核心主张极其简单:不需要循环,让每个词同时「查询」所有其他词。这个操作完全可以并行,让 GPU 的成千上万个核心第一次能被充分利用。参数量从亿级突破到千亿、万亿——规模本身就是一种能力,这是研究者在之前几十年都没有预料到的。
一个 Transformer Block = 多头注意力(多种关系同时建模)+ FFN(逐位置深加工)+ 残差连接(梯度高速公路)+ LayerNorm(数值稳定)。把它叠 96 层,配上合适的分词器和位置编码,就是 GPT-3 的主体。解码器优先(GPT 风格)和编码器优先(BERT 风格)是两种截然不同的设计选择,决定了模型能做什么。
但一个能「续写文本」的模型不等于「有帮助的助手」。预训练给了知识,监督微调(SFT)教会了对话格式,RLHF用人类的偏好判断进一步打磨——这三步连在一起,才造就了 ChatGPT。
在规模与效率之间,工程师发明了一系列折中方案:FlashAttention 让注意力在 GPU 片上缓存内完成、不反复读写慢速显存;MoE 让模型有更多参数但每次只激活一小部分;知识蒸馏让大模型的能力传给小模型。到这一卷结束,ChatGPT 不再是魔法。
卷三结尾留下的难题——「必须按顺序读、无法并行」——就是这一卷的开场。一个叫「注意力」的想法,把它干净利落地解决了。
这是最后一卷。读完它你会发现:从卷一第一课那个向量,到 ChatGPT,是一条没有断点的路——AI 不是魔法,是一连串可以追溯的数学与工程决策。