AI大模型学习,从向量到Transformer

30 节清晰简洁的大模型学习教程,每课从一个你一眼就懂的问题出发,先给最朴素的方案,再亲手发现不足、迭代改好——把向量、神经网络、注意力机制亲手「逼」出来。

HOW WE LEARN · 学习方式

所有技术,都是为了解决问题而出现的

没有人一开始就想到了RNN、LSTM、Transformer,都是在前一代技术方案上不断迭代调整,一步一步演化出来的。现在让我们从最开始那个问题开始,开启这趟自然语言处理的旅程。

01

提出问题

从一个小白都能听得懂的具体问题开始

02

最小方案

先用最简单的技术方案来尝试解决这个问题。

03

发现不足

这个最简单的技术方案遇到了它解决不了的部分

04

迭代

对这个最简单的技术方案进行一轮迭代,解决了那部分无法解决的问题。

05

总结

回头看——你刚刚「发明」的那个东西,就是教科书里那个术语。

「学习,不是背诵那些技术名词——
而是亲历那个技术是怎么被逼出来的过程。」

CURRICULUM · 学习地图

五部分 · 三十课 + 两篇附录,一条路

按依赖关系排列:数学给你语言,神经网络给你机器,NLP 给你历史,Transformer 给你现在。 下面这张全局路线图把 30 课画成一条从「向量」走到「Transformer」、再望向前沿的路—— 每个圆点是一课,点进去就能从它的开场问题跳进去。

EXPAND · 逐课展开

想知道每一课在解决什么问题?下面把五个部分逐课摊开,标题旁那句话,就是这一课的开场问题。

基础数学

—— 机器如何「看见」世界?
继续往上走

神经网络

—— 从一个神经元,到一台会学习的机器
继续往上走

自然语言处理

—— 让机器读懂语言的几十年接力
继续往上走

大语言模型

—— 从注意力机制到 ChatGPT
  1. 19注意力机制「它太累了」——「它」指谁?让每个词自己决定该看向哪里1去学习 →
  2. 20多头注意力一句话里既有指代、又有语法、又有情感——一个「头」忙得过来吗?1去学习 →
  3. 21Transformer 架构把注意力、FFN、残差拼在一起——2017 年那篇论文到底做了什么?1去学习 →
  4. 22Tokenizer 分词器模型眼里的「字」是什么?为什么 strawberry 数不对 r 的个数?1去学习 →
  5. 23编码器、解码器与大语言模型同样是 Transformer,BERT 为什么不能生成文章,GPT 为什么是主流?1去学习 →
  6. 24残差连接与层归一化96 层 Transformer——梯度怎么从第 96 层传回第 1 层而不消失?1去学习 →
  7. 25预训练 · 监督微调 · 强化学习「会接话」和「会帮忙」之间有一道鸿沟——ChatGPT 的三个训练阶段2去学习 →
  8. 26KV 缓存、稀疏注意力与 FlashAttention注意力的账单是 O(n²)——处理一本书,工程师用什么手段把它变快?去学习 →
  9. 27MoE 混合专家架构GPT-4 据说有 1.8 万亿参数——推理每次却只用其中一小部分,怎么做到的?去学习 →
  10. 28模型蒸馏大模型的能力能「传授」给小模型吗——软标签里藏着什么「暗知识」?1去学习 →
  11. 29串讲:从 N-gram 到 Transformer学了这么多细节,怎么把它们重新串成一条线?——每一代技术,都是来解上一代死结的2去学习 →
  12. 30前沿与未来:下一程ChatGPT 之后呢?——当下最活跃的研究方向,与大模型可能的演变1去学习 →
继续往上走

附录

—— 原典、图谱与补充材料