AI大模型学习,从向量到Transformer
30 节清晰简洁的大模型学习教程,每课从一个你一眼就懂的问题出发,先给最朴素的方案,再亲手发现不足、迭代改好——把向量、神经网络、注意力机制亲手「逼」出来。
HOW WE LEARN · 学习方式
所有技术,都是为了解决问题而出现的
没有人一开始就想到了RNN、LSTM、Transformer,都是在前一代技术方案上不断迭代调整,一步一步演化出来的。现在让我们从最开始那个问题开始,开启这趟自然语言处理的旅程。
01
提出问题
从一个小白都能听得懂的具体问题开始
→02
最小方案
先用最简单的技术方案来尝试解决这个问题。
→03
发现不足
这个最简单的技术方案遇到了它解决不了的部分
→04
迭代
对这个最简单的技术方案进行一轮迭代,解决了那部分无法解决的问题。
→05
总结
回头看——你刚刚「发明」的那个东西,就是教科书里那个术语。
「学习,不是背诵那些技术名词——
而是亲历那个技术是怎么被逼出来的过程。」
CURRICULUM · 学习地图
五部分 · 三十课 + 两篇附录,一条路
按依赖关系排列:数学给你语言,神经网络给你机器,NLP 给你历史,Transformer 给你现在。 下面这张全局路线图把 30 课画成一条从「向量」走到「Transformer」、再望向前沿的路—— 每个圆点是一课,点进去就能从它的开场问题跳进去。
卷三 · III自然语言处理教机器读懂语言
卷四 · IV大语言模型一路长成 ChatGPT
卷五 · V附录回到原典与全景
EXPAND · 逐课展开
想知道每一课在解决什么问题?下面把五个部分逐课摊开,标题旁那句话,就是这一课的开场问题。
卷一
基础数学
—— 机器如何「看见」世界?继续往上走
卷二
神经网络
—— 从一个神经元,到一台会学习的机器继续往上走
卷三
自然语言处理
—— 让机器读懂语言的几十年接力继续往上走
卷四
大语言模型
—— 从注意力机制到 ChatGPT- 19注意力机制「它太累了」——「它」指谁?让每个词自己决定该看向哪里1去学习 →
- 20多头注意力一句话里既有指代、又有语法、又有情感——一个「头」忙得过来吗?1去学习 →
- 21Transformer 架构把注意力、FFN、残差拼在一起——2017 年那篇论文到底做了什么?1去学习 →
- 22Tokenizer 分词器模型眼里的「字」是什么?为什么 strawberry 数不对 r 的个数?1去学习 →
- 23编码器、解码器与大语言模型同样是 Transformer,BERT 为什么不能生成文章,GPT 为什么是主流?1去学习 →
- 24残差连接与层归一化96 层 Transformer——梯度怎么从第 96 层传回第 1 层而不消失?1去学习 →
- 25预训练 · 监督微调 · 强化学习「会接话」和「会帮忙」之间有一道鸿沟——ChatGPT 的三个训练阶段2去学习 →
- 26KV 缓存、稀疏注意力与 FlashAttention注意力的账单是 O(n²)——处理一本书,工程师用什么手段把它变快?去学习 →
- 27MoE 混合专家架构GPT-4 据说有 1.8 万亿参数——推理每次却只用其中一小部分,怎么做到的?去学习 →
- 28模型蒸馏大模型的能力能「传授」给小模型吗——软标签里藏着什么「暗知识」?1去学习 →
- 29串讲:从 N-gram 到 Transformer学了这么多细节,怎么把它们重新串成一条线?——每一代技术,都是来解上一代死结的2去学习 →
- 30前沿与未来:下一程ChatGPT 之后呢?——当下最活跃的研究方向,与大模型可能的演变1去学习 →