AI大模型学习，从向量到Transformer

30 节清晰简洁的大模型学习教程，每课从一个你一眼就懂的问题出发，先给最朴素的方案，再亲手发现不足、迭代改好——把向量、神经网络、注意力机制亲手「逼」出来。

从第 1 课出发 →浏览学习地图 ↓

HOW WE LEARN · 学习方式

所有技术，都是为了解决问题而出现的

没有人一开始就想到了RNN、LSTM、Transformer，都是在前一代技术方案上不断迭代调整，一步一步演化出来的。现在让我们从最开始那个问题开始，开启这趟自然语言处理的旅程。

提出问题

从一个小白都能听得懂的具体问题开始

→

最小方案

先用最简单的技术方案来尝试解决这个问题。

→

发现不足

这个最简单的技术方案遇到了它解决不了的部分

→

迭代

对这个最简单的技术方案进行一轮迭代，解决了那部分无法解决的问题。

→

总结

回头看——你刚刚「发明」的那个东西，就是教科书里那个术语。

「学习，不是背诵那些技术名词——
而是亲历那个技术是怎么被逼出来的过程。」

CURRICULUM · 学习地图

五部分 · 三十课 + 两篇附录，一条路

按依赖关系排列：数学给你语言，神经网络给你机器，NLP 给你历史，Transformer 给你现在。下面这张全局路线图把 30 课画成一条从「向量」走到「Transformer」、再望向前沿的路—— 每个圆点是一课，点进去就能从它的开场问题跳进去。

卷一 · I基础数学把世界变成数字

01什么是向量起点 02向量的常见运算 03什么是矩阵 04什么是线性变换 05什么是梯度 06概率与信息

卷二 · II神经网络让数字学会学习

07神经元结构 08激活函数 09神经网络与训练 10损失函数 11Softmax 12梯度下降与优化器 13反向传播

卷三 · III自然语言处理教机器读懂语言

14语言的概率游戏：N-gram 15词向量 16前馈神经网络语言模型 17RNN 循环神经网络 18LSTM 长短期记忆网络

卷四 · IV大语言模型一路长成 ChatGPT

19注意力机制 20多头注意力 21Transformer 架构 22Tokenizer 分词器 23编码器、解码器与大语言模型 24残差连接与层归一化 25预训练 · 监督微调 · 强化学习 26KV 缓存、稀疏注意力与 FlashAttention 27MoE 混合专家架构 28模型蒸馏 29串讲：从 N-gram 到 Transformer 30前沿与未来：下一程

卷五 · V附录回到原典与全景

附1Transformer 3D 全景图附2《Attention Is All You Need》原文终点

EXPAND · 逐课展开

想知道每一课在解决什么问题？下面把五个部分逐课摊开，标题旁那句话，就是这一课的开场问题。

卷一

基础数学

—— 机器如何「看见」世界？

继续往上走

卷二

神经网络

—— 从一个神经元，到一台会学习的机器

继续往上走

卷三

自然语言处理

—— 让机器读懂语言的几十年接力

继续往上走

卷四

大语言模型

—— 从注意力机制到 ChatGPT

继续往上走

卷五

附录

—— 原典、图谱与补充材料