Transformer 3D 全景图
把整座 Transformer 摆进一个可旋转的三维空间——亲眼看着一句话如何一层层变成下一个词
附录
Transformer 3D 全景图
前面 30 课,是把 Transformer 一块一块拆开讲的。这篇附录反过来——把所有零件重新拼回原位, 摆进一个可以平移、旋转、缩放的三维空间,让你一眼看到数据从「一句话」到「下一个词」的完整旅程。
用鼠标左键拖动平移、右键旋转、滚轮缩放。看够了静态结构, 就点下方的「开始训练」按钮——一束光点会从左端的输入出发,逐层流过 Q/K/V、注意力矩阵、 FFN 节点和最终 Softmax。需要看细节时,点「全屏查看」。
- 橙色块:输入 token 与最终预测的「下一个词」(第 22 课分词)。
- 蓝色球阵:token embedding,表示词义本身(第 1 / 15 课)。
- 红色节点 x:token embedding 加上 position embedding 之后的当前位置表示,Q/K/V 都从这里投影出来。
- 金色节点 + 矩阵:Q/K/V 投影、QKᵀ 打分、softmax 权重、A·V 加权求和(第 19 / 20 课)。
- 绿色小网络:FFN 的 W1、GELU、W2 三步,每个位置各自加工(第 21 课)。
- 三组概率柱:logits → exp(z) → softmax 概率,最高的就是答案(第 11 课)。
- 流动光点:一次前向传播——信息正在逐层向右传递。
导读
顺着光点走一遍
点「演示」后,光点经过的每一站,正好对应前面学过的一课:
图中六站 ↔ 对应课程
- ① 分词:句子「猫坐在垫子」被切成 4 个 token,各自配一个 id(第 22 课)。
- ② 词向量:每个 token 查表变成一列数字,也就是 token embedding(蓝色球阵,第 1 / 15 课)。
- ③ 加位置:先把 token embedding 和 position embedding 相加,得到当前位置表示 x(红色节点)。
- ④ 自注意力:再把 x 乘三套权重得到 Q/K/V,算 QKᵀ/√d、逐行 softmax,最后用 A·V 混合上下文(第 19 / 20 课)。
- ⑤ FFN:每个位置单独经过 W1 → GELU → W2;图中把节点数缩小,只保留计算骨架(第 21 课)。
- ⑥ 2 个 Block + Softmax:④⑤ 打包成一个 Block;图中画 2 层,最后取末位置做 logits、exp、归一化,得到下一个词概率(第 11 / 24 课)。
把光点多放几遍,你会发现:所谓「大模型生成文字」,不过是这条流水线一次又一次地跑—— 每吐出一个词,就把它接到句尾,再从头跑一遍,预测再下一个词(第 23 课的自回归)。 ChatGPT 写一篇长文,就是这条流水线跑了成千上万次。
尾声 · TAKEAWAY
这张图里没有任何新东西——每一块你都亲手推导过。 从一根数轴上的向量,到此刻在你眼前旋转的整座 Transformer, AI 始终是一连串可以追溯的数学与工程决策,垒起来的。旅程到此,山,你已登顶。
《Attention Is All You Need》逐字译文
看完全景图,再回到那篇起点——按原文顺序读完 Transformer 论文的完整中文译文。
0 人点赞,0 人看过