附录1 · 卷五附录

Transformer 3D 全景图

把整座 Transformer 摆进一个可旋转的三维空间——亲眼看着一句话如何一层层变成下一个词

附录

前面 30 课，是把 Transformer 一块一块拆开讲的。这篇附录反过来——把所有零件重新拼回原位，摆进一个可以平移、旋转、缩放的三维空间，让你一眼看到数据从「一句话」到「下一个词」的完整旅程。

用鼠标左键拖动平移、右键旋转、滚轮缩放。看够了静态结构，就点下方的「开始训练」按钮——一束光点会从左端的输入出发，逐层流过 Q/K/V、注意力矩阵、 FFN 节点和最终 Softmax。需要看细节时，点「全屏查看」。

左键拖动平移 · 右键拖动旋转 · 滚轮缩放

导读

顺着光点走一遍

点「演示」后，光点经过的每一站，正好对应前面学过的一课：

① 分词：句子「猫坐在垫子」被切成 4 个 token，各自配一个 id（第 22 课）。
② 词向量：每个 token 查表变成一列数字，也就是 token embedding（蓝色球阵，第 1 / 15 课）。
③ 加位置：先把 token embedding 和 position embedding 相加，得到当前位置表示 x（红色节点）。
④ 自注意力：再把 x 乘三套权重得到 Q/K/V，算 QKᵀ/√d、逐行 softmax，最后用 A·V 混合上下文（第 19 / 20 课）。
⑤ FFN：每个位置单独经过 W1 → GELU → W2；图中把节点数缩小，只保留计算骨架（第 21 课）。
⑥ 2 个 Block + Softmax：④⑤ 打包成一个 Block；图中画 2 层，最后取末位置做 logits、exp、归一化，得到下一个词概率（第 11 / 24 课）。

把光点多放几遍，你会发现：所谓「大模型生成文字」，不过是这条流水线一次又一次地跑—— 每吐出一个词，就把它接到句尾，再从头跑一遍，预测再下一个词（第 23 课的自回归）。 ChatGPT 写一篇长文，就是这条流水线跑了成千上万次。

尾声 · TAKEAWAY

这张图里没有任何新东西——每一块你都亲手推导过。从一根数轴上的向量，到此刻在你眼前旋转的整座 Transformer， AI 始终是一连串可以追溯的数学与工程决策，垒起来的。旅程到此，山，你已登顶。

看完全景图，再回到那篇起点——按原文顺序读完 Transformer 论文的完整中文译文。

0 人点赞，0 人看过