LESSON 30 · 卷四大语言模型

前沿与未来：下一程

ChatGPT 之后呢？——当下最活跃的研究方向，与大模型可能的演变

第 1 站

从「已经发生的历史」到「正在发生的故事」

前面 29 课讲的，是一段已经定型的历史——从向量到 ChatGPT，每一步都有清晰的因果。这最后一课换个姿势：看「正在发生」和「可能发生」的事。

先打个预防针

前沿之所以叫前沿，就是因为它还没有标准答案。下面这些方向，有的已经落地、有的还在争论、有的可能两年后就被证伪。所以这一课不求「记住结论」，只求你建立一张地图：知道大家在往哪几个方向使劲、各自要解决什么问题。

当下最活跃的探索，大致可以归到这几条线上：

THINK

想得更深

让模型先「想」再答——把算力从训练挪到推理。

SEE

看得更广

多模态：图像、音频、视频和文字统一进同一个模型。

ACT

做得更多

智能体：会调用工具、执行多步任务，而不只是聊天。

REMEMBER

记得更牢

更长的上下文与外部记忆，处理整本书、跨会话记住你。

CHEAPER

跑得更省

更小、更快、能装进手机的模型，让智能变得廉价。

WALLS

几道硬墙

数据耗尽、对齐与安全、O(n²) 架构——绕不开的难题。

第 2 站

想得更深：让模型「先想一会儿」再回答

早期模型是「脱口而出」——读完问题立刻吐答案。可人遇到难题会先在草稿纸上推演。推理模型就把这件事教给了模型：先生成一长串「思维链」（一步步推导），再给出最终答案。难题（数学、代码、逻辑）的正确率因此大幅提升。

这背后是一个观念转变：以前提升能力主要靠训练时砸算力（更大模型、更多数据）；现在发现，推理时多花算力让模型「多想几步」，同样能换来能力——这叫测试时计算（test-time compute）。训练这种「会想」的能力，常用一种朴素而有效的奖励：答对了才给分（可验证奖励，RLVR），让模型在反复试错中自己摸索出好的推理路径。

图 30-1同一个模型，在难题上「脱口而出」与「先想一长串再答」的正确率差距（示意）。这就是测试时计算的威力：不改模型，只是让它在推理时多花算力思考。

第 3 站

看得更广：把图像、声音、视频都变成 token

世界不只有文字。多模态的思路其实你早就懂了——还记得第 1 课「万物皆向量」、第 22 课「文字先切成 token」吗？只要能把一张图、一段音频、一帧视频也切成 token、变成向量，它们就能和文字一起喂进同一个 Transformer。

于是模型可以「看着图回答问题」「听着语音对话」「描述一段视频」。更深一层的野心是：文字是人类对世界的二手转述，而图像和视频是更接近世界本身的信号——多模态或许是模型真正理解物理世界的入口。

第 4 站

做得更多：从「会说」到「会做」的智能体

一个只会聊天的模型，本事困在对话框里。智能体（Agent）给它装上手脚：让它能调用工具（搜索、运行代码、读写文件、调 API），并把一个大任务拆成多步、一步步执行、看结果再决定下一步。

这正是「测试时计算」的另一种形态——不只是「想得久」，而是「边做边想、用行动获取新信息」。从「帮我写封邮件」到「帮我把这个项目从头跑通」，难点不在单步多聪明，而在长链条里少犯错、能纠错、不偏航。这也是当下落地最热、坑也最多的方向。

第 5 站

记得更牢，又跑得更省

记得更牢：模型的上下文窗口在飞速变长（从几千 token 到上百万），让它能一次读完整本书、整个代码库。但光靠塞进上下文还不够——还需要外部记忆：用检索（RAG）即时翻查资料、跨会话记住你是谁。说到底，这是在补 Transformer 那个老毛病：注意力是 O(n²) 的（第 26 课），上下文越长越贵。

跑得更省：最强的模型动辄千亿参数，又慢又贵。于是另一条线反方向使劲—— 用你学过的 MoE（第 27 课，每次只激活一小部分）、量化（用更少的位数存权重）、蒸馏（第 28 课，大模型教小模型），把模型压到能跑在一台笔记本、甚至一部手机上。智能越廉价，能渗透的角落就越多。

第 6 站

几道绕不开的硬墙

能力一路狂奔，但前方有几堵真正难啃的墙，决定了这条路能走多远：

DATA WALL

数据快用完了

互联网上的高质量文本是有限的，而模型的胃口近乎无限。合成数据（让模型生成训练数据）和「自我提升」是出路，但也怕「近亲繁殖」式的质量退化。

ALIGNMENT

对齐与安全

模型越强，「让它做我们真正想要的、且可信可控」就越关键。还有可解释性：我们至今无法完全看懂几千亿参数里到底在算什么。

ARCHITECTURE

架构会变吗

O(n²) 的注意力是悬在头顶的成本。线性注意力、状态空间模型（如 Mamba）等新架构想绕开它——Transformer 未必是终点。

EVALUATION

怎么算「更好」

当模型在大多数考试上超过人类，旧的评测标准纷纷失效。如何衡量进步本身，正在变成一个前沿问题。

第 7 站

一架没有终点的阶梯

回看这 30 课：从一根数轴上的向量，到会推理、会看、会做的大模型——每一阶都不是天才的灵光一现，而是「发现一个死结，再用一个朴素的想法解开它」的循环。前沿，不过是这循环还在继续。

所以你已经具备了读懂未来的底子。下次看到一个新名词——某某注意力、某某对齐、某某架构——别慌，先问那三个老问题：它为什么诞生？解决了上一代的什么死结？又会留下什么新麻烦？这套追问，从第 1 课到今天，一直管用，以后也会。

本课核心 · TAKEAWAY

大模型的下一程，沿着几条线展开：想得更深（推理 / 测试时计算）、看得更广（多模态）、做得更多（智能体）、记得更牢、跑得更省（长上下文 / 效率），以及几道硬墙——数据、对齐、架构。理解它们，靠的还是那三个老问题。

这一课你拿到的「前沿地图」

想得更深：思维链 + 测试时计算，把算力从训练挪到推理。
看得更广：把图像/音频/视频也变成 token，统一进 Transformer。
做得更多：智能体调用工具、拆解多步任务，从「会说」到「会做」。
记得更牢 / 跑得更省：长上下文 + 检索记忆；MoE / 量化 / 蒸馏做轻量化。
硬墙：数据耗尽、对齐与安全、O(n²) 架构、评测失效。

小测验

学习小测验

做完这一课，来检测一下核心知识点。选出你的答案后点击「提交」，即可看到正确选项与讲解。

Q1「测试时计算（test-time compute）」指的是什么思路？

Q2关于大模型前沿，下面哪种说法符合这一课的态度？

→NEXT · 附录1

Transformer 3D 全景图

最后，把整座 Transformer 摆进一个可旋转的三维空间——点一下，看光点逐层流过，下一个词如何蹦出来。

0 人点赞，0 人看过