LESSON 30 · 卷 大语言模型

前沿与未来:下一程

ChatGPT 之后呢?——当下最活跃的研究方向,与大模型可能的演变

第 1 站

从「已经发生的历史」到「正在发生的故事」

前面 29 课讲的,是一段已经定型的历史——从向量到 ChatGPT,每一步都有清晰的因果。 这最后一课换个姿势:看「正在发生」和「可能发生」的事。

先打个预防针

前沿之所以叫前沿,就是因为它还没有标准答案。下面这些方向,有的已经落地、有的还在争论、有的可能两年后就被证伪。 所以这一课不求「记住结论」,只求你建立一张地图:知道大家在往哪几个方向使劲、各自要解决什么问题。

当下最活跃的探索,大致可以归到这几条线上:

THINK
想得更深
让模型先「想」再答——把算力从训练挪到推理。
SEE
看得更广
多模态:图像、音频、视频和文字统一进同一个模型。
ACT
做得更多
智能体:会调用工具、执行多步任务,而不只是聊天。
REMEMBER
记得更牢
更长的上下文与外部记忆,处理整本书、跨会话记住你。
CHEAPER
跑得更省
更小、更快、能装进手机的模型,让智能变得廉价。
WALLS
几道硬墙
数据耗尽、对齐与安全、O(n²) 架构——绕不开的难题。
第 2 站

想得更深:让模型「先想一会儿」再回答

早期模型是「脱口而出」——读完问题立刻吐答案。可人遇到难题会先在草稿纸上推演。推理模型就把这件事教给了模型:先生成一长串「思维链」(一步步推导),再给出最终答案。 难题(数学、代码、逻辑)的正确率因此大幅提升。

这背后是一个观念转变:以前提升能力主要靠训练时砸算力(更大模型、更多数据); 现在发现,推理时多花算力让模型「多想几步」,同样能换来能力——这叫测试时计算(test-time compute)。 训练这种「会想」的能力,常用一种朴素而有效的奖励:答对了才给分(可验证奖励,RLVR), 让模型在反复试错中自己摸索出好的推理路径。

脱口而出≈ 38%先想一长串再答≈ 86%同一个模型,只是允许它「多想几步」
图 30-1同一个模型,在难题上「脱口而出」与「先想一长串再答」的正确率差距(示意)。这就是测试时计算的威力:不改模型,只是让它在推理时多花算力思考。
第 3 站

看得更广:把图像、声音、视频都变成 token

世界不只有文字。多模态的思路其实你早就懂了——还记得第 1 课「万物皆向量」、第 22 课「文字先切成 token」吗? 只要能把一张图、一段音频、一帧视频也切成 token、变成向量,它们就能和文字一起喂进同一个 Transformer。

于是模型可以「看着图回答问题」「听着语音对话」「描述一段视频」。更深一层的野心是: 文字是人类对世界的二手转述,而图像和视频是更接近世界本身的信号——多模态或许是模型真正理解物理世界的入口。

第 4 站

做得更多:从「会说」到「会做」的智能体

一个只会聊天的模型,本事困在对话框里。智能体(Agent)给它装上手脚: 让它能调用工具(搜索、运行代码、读写文件、调 API),并把一个大任务拆成多步、 一步步执行、看结果再决定下一步。

这正是「测试时计算」的另一种形态——不只是「想得久」,而是「边做边想、用行动获取新信息」。 从「帮我写封邮件」到「帮我把这个项目从头跑通」,难点不在单步多聪明,而在长链条里少犯错、能纠错、不偏航。 这也是当下落地最热、坑也最多的方向。

第 5 站

记得更牢,又跑得更省

记得更牢:模型的上下文窗口在飞速变长(从几千 token 到上百万),让它能一次读完整本书、整个代码库。 但光靠塞进上下文还不够——还需要外部记忆:用检索(RAG)即时翻查资料、跨会话记住你是谁。 说到底,这是在补 Transformer 那个老毛病:注意力是 O(n²) 的(第 26 课),上下文越长越贵。

跑得更省:最强的模型动辄千亿参数,又慢又贵。于是另一条线反方向使劲—— 用你学过的 MoE(第 27 课,每次只激活一小部分)、量化(用更少的位数存权重)、蒸馏(第 28 课,大模型教小模型),把模型压到能跑在一台笔记本、甚至一部手机上。 智能越廉价,能渗透的角落就越多。

第 6 站

几道绕不开的硬墙

能力一路狂奔,但前方有几堵真正难啃的墙,决定了这条路能走多远:

DATA WALL
数据快用完了
互联网上的高质量文本是有限的,而模型的胃口近乎无限。合成数据(让模型生成训练数据)和「自我提升」是出路,但也怕「近亲繁殖」式的质量退化。
ALIGNMENT
对齐与安全
模型越强,「让它做我们真正想要的、且可信可控」就越关键。还有可解释性:我们至今无法完全看懂几千亿参数里到底在算什么。
ARCHITECTURE
架构会变吗
O(n²) 的注意力是悬在头顶的成本。线性注意力、状态空间模型(如 Mamba)等新架构想绕开它——Transformer 未必是终点。
EVALUATION
怎么算「更好」
当模型在大多数考试上超过人类,旧的评测标准纷纷失效。如何衡量进步本身,正在变成一个前沿问题。
第 7 站

一架没有终点的阶梯

回看这 30 课:从一根数轴上的向量,到会推理、会看、会做的大模型——每一阶都不是天才的灵光一现, 而是「发现一个死结,再用一个朴素的想法解开它」的循环。前沿,不过是这循环还在继续。

所以你已经具备了读懂未来的底子。下次看到一个新名词——某某注意力、某某对齐、某某架构——别慌, 先问那三个老问题:它为什么诞生?解决了上一代的什么死结?又会留下什么新麻烦?这套追问,从第 1 课到今天,一直管用,以后也会。

本课核心 · TAKEAWAY

大模型的下一程,沿着几条线展开:想得更深(推理 / 测试时计算)、看得更广(多模态)、做得更多(智能体)、记得更牢、跑得更省(长上下文 / 效率),以及几道硬墙——数据、对齐、架构。理解它们,靠的还是那三个老问题。

这一课你拿到的「前沿地图」

  • 想得更深:思维链 + 测试时计算,把算力从训练挪到推理。
  • 看得更广:把图像/音频/视频也变成 token,统一进 Transformer。
  • 做得更多:智能体调用工具、拆解多步任务,从「会说」到「会做」。
  • 记得更牢 / 跑得更省:长上下文 + 检索记忆;MoE / 量化 / 蒸馏做轻量化。
  • 硬墙:数据耗尽、对齐与安全、O(n²) 架构、评测失效。
小测验

学习小测验

做完这一课,来检测一下核心知识点。选出你的答案后点击「提交」,即可看到正确选项与讲解。

Q1「测试时计算(test-time compute)」指的是什么思路?
Q2关于大模型前沿,下面哪种说法符合这一课的态度?
NEXT · 附录1

Transformer 3D 全景图

最后,把整座 Transformer 摆进一个可旋转的三维空间——点一下,看光点逐层流过,下一个词如何蹦出来。

0 人点赞,0 人看过