前沿与未来:下一程
ChatGPT 之后呢?——当下最活跃的研究方向,与大模型可能的演变
从「已经发生的历史」到「正在发生的故事」
前面 29 课讲的,是一段已经定型的历史——从向量到 ChatGPT,每一步都有清晰的因果。 这最后一课换个姿势:看「正在发生」和「可能发生」的事。
前沿之所以叫前沿,就是因为它还没有标准答案。下面这些方向,有的已经落地、有的还在争论、有的可能两年后就被证伪。 所以这一课不求「记住结论」,只求你建立一张地图:知道大家在往哪几个方向使劲、各自要解决什么问题。
当下最活跃的探索,大致可以归到这几条线上:
想得更深:让模型「先想一会儿」再回答
早期模型是「脱口而出」——读完问题立刻吐答案。可人遇到难题会先在草稿纸上推演。推理模型就把这件事教给了模型:先生成一长串「思维链」(一步步推导),再给出最终答案。 难题(数学、代码、逻辑)的正确率因此大幅提升。
这背后是一个观念转变:以前提升能力主要靠训练时砸算力(更大模型、更多数据); 现在发现,推理时多花算力让模型「多想几步」,同样能换来能力——这叫测试时计算(test-time compute)。 训练这种「会想」的能力,常用一种朴素而有效的奖励:答对了才给分(可验证奖励,RLVR), 让模型在反复试错中自己摸索出好的推理路径。
看得更广:把图像、声音、视频都变成 token
世界不只有文字。多模态的思路其实你早就懂了——还记得第 1 课「万物皆向量」、第 22 课「文字先切成 token」吗? 只要能把一张图、一段音频、一帧视频也切成 token、变成向量,它们就能和文字一起喂进同一个 Transformer。
于是模型可以「看着图回答问题」「听着语音对话」「描述一段视频」。更深一层的野心是: 文字是人类对世界的二手转述,而图像和视频是更接近世界本身的信号——多模态或许是模型真正理解物理世界的入口。
做得更多:从「会说」到「会做」的智能体
一个只会聊天的模型,本事困在对话框里。智能体(Agent)给它装上手脚: 让它能调用工具(搜索、运行代码、读写文件、调 API),并把一个大任务拆成多步、 一步步执行、看结果再决定下一步。
这正是「测试时计算」的另一种形态——不只是「想得久」,而是「边做边想、用行动获取新信息」。 从「帮我写封邮件」到「帮我把这个项目从头跑通」,难点不在单步多聪明,而在长链条里少犯错、能纠错、不偏航。 这也是当下落地最热、坑也最多的方向。
记得更牢,又跑得更省
记得更牢:模型的上下文窗口在飞速变长(从几千 token 到上百万),让它能一次读完整本书、整个代码库。 但光靠塞进上下文还不够——还需要外部记忆:用检索(RAG)即时翻查资料、跨会话记住你是谁。 说到底,这是在补 Transformer 那个老毛病:注意力是 O(n²) 的(第 26 课),上下文越长越贵。
跑得更省:最强的模型动辄千亿参数,又慢又贵。于是另一条线反方向使劲—— 用你学过的 MoE(第 27 课,每次只激活一小部分)、量化(用更少的位数存权重)、蒸馏(第 28 课,大模型教小模型),把模型压到能跑在一台笔记本、甚至一部手机上。 智能越廉价,能渗透的角落就越多。
几道绕不开的硬墙
能力一路狂奔,但前方有几堵真正难啃的墙,决定了这条路能走多远:
一架没有终点的阶梯
回看这 30 课:从一根数轴上的向量,到会推理、会看、会做的大模型——每一阶都不是天才的灵光一现, 而是「发现一个死结,再用一个朴素的想法解开它」的循环。前沿,不过是这循环还在继续。
所以你已经具备了读懂未来的底子。下次看到一个新名词——某某注意力、某某对齐、某某架构——别慌, 先问那三个老问题:它为什么诞生?解决了上一代的什么死结?又会留下什么新麻烦?这套追问,从第 1 课到今天,一直管用,以后也会。
大模型的下一程,沿着几条线展开:想得更深(推理 / 测试时计算)、看得更广(多模态)、做得更多(智能体)、记得更牢、跑得更省(长上下文 / 效率),以及几道硬墙——数据、对齐、架构。理解它们,靠的还是那三个老问题。
这一课你拿到的「前沿地图」
- 想得更深:思维链 + 测试时计算,把算力从训练挪到推理。
- 看得更广:把图像/音频/视频也变成 token,统一进 Transformer。
- 做得更多:智能体调用工具、拆解多步任务,从「会说」到「会做」。
- 记得更牢 / 跑得更省:长上下文 + 检索记忆;MoE / 量化 / 蒸馏做轻量化。
- 硬墙:数据耗尽、对齐与安全、O(n²) 架构、评测失效。
学习小测验
做完这一课,来检测一下核心知识点。选出你的答案后点击「提交」,即可看到正确选项与讲解。
Transformer 3D 全景图
最后,把整座 Transformer 摆进一个可旋转的三维空间——点一下,看光点逐层流过,下一个词如何蹦出来。