AI知识篇
什么是模型蒸馏
0
学习进度0/60
什么是模型蒸馏
把大模型的能力压缩到小模型。
GPT-4 很强,但部署一个 GPT-4 需要几十块 GPU、每月几万美元。普通公司用不起,手机上更跑不动。有没有办法把大模型的能力「压缩」到小模型里?
模型蒸馏(Knowledge Distillation)= 用一个大模型(教师)来训练一个小模型(学生)。学生不直接学原始数据,而是学习教师的「思考过程」——输出概率分布。这样小模型能获得接近大模型的能力。
模型蒸馏中「软标签」是什么意思?
- 给数据贴上模糊的标签
- 教师模型输出的概率分布(如正面85%、中性12%、负面3%)
- 学生模型的参数
- 训练数据的质量评分
蒸馏后的小模型到底能保留多少能力?来看看教师模型和学生模型的具体对比——
蒸馏 vs 量化 vs 剪枝:蒸馏是训练一个新的小模型;量化是把模型的数字精度降低(如32位→4位);剪枝是删除不重要的连接。三者可以组合使用,进一步压缩模型。DeepSeek 就大量使用了蒸馏技术。
模型蒸馏让 AI 民主化——不是只有大公司才能用好 AI。你手机上跑的本地大模型、DeepSeek 的高性价比,都离不开蒸馏技术。