II
VOLUME II神经网络
从一个神经元,到一台会学习的机器
一个神经元只会加权投票——把几十亿个这样的单元叠起来,它们却学会了识别猫、翻译语言、生成图像。这一卷用卷一的数学,走完学习的完整循环:表示 → 非线性 → 量化错误 → 找方向 → 高效反传,最终拼出一台能拟合任何函数的通用机器。
开始第一课 →整套课程 · 五部分,一条路
卷一基础数学把世界变成数字
卷二 · 你在这里神经网络让数字学会学习
卷三自然语言处理教机器读懂语言
卷四大语言模型一路长成 ChatGPT
卷五附录回到原典与全景
这一卷的故事
卷一的四个数学工具准备好了,现在我们问:能不能用它们搭出一台「会学习」的机器?答案是神经网络——一个极其简单的单元(神经元)大量重复、层层叠加的结果。
单个神经元做的事很简单:把输入加权求和,再过一个非线性函数。关键在于激活函数的非线性——如果没有它,一百层直线叠在一起还是直线,和一层没有任何区别。非线性打破了这个「坍塌」,给深层网络真正的表达力。
但知道网络「能表达什么」还不够,还需要知道它「错了多少」(损失函数)和「如何纠正」。Softmax 把分类分数变成概率,梯度下降指向下坡方向,反向传播则高效地把这个信号分配给每一个参数——哪怕参数有 1750 亿个。
到这一卷结束,你拥有了训练任何神经网络所需的完整工具箱。下一卷用这套工具去处理语言这个特殊对象。
承上启下
← 你带着什么走进这一卷
卷一给了你向量、矩阵、梯度、概率四件工具。单独看它们只是数学;这一卷把它们拼起来,第一次组成一个能自己变好的系统。
这一卷又交给后面什么 →
你现在手握一台能拟合任何函数的通用机器。卷三把它对准一个最棘手的对象——人类语言:它是序列、有上下文、词与词之间暗藏牵连。
课程路径 · 7 课