VOLUME II

神经网络

从一个神经元，到一台会学习的机器

一个神经元只会加权投票——把几十亿个这样的单元叠起来，它们却学会了识别猫、翻译语言、生成图像。这一卷用卷一的数学，走完学习的完整循环：表示 → 非线性 → 量化错误 → 找方向 → 高效反传，最终拼出一台能拟合任何函数的通用机器。

整套课程 · 五部分，一条路

卷一基础数学把世界变成数字

卷二 · 你在这里神经网络让数字学会学习

卷三自然语言处理教机器读懂语言

卷四大语言模型一路长成 ChatGPT

卷五附录回到原典与全景

这一卷的故事

卷一的四个数学工具准备好了，现在我们问：能不能用它们搭出一台「会学习」的机器？答案是神经网络——一个极其简单的单元（神经元）大量重复、层层叠加的结果。

单个神经元做的事很简单：把输入加权求和，再过一个非线性函数。关键在于激活函数的非线性——如果没有它，一百层直线叠在一起还是直线，和一层没有任何区别。非线性打破了这个「坍塌」，给深层网络真正的表达力。

但知道网络「能表达什么」还不够，还需要知道它「错了多少」（损失函数）和「如何纠正」。Softmax 把分类分数变成概率，梯度下降指向下坡方向，反向传播则高效地把这个信号分配给每一个参数——哪怕参数有 1750 亿个。

到这一卷结束，你拥有了训练任何神经网络所需的完整工具箱。下一卷用这套工具去处理语言这个特殊对象。

承上启下

← 你带着什么走进这一卷

卷一给了你向量、矩阵、梯度、概率四件工具。单独看它们只是数学；这一卷把它们拼起来，第一次组成一个能自己变好的系统。

这一卷又交给后面什么 →

你现在手握一台能拟合任何函数的通用机器。卷三把它对准一个最棘手的对象——人类语言：它是序列、有上下文、词与词之间暗藏牵连。

课程路径 · 7 课

神经元结构一个只会「加权投票」的小开关，凭什么是智能的起点？

激活函数为什么一百层直线叠起来还是直线？——给网络引入「弯折」

神经网络与训练神经元叠成一张网，再让它自己「学」——「训练」到底在做什么？

损失函数「错得有多离谱」怎么变成一个可以比较的数？

Softmax一组任意大小的分数，怎么变成一组加起来等于 1 的概率？

梯度下降与优化器知道了往哪边走是下坡，一步该迈多大？

反向传播输出层错了，第一层的某个权重该负多大责任？