II
VOLUME II

神经网络

从一个神经元,到一台会学习的机器

一个神经元只会加权投票——把几十亿个这样的单元叠起来,它们却学会了识别猫、翻译语言、生成图像。这一卷用卷一的数学,走完学习的完整循环:表示 → 非线性 → 量化错误 → 找方向 → 高效反传,最终拼出一台能拟合任何函数的通用机器。

开始第一课 →
整套课程 · 五部分,一条路
基础数学把世界变成数字
· 你在这里神经网络让数字学会学习
自然语言处理教机器读懂语言
大语言模型一路长成 ChatGPT
附录回到原典与全景
这一卷的故事

卷一的四个数学工具准备好了,现在我们问:能不能用它们搭出一台「会学习」的机器?答案是神经网络——一个极其简单的单元(神经元)大量重复、层层叠加的结果。

单个神经元做的事很简单:把输入加权求和,再过一个非线性函数。关键在于激活函数的非线性——如果没有它,一百层直线叠在一起还是直线,和一层没有任何区别。非线性打破了这个「坍塌」,给深层网络真正的表达力。

但知道网络「能表达什么」还不够,还需要知道它「错了多少」(损失函数)和「如何纠正」。Softmax 把分类分数变成概率,梯度下降指向下坡方向,反向传播则高效地把这个信号分配给每一个参数——哪怕参数有 1750 亿个。

到这一卷结束,你拥有了训练任何神经网络所需的完整工具箱。下一卷用这套工具去处理语言这个特殊对象。

承上启下
← 你带着什么走进这一卷

卷一给了你向量、矩阵、梯度、概率四件工具。单独看它们只是数学;这一卷把它们拼起来,第一次组成一个能自己变好的系统。

这一卷又交给后面什么 →

你现在手握一台能拟合任何函数的通用机器。卷三把它对准一个最棘手的对象——人类语言:它是序列、有上下文、词与词之间暗藏牵连。

课程路径 · 7
07
神经元结构一个只会「加权投票」的小开关,凭什么是智能的起点?
读 →
08
激活函数为什么一百层直线叠起来还是直线?——给网络引入「弯折」
读 →
09
神经网络与训练神经元叠成一张网,再让它自己「学」——「训练」到底在做什么?
读 →
10
损失函数「错得有多离谱」怎么变成一个可以比较的数?
读 →
11
Softmax一组任意大小的分数,怎么变成一组加起来等于 1 的概率?
读 →
12
梯度下降与优化器知道了往哪边走是下坡,一步该迈多大?
读 →
13
反向传播输出层错了,第一层的某个权重该负多大责任?
读 →