I
VOLUME I

基础数学

机器如何「看见」世界?

机器只认识数字。这一卷用六件最基本的数学工具,让它学会描述万物、比较相似、组织并批量运算成千上万个权重、变换整个空间、找到改进的方向、量化预测的不确定性——这六件工具,就是后面三卷每一行公式的字母表。

开始第一课 →
整套课程 · 五部分,一条路
· 你在这里基础数学把世界变成数字
神经网络让数字学会学习
自然语言处理教机器读懂语言
大语言模型一路长成 ChatGPT
附录回到原典与全景
这一卷的故事

在能学习之前,机器首先需要一种描述世界的语言。我们的选择是向量:把任何事物——一张图片、一个词、一只猫——都用一组数字来表示。当「猫」是 [0.8, 0.2, 0.9],「老虎」是 [0.7, 0.3, 0.8],「钢笔」是 [0.1, 0.9, 0.1],它们在数字空间里的距离就能反映意义上的远近。

有了数字表示,下一步是计算「相似度」。两个向量有多接近?这就需要向量运算——点积和余弦相似度。点积几何上是「一个向量在另一个向量方向上的投影」,是神经元激活的本质。这些计算是推荐系统、语义搜索和词义匹配的共同基础。

神经网络每一层有成百上千个神经元,每个都要做点积。矩阵是组织这些权重的工具——把所有神经元的权重排成行,矩阵乘法就能同时完成所有点积。理解矩阵,是理解网络层运算的前提。

第三步是线性变换:矩阵乘法不只是数字游戏,它是「把整个空间一起搬动」。神经网络的每一层都在做矩阵变换——把输入从一个坐标系映射到另一个坐标系,直到最后的坐标能表示「这是猫的概率」。

第四步是梯度——蒙着眼睛站在山坡上,朝哪个方向走最快能到达山谷?梯度精确地回答了这个问题,是所有机器学习系统的导航系统:不靠猜,靠数学。

最后是概率与信息——神经网络的最后一层为什么输出「概率」?「交叉熵损失」从哪里来?信息论给了答案:越意外的事件信息量越高(−log p),熵衡量整个分布的不确定程度,而交叉熵损失的本质是让模型对训练集正确答案的「平均惊讶度」最小。这套语言连接了数学、物理直觉与神经网络训练的日常操作。

承上启下
← 你带着什么走进这一卷

这是整座山的起点。你只需要带上一个信念:再复杂的智能,归根到底都是从「把一件事物变成一串数字」开始的。

这一卷又交给后面什么 →

六件工具备齐,卷二就用它们搭出第一台会学习的机器——向量是它的输入,矩阵是它的每一层,梯度是它纠错的指南针。

课程路径 · 6
01
什么是向量计算机只认识数字,它怎么知道「猫」和「老虎」比「猫」和「金鱼」更像?
读 →
02
向量的常见运算「相似」可以被计算吗?——加法、点积、余弦相似度
读 →
03
什么是矩阵神经网络每一层把一组数字变成另一组数字——这个变换用什么来表示?
读 →
04
什么是线性变换矩阵乘法到底在做什么?——把整个空间一起旋转、拉伸、搬动
读 →
05
什么是梯度蒙着眼睛站在山坡上,怎么走到山谷最低点?
读 →
06
概率与信息神经网络的输出为什么叫「概率」?——从频率到交叉熵损失
读 →