VOLUME I

基础数学

机器如何「看见」世界？

机器只认识数字。这一卷用六件最基本的数学工具，让它学会描述万物、比较相似、组织并批量运算成千上万个权重、变换整个空间、找到改进的方向、量化预测的不确定性——这六件工具，就是后面三卷每一行公式的字母表。

开始第一课 →

整套课程 · 五部分，一条路

卷一 · 你在这里基础数学把世界变成数字

卷二神经网络让数字学会学习

卷三自然语言处理教机器读懂语言

卷四大语言模型一路长成 ChatGPT

卷五附录回到原典与全景

这一卷的故事

在能学习之前，机器首先需要一种描述世界的语言。我们的选择是向量：把任何事物——一张图片、一个词、一只猫——都用一组数字来表示。当「猫」是 [0.8, 0.2, 0.9]，「老虎」是 [0.7, 0.3, 0.8]，「钢笔」是 [0.1, 0.9, 0.1]，它们在数字空间里的距离就能反映意义上的远近。

有了数字表示，下一步是计算「相似度」。两个向量有多接近？这就需要向量运算——点积和余弦相似度。点积几何上是「一个向量在另一个向量方向上的投影」，是神经元激活的本质。这些计算是推荐系统、语义搜索和词义匹配的共同基础。

神经网络每一层有成百上千个神经元，每个都要做点积。矩阵是组织这些权重的工具——把所有神经元的权重排成行，矩阵乘法就能同时完成所有点积。理解矩阵，是理解网络层运算的前提。

第三步是线性变换：矩阵乘法不只是数字游戏，它是「把整个空间一起搬动」。神经网络的每一层都在做矩阵变换——把输入从一个坐标系映射到另一个坐标系，直到最后的坐标能表示「这是猫的概率」。

第四步是梯度——蒙着眼睛站在山坡上，朝哪个方向走最快能到达山谷？梯度精确地回答了这个问题，是所有机器学习系统的导航系统：不靠猜，靠数学。

最后是概率与信息——神经网络的最后一层为什么输出「概率」？「交叉熵损失」从哪里来？信息论给了答案：越意外的事件信息量越高（−log p），熵衡量整个分布的不确定程度，而交叉熵损失的本质是让模型对训练集正确答案的「平均惊讶度」最小。这套语言连接了数学、物理直觉与神经网络训练的日常操作。

承上启下

← 你带着什么走进这一卷

这是整座山的起点。你只需要带上一个信念：再复杂的智能，归根到底都是从「把一件事物变成一串数字」开始的。

这一卷又交给后面什么 →

六件工具备齐，卷二就用它们搭出第一台会学习的机器——向量是它的输入，矩阵是它的每一层，梯度是它纠错的指南针。

课程路径 · 6 课

什么是向量计算机只认识数字，它怎么知道「猫」和「老虎」比「猫」和「金鱼」更像？

读 →

向量的常见运算「相似」可以被计算吗？——加法、点积、余弦相似度

读 →

什么是矩阵神经网络每一层把一组数字变成另一组数字——这个变换用什么来表示？

读 →

什么是线性变换矩阵乘法到底在做什么？——把整个空间一起旋转、拉伸、搬动

读 →

什么是梯度蒙着眼睛站在山坡上，怎么走到山谷最低点？

读 →

概率与信息神经网络的输出为什么叫「概率」？——从频率到交叉熵损失

读 →

下一卷 →II 神经网络