基础数学
机器如何「看见」世界?
机器只认识数字。这一卷用六件最基本的数学工具,让它学会描述万物、比较相似、组织并批量运算成千上万个权重、变换整个空间、找到改进的方向、量化预测的不确定性——这六件工具,就是后面三卷每一行公式的字母表。
开始第一课 →在能学习之前,机器首先需要一种描述世界的语言。我们的选择是向量:把任何事物——一张图片、一个词、一只猫——都用一组数字来表示。当「猫」是 [0.8, 0.2, 0.9],「老虎」是 [0.7, 0.3, 0.8],「钢笔」是 [0.1, 0.9, 0.1],它们在数字空间里的距离就能反映意义上的远近。
有了数字表示,下一步是计算「相似度」。两个向量有多接近?这就需要向量运算——点积和余弦相似度。点积几何上是「一个向量在另一个向量方向上的投影」,是神经元激活的本质。这些计算是推荐系统、语义搜索和词义匹配的共同基础。
神经网络每一层有成百上千个神经元,每个都要做点积。矩阵是组织这些权重的工具——把所有神经元的权重排成行,矩阵乘法就能同时完成所有点积。理解矩阵,是理解网络层运算的前提。
第三步是线性变换:矩阵乘法不只是数字游戏,它是「把整个空间一起搬动」。神经网络的每一层都在做矩阵变换——把输入从一个坐标系映射到另一个坐标系,直到最后的坐标能表示「这是猫的概率」。
第四步是梯度——蒙着眼睛站在山坡上,朝哪个方向走最快能到达山谷?梯度精确地回答了这个问题,是所有机器学习系统的导航系统:不靠猜,靠数学。
最后是概率与信息——神经网络的最后一层为什么输出「概率」?「交叉熵损失」从哪里来?信息论给了答案:越意外的事件信息量越高(−log p),熵衡量整个分布的不确定程度,而交叉熵损失的本质是让模型对训练集正确答案的「平均惊讶度」最小。这套语言连接了数学、物理直觉与神经网络训练的日常操作。
这是整座山的起点。你只需要带上一个信念:再复杂的智能,归根到底都是从「把一件事物变成一串数字」开始的。
六件工具备齐,卷二就用它们搭出第一台会学习的机器——向量是它的输入,矩阵是它的每一层,梯度是它纠错的指南针。