LESSON 09 · 卷 神经网络

神经网络与训练

神经元叠成一张网,再让它自己「学」——「训练」到底在做什么?

第 1 站

一个神经元不够,那就织一张网

前两课,我们把那台猜水果的机器从零造了出来:第 7 课造好神经元(加权求和 + 偏置 + 激活), 第 8 课给它装上激活函数,让多层叠起来真正有了表达能力。可到现在,我们手里始终是零件—— 这一课,把零件正式拼成整机:神经网络,再讲清楚它是怎么「学」会本事的。

先回顾一个已经见过的拼法。第 7 课末尾,我们给每种水果配一个神经元、并排站成一排, 再用 softmax 把它们的分数压成一组概率——这「一排神经元」,就是一(layer)。 下面这台就是那一层,转旋钮再感受一下:

🎛 四个旋钮 = 四个输入特征
尺寸大小0.50
颜色0.50
偏绿偏红
酸甜度0.50
水分0.50
多汁
尺寸大小0.50颜色0.50酸甜度0.50水分0.50🍎2.4🍌2.2🍉1.4🍋2.1softmax分数→概率每个神经元给一种水果打分
机器觉得最像:🍎 苹果
🍎 苹果36%
🍌 香蕉27%
🍉 西瓜13%
🍋 柠檬24%
四个神经元各给一种水果打分(圆圈旁的数字),softmax 把四个分数挤成一组加起来 = 100% 的概率。试试把旋钮调到「大 + 多汁」,看西瓜怎么后来居上。
互动 9-A一层网络:四个神经元各看同样的四条线索,各算各的分数,softmax 合成一个概率分布。把旋钮调向「又大又多汁」,看西瓜的概率怎么爬到最高。

关键的一步来了:把前一层的输出,当作后一层的输入,一层接一层叠下去——这就是神经网络。 最前面接收原始特征的叫输入层,最后给出答案的叫输出层,夹在中间、不直接和外界打交道的,统称隐藏层

输入层(4 特征)隐藏层隐藏层输出层(4 水果)🍎🍌🍉🍋深度 = 层数;宽度 = 每层神经元个数;相邻两层「全连接」(每条线是一个权重)
图 9-1一张全连接神经网络。节点是神经元,连线是权重。层数叫网络的「深度」,每层神经元个数叫「宽度」。第 8 课证过:层与层之间必须夹着激活函数,否则再深也等于一层。
第 2 站

整张网络,其实是「一个带参数的大函数」

别被那张网吓住。从头到尾看一遍:输入 进来,每一层做的都是同一件事—— 先来个线性变换 ,再过一道激活函数,把结果交给下一层。整张网络不过是这套动作重复几次

换句话说,整张网络就是一个大函数:喂它一组特征,它吐出一个预测 。 而函数的「脾气」全由那一大堆权重 和偏置 决定—— 它们合在一起,记作 ,就是网络的参数

参数有多少?数一数上面那张小网(4 → 5 → 5 → 4):第一层权重 个、偏置 5 个; 第二层 + 5;第三层 + 4——加起来 79 个参数。 这么小的网就有近百个旋钮;GPT-3 则有 1750 亿 个。

一句话抓住要害

网络的全部「本事」,就藏在这堆参数 里。结构(多少层、多少神经元)定下了它表达多复杂的规律;而具体表达成什么样、是会认水果还是会写诗, 完全取决于这些数取什么值。换一组参数,就是换一套判断规则。

一张网有成千上万个参数,总不能像第 7 课那样一个个手工去猜吧?那它们到底从哪来?
第 3 站

「训练」:把参数交给数据去定

网络刚出生时,参数是随机的——这时喂它一个苹果,它多半瞎猜「30% 像香蕉」。 所谓训练(training),就是拿一大批已知正确答案的例子(带标签的数据), 一点一点地微调参数,让网络的预测越来越贴近真实答案。

打个比方:第 7 课你手动把颜色的权重调大、把门槛挪到 2.4,是为了让那台机器「分对」手里的水果。 训练做的是同一件事,只不过交给机器自动完成、而且面对的是成千上万个例子。它靠的是一个不断重复的循环:

训练数据(带正确答案)① 前向计算网络算出预测 ŷ② 算损失错得有多离谱 L③ 求梯度每个参数该往哪调④ 更新参数θ ← θ − 学习率×梯度重复成千上万次:损失一步步变小,参数一步步变好
图 9-2训练的循环。喂一批数据 → 网络前向算出预测 → 损失函数量出错多少 → 反推每个参数的梯度(该往哪调)→ 更新参数,迈出一小步。如此往复,直到损失足够小。

这四步里,每一步都对应着接下来要专门讲的一课——把它们看成一张地图:

  • ② 算损失 → 第 10 课《损失函数》:怎么把「错得有多离谱」算成一个可比较的数。
  • ④ 更新参数 → 第 12 课《梯度下降与优化器》:知道了往哪走是下坡,一步该迈多大。
  • ③ 求梯度 → 第 13 课《反向传播》:怎么高效算出「每个参数该负多大责任」。

最后区分两个常被混淆的词:训练是「调参数」的过程,要用到正确答案、要算损失和梯度,很费算力; 训练完成后,参数就固定下来,拿去对新数据做预测,叫推理(inference)——你平时用 ChatGPT,用的就是它训练好、参数冻住后的样子。

第 4 站

总结

本课核心 · TAKEAWAY

把神经元一层层叠起来、前一层的输出喂给后一层,就成了神经网络:输入层、隐藏层、输出层。 整张网络本质是一个带参数 θ 的大函数,它的全部本事都藏在权重和偏置里。训练,就是拿带答案的数据,靠「前向 → 算损失 → 求梯度 → 更新参数」的循环, 让网络自己把这堆参数调到最好——后面三课,正是把这个循环的每一步拆开细讲。

这一课你建立了全局图景

  • 网络结构:层的堆叠;输入层 / 隐藏层 / 输出层;深度与宽度;相邻层全连接。
  • 参数 θ:所有权重 W 与偏置 b 的总和,网络的「本事」全在其中。
  • 训练:用带标签的数据自动调参,让预测逼近真实答案。
  • 训练循环:前向计算 → 算损失 → 求梯度 → 更新参数,重复成千上万次。
  • 训练 vs 推理:训练调参、推理用固定参数做预测。
小测验

学习小测验

做完这一课,来检测一下核心知识点。选出你的答案后点击「提交」,即可看到正确选项与讲解。

Q1所谓「训练」一个神经网络,本质上是在做什么?
Q2在标准的训练循环中,下列步骤的正确顺序是?
NEXT · 第 10 课

损失函数

训练循环的第②步——网络做出了预测,「错得有多离谱」要怎么变成一个可以比较、可以优化的数?

0 人点赞,0 人看过