AI知识篇
什么是深度学习
"更深"的神经网络
深度学习(Deep Learning) 是机器学习的一个分支,核心就是使用多层神经网络。"深度"指的是网络的层数多——从几层到几百层甚至上千层。
💡 类比:如果普通神经网络是小学生(3层),深度学习就是博士生(上百层)——层数越多,能理解的东西越复杂。
加载图表中...
| 概念 | 范围 | 关系 |
|---|---|---|
| 人工智能(AI) | 最广泛 | 让机器表现出智能的所有技术 |
| 机器学习(ML) | AI 的子集 | 让机器从数据中学习的方法 |
| 深度学习(DL) | ML 的子集 | 使用多层神经网络的方法 |
| 大语言模型(LLM) | DL 的应用 | 深度学习在语言领域的最新成果 |
为什么"深"很重要?
层数越多,网络能识别的特征越复杂:
加载图表中...
| 层次 | 识别内容 | 复杂度 |
|---|---|---|
| 浅层 | 边缘、颜色、纹理 | 简单特征 |
| 中层 | 形状、图案、结构 | 组合特征 |
| 深层 | 物体、场景、含义 | 高级概念 |
传统机器学习 vs 深度学习
加载图表中...
| 对比 | 传统机器学习 | 深度学习 |
|---|---|---|
| 特征提取 | 人工设计 | 自动学习 |
| 数据需求 | 少量即可 | 需要大量数据 |
| 计算资源 | CPU 就够 | 需要 GPU |
| 处理能力 | 结构化数据 | 图像、文本、语音 |
| 可解释性 | 较好 | 较差("黑盒") |
深度学习的三大支柱
深度学习之所以在近年爆发,得益于三个条件同时成熟:
加载图表中...
| 支柱 | 说明 |
|---|---|
| 数据 | 互联网、社交媒体产生了训练模型所需的海量数据 |
| 算力 | NVIDIA GPU 提供了大规模并行计算的能力 |
| 算法 | Transformer、注意力机制等架构突破 |
深度学习的主要应用
| 领域 | 应用 | 代表 |
|---|---|---|
| 计算机视觉 | 图像识别、目标检测 | 人脸识别、自动驾驶 |
| 自然语言处理 | 对话、翻译、写作 | ChatGPT、Claude |
| 语音处理 | 语音识别、语音合成 | Siri、语音转文字 |
| 图像生成 | 文生图、图片编辑 | Midjourney、DALL-E |
| 视频生成 | 文生视频 | Sora |
| 代码生成 | 智能编程助手 | GitHub Copilot |
加载图表中...
Transformer:改变一切的架构
2017 年 Google 发表的论文《Attention is All You Need》提出了 Transformer 架构,彻底改变了深度学习:
加载图表中...
Transformer 的核心创新是注意力机制(Attention)——让模型能"关注"输入中最重要的部分:
输入: "我 昨天 在 北京 吃了 一碗 很好吃 的 拉面"
问: "在哪里吃的?"
注意力: "我 昨天 在 [北京] 吃了 一碗 很好吃 的 拉面"
↑ 注意力集中在这里
训练 vs 推理
| 阶段 | 说明 | 谁来做 | 成本 |
|---|---|---|---|
| 训练(Training) | 用大量数据教模型学习 | AI公司(OpenAI等) | 极高(数百万美元) |
| 推理(Inference) | 用训练好的模型做预测 | 开发者调用API | 低(按量付费) |
加载图表中...
作为开发者,你用的是推理阶段——调用已经训练好的模型。训练是 AI 公司的事。
深度学习框架
如果你想深入了解或做研究:
| 框架 | 公司 | 特点 |
|---|---|---|
| PyTorch | Meta | 最流行、研究首选 |
| TensorFlow | 生产部署成熟 | |
| JAX | 高性能计算 |
# PyTorch 示例:一个最简单的神经网络
import torch
import torch.nn as nn
model = nn.Sequential(
nn.Linear(784, 128), # 输入层 → 隐藏层
nn.ReLU(), # 激活函数
nn.Linear(128, 10), # 隐藏层 → 输出层
)
🎯 AI编程小贴士:作为 Web 开发者,你不需要学 PyTorch 或训练模型。理解深度学习的基本原理就够了。你的工作是调用 API 构建 AI 应用,而不是训练模型本身。
小结
- 深度学习是使用多层神经网络的机器学习方法
- 层数越多,能识别的特征越复杂(从边缘到整体)
- 三大支柱:大数据 + GPU算力 + 算法突破
- Transformer 是当前最重要的架构,GPT/Claude 都基于它
- 开发者主要使用推理(调 API),不需要自己训练模型
- AI > 机器学习 > 深度学习 > 大语言模型