Course Curriculum

从零到前沿：机器学习系统自学路线

一份从数学基础走到 LLM、扩散模型、推理模型和 Agent 的中文自学路线，适合按模块长期推进，也适合按主题查阅。

一份可直接使用的中文自学课程文档。覆盖从高中数学到 2024–2026 前沿（推理模型、MoE、长上下文、多模态、Agent）的完整路线，强调"先建直觉再补严谨、能从零实现才算理解、数学服务于模型、读一手资料、项目驱动闭环"。

本版已吸收课程评审意见：补齐了评测方法论、强化学习基础、数据工程、AI 安全与负责任 AI、可解释性、GNN/推荐系统概览、经典 NLP 铺垫、MLOps、Agent 系统设计等缺口；修正了 CLIP/RL/分词/RoPE 的先后顺序；消除了反向传播、分词、归一化、KL、生成模型对比等重复；并把"模型版图"等强时效内容改造为"可自我更新的判断框架"。

第一部分 · 课程总览

1.1 设计理念（七条核心哲学）

理念	含义
先建直觉再补严谨	每个概念先用几何/代码直觉跑通，再回头补形式化推导。拒绝一上来啃定理证明而失去动力，也拒绝只调 API 而不懂原理。
能从零实现才算理解（implement-to-understand）	核心机制（反向传播、注意力、扩散采样、LoRA、GRPO）都要求先用 NumPy/PyTorch 手写最小版本，再用框架。判据是"能复现"而非"能复述"。
数学服务于模型	线性代数/概率/最优化只学到能支撑后续模型的深度，遇到新需求再回炉加深。拒绝"先学完三本数学书再开始"的拖延陷阱。
沿信息流主线推进	数据 → 表示 → 架构 → 训练目标 → 优化 → 对齐 → 应用。Transformer（模块9）是全程枢纽。
读一手资料	经典论文、原始课程（CS231n/CS224n/CS336）优先于二手博客。建立"读论文—复现—质疑"的研究品味。
项目驱动、里程碑闭环	每阶段结束都有可展示的 capstone，把零散知识缝合成作品集。
拥抱"足够好"与迭代	前沿变化极快，目标不是学完所有东西，而是建立能持续自学新论文的底层能力与工程肌肉。

1.2 总时长

系统深入路线：约 20–22 个月
工程应用快速路线：约 10–12 个月
研究方向路线：系统路线 + 论文复现，22+ 个月持续滚动
假设投入：每周 10–15 小时（理论输入 40% + 动手编码 40% + 复盘笔记 20%）

1.3 学习方法论（"直觉→数学→代码→复盘"四步法）

直觉：先看可视化/动画（3Blue1Brown、distill.pub、bbycroft.net/llm）。
数学：补形式化推导。
代码：亲手实现最小可运行版（Karpathy 的 micrograd → makemore → nanoGPT → minbpe 是脊柱）。
复盘：用费曼学习法讲给"假想的人"听，写进第二大脑（Notion/Obsidian/Anki，做间隔重复）。

关键习惯：

用 masteryChecks 做关卡判据，不达标不前进——后面的模块会无情放大前面的债务。
算力管理：从 CPU/小数据集玩具规模起步（MNIST、tiny-shakespeare、CIFAR-10），需要 GPU 时用 Colab/Kaggle 免费额度或按需租云（Lambda/RunPod）。先验证正确性，再放大。
从阶段 2 起读论文：用"三遍法"（先摘要+图表抓骨架，再方法抓核心，最后细节能复现）。
作品集导向 / learn in public：每个 capstone 整理成 GitHub 仓库 + 简短博客。
善用 AI 助手做苏格拉底式提问，但不外包理解：可问 LLM 解释/debug，但推导与实现必须自己跑通。警惕"看懂了"的错觉。

1.4 如何使用本课程

本课程把评审指出的横向能力做成了"贯穿支线"：评测方法论、数据工程、AI 安全与伦理、可解释性，会在多个模块以小节嵌入并在 0.5/补充模块统一框架，避免散落。
每个模块都标注了先修依赖，并在三条路线中标注可略读节点。
螺旋上升的概念（如 KL 散度、注意力、缩放定律）在多处出现时，会明确是"复用/深化"而非"重讲"。

1.5 先修关系图（Prerequisite DAG，文字表达）

阶段0  M1(线代/微积分/矩阵求导) ─┐
       M2(概率/信息论/最优化/RL速成) ─┼─→ 全程地基
       M3(Python/NumPy/PyTorch/实验工程) ─┘
                    │
阶段1  M4(经典ML) ──→ M5(深度学习基础, 复用M1反传数学)
                    │
阶段2  M6(CNN/CV)   M7(RNN/序列/注意力雏形, +最小分词概念)
                    │            （M7 attention 是 M9 强先修）
阶段3  M8(表示学习/AE/VAE/GAN/嵌入/对比学习loss)
       M9(Transformer 枢纽 ★最高优先级, 分词深化, CLIP在此后)
                    │
阶段4  M10(扩散/多模态生成, 生成模型统一对比表)
       M11(LLM预训练/缩放/分布式/MoE, 数据工程一等公民)
                    │
阶段5  M12(对齐 SFT/RLHF/DPO, 依赖M2 RL速成)
       M13(PEFT/Prompt/RAG/Agent/推理优化)
       M14(前沿2024–2026: 推理模型/MoE/长上下文/多模态/Agent/版图)
                    │
贯穿   M-E(评测与方法论)  M-S(安全与负责任AI)  M-I(可解释性)
       概览补充(GNN/推荐/经典NLP/MLOps)

关键先修断层修复（吸收评审）：

RL 基础前置：M2 末尾新增"强化学习速成"（MDP、策略梯度、价值函数、actor-critic、GAE、PPO 直觉），消除 M12 RLHF/PPO 的最严重先修断层。
CLIP 顺序修正：M8 只讲对比学习损失（纯表示学习视角），CLIP 的多模态对齐推迟到 M9 之后（并入 M10），因为 CLIP 文本编码器依赖 Transformer。
分词最小概念前置：M7 前给出最小分词概念，M9 讲清算法，M11 只讲规模化工程取舍。
变分推断前置：M2 信息论补 Jensen 不等式与变分下界直觉，支撑 M8 的 ELBO。

第二部分 · 学习路线（Tracks）

路线	时长	策略	适合
系统深入路线	20–22 月	阶段 0→5 全程顺序，每模块做 masteryChecks + 动手项目，核心机制坚持从零实现。重点投入阶段0（数学不偷工）与 M9（Transformer 打磨到逐行复现）。所有 capstone 全做。	立志做研究或追求彻底理解者
工程应用快速路线	10–12 月	数学只学到"能看懂、会用"（M1/2 抓重点、跳证明）；M4/6/7 取精华略读（CNN 与 RNN 任选其一精读，但 M7 attention 不可跳）；重点压在 M9 Transformer 直觉（理解即可）与阶段5（M12 概念级、M13 重度实操）。capstone 聚焦"微调+RAG+Agent"。M14 按需查阅。	尽快用 LLM 做产品者
研究方向路线	22+ 月持续	系统路线之上，从阶段2 起每周精读 1 篇论文，每阶段额外做 1 个复现实验。强化阶段4（扩散/LLM训练数学）与阶段5（对齐/推理模型/可解释性）。选定 1–2 个细分方向深耕。终点是能持续产出复现与改进。	立志做研究、形成研究品味者
数学/工程薄弱补强支线（嵌入式）	按需	任何路线中发现数学/工程拖后腿，回炉阶段0 对应薄弱主题（矩阵求导、概率、PyTorch 调试），遵循"数学服务于模型"，遇卡点再加深。	所有人

三条路线的可略读标注约定：模块内每个主题标注 [全]（全程必修）/[研]（研究路线深读）/[快]（快速路线可略读）。

第三部分 · 模块详情（按阶段组织）

阶段 0 · 数学与工具基础（10–14 周）

目标：把高中数学拉升到能读懂并推导 ML 论文的核心数学，并建立扎实的 Python 科学计算与深度学习实验工程能力。M1/2/3 可部分并行（上午数学、晚上敲代码，M3 贯穿始终）。

模块 1 · 线性代数与微积分（含矩阵求导与反向传播数学）

一句话：用"几何直觉 + 动手计算"双轨打通向量/矩阵/张量、特征值/SVD、梯度/雅可比/海森与矩阵求导链式法则，最终亲手推导反向传播——把它从"会调 .backward()"变成"知道每一步偏导从哪来"。

学习目标

用几何语言解释矩阵乘法（线性变换的复合）、行列式（面积/体积缩放与定向）、特征向量，并能在 NumPy 里画出二维线性变换前后的网格。
正确书写标量/向量/矩阵的各类导数，掌握分子布局/分母布局两套约定，知道为何深度学习里梯度 ∂L/∂W 与 W 同形。
从第一性原理推导常见矩阵求导公式（∂(Wx)/∂x、∂(xᵀAx)/∂x、∂‖x‖²/∂x 等），并用数值梯度验证。
把两层全连接网络写成计算图、手推每个参数梯度（含 softmax + 交叉熵的简洁梯度 ŷ−y）。
仅用 NumPy 实现该网络的前向与反向，在 MNIST 子集上把损失训到下降。
用 SVD 解释 PCA、低秩近似、四个基本子空间与条件数；解释反向模式自动微分为何适合"多输入单输出"。

先修

高中代数与三角；一元微积分入门（导数定义、链式法则一元形式）；基础 Python/NumPy（与 M3 并行）；愿意"先直觉再严谨"的心态。

主题与要点（为什么重要）

主题	关键点	为什么重要
向量/矩阵/张量与线性变换 `[全]`	矩阵乘法=线性变换的复合（列=基向量变换后落点）；线性变换三性质；行列式=面积/体积缩放；张量=多维数组；形状契约 (m×n)·(n×p)=(m×p)；广播与转置陷阱	每一层=线性变换+非线性。理解几何后，前向传播张量形状、卷积、注意力 QKᵀ 都变"看得见"
内积/范数/距离 `[全]`	aᵀb=‖a‖‖b‖cosθ；L1/L2/L∞/Frobenius；投影与正交分解；归一化与余弦相似度；标准正交基	L2损失、权重衰减、余弦相似度、注意力分数、嵌入检索都建立在此
特征值/特征向量/对角化 `[全]`	Av=λv 几何画面；A=PDP⁻¹；对称矩阵谱定理；正定/半正定；谱半径与稳定性	PCA、协方差、海森曲率、谱归一化、梯度消失/爆炸根因
SVD 与低秩结构 `[全]`	A=UΣVᵀ=旋转→缩放→旋转；奇异值=各方向增益；四个基本子空间；Eckart–Young 低秩近似；条件数=σ_max/σ_min；伪逆	"线性代数的瑞士军刀"，直接是 LoRA 低秩微调的数学根基
导数/偏导/梯度/方向导数 `[全]`	梯度指向上升最快方向、模长=最大方向导数；梯度与等高线正交；局部线性化 f(x+Δ)≈f+∇f·Δ；鞍点	梯度下降是训练一切的引擎
雅可比/海森与二阶信息 `[全]`	雅可比 J=多元链式法则积木；det(J)=局部体积缩放；海森特征值=曲率；二阶泰勒展开；向量-雅可比积 VJP	反向传播=一连串 VJP；海森解释优化难易
多元链式法则与计算图 `[全]`	路径求和；计算图节点知道局部导数；正向 vs 反向模式；扇出梯度累加；detach	通往"反向传播为什么成立"的总枢纽
矩阵求导：布局与核心公式 `[全]`	四类导数；分子/分母布局；必背公式；形状检查法；微分法 dL=tr(Gᵀ dX)	全连接层、注意力、归一化的梯度推导全靠这套
落到反向传播：公式到 NumPy `[全]`	∂L/∂z2=ŷ−y 起手回推；权重梯度=上游梯度⊗输入；batch 求和约定；梯度检查（相对误差<1e-7）；log-sum-exp	阶段0 capstone 核心，亲手推+写才真正拥有反向传播

吸收评审（消除重复）：反向传播在 M1/M3/M5 三处分工明确——M1 只负责数学推导（公式 + 一个最小 NumPy 验证），完整工程实现留给 M5。

关键资源

3Blue1Brown《线性代数的本质》/《微积分的本质》/《神经网络》 (video) — 几何直觉打底首选。
Gilbert Strang《Introduction to Linear Algebra》+ MIT 18.06 (course) — 四个基本子空间、SVD 讲得最透。
The Matrix Cookbook (book) — 矩阵求导速查工具书。
《Mathematics for Machine Learning》(Deisenroth et al.) (book, 免费) — 专为 ML 写的数学主线。
CS231n 反向传播/向量矩阵梯度讲义 (course) — 手写 BP 前必读。
Karpathy《building micrograd》(YouTube + repo) (video) — implement-to-understand 范本。
Parr & Howard《The Matrix Calculus You Need For Deep Learning》(explained.ai) (blog) — 矩阵求导最佳单篇。

动手项目

可视化线性变换（旋转/缩放/剪切 + 特征向量验证方向不变）。
手算+数值梯度验证 5 个矩阵求导公式（相对误差<1e-6，产出对照表）。
SVD 图像压缩（k=5/20/50 重建对比 + 奇异值衰减曲线）。
纯 NumPy 两层全连接网络 + 反向传播（线性→ReLU→线性→softmax→CE，加梯度检查，MNIST 子集）。
跟做 micrograd（标量自动求导引擎 + 玩具 MLP）。
梯度几何小实验（病态二次型等高线 + 梯度场 + 之字形轨迹 + 海森特征值）。

常见误区

把矩阵乘法当"机械行乘列"死记，从不建立几何图像。
混用分子/分母布局导致该转置的没转置 → 固定一套约定 + 永远形状检查。
推完公式不做数值梯度验证就写进代码。
跳过手写反向传播直接上 .backward()，遇 NaN/梯度消失无从下手。
softmax/交叉熵不做 log-sum-exp 稳定化导致 NaN。
陷入"先读完三本数学书"的拖延；特征值/SVD 深水区可在 PCA/LoRA 用到时回炉。
混淆特征分解（需方阵）与 SVD（任意矩阵）。
忽视 batch 维求和/平均约定。
只看视频获得"懂了的错觉"，从不动笔。

时间估计

约 3–4 周（35–55h）。第1周线代直觉+可视化；第2周内积/范数/特征值/SVD+压缩；第3周导数/梯度/雅可比/海森/链式法则；第4周矩阵求导+手写两层网络+micrograd。

掌握自检

能画二维剪切矩阵对网格的作用并说清行列式/特征向量；能推 ∂(xᵀAx)/∂x=(A+Aᵀ)x；能说清非方阵 SVD 中 U/Σ/V 形状与几何；能解释"梯度指向上升最快"与"梯度与等高线正交"为何同一件事；能把两层网络画成计算图手推 ∂L/∂W；能纯 NumPy 实现并通过梯度检查；能解释反向模式为何高效、本质是 VJP 链；能写 log-sum-exp 稳定化；能用海森特征值判断临界点类型。

模块 2 · 概率统计、信息论与最优化（含强化学习速成）

一句话：从随机变量与贝叶斯出发，经 MLE/MAP 把"概率假设"翻译成"损失函数"，用信息论（熵/交叉熵/KL/互信息）解释损失为何长这样，再用凸性与梯度下降/SGD/Adam 把损失优化下去——三条线在"最小化损失"汇合，并为 VAE 的 ELBO 与 RLHF 的 KL 约束埋伏笔。末尾新增"强化学习速成"消除 M12 先修断层。

学习目标

说清随机变量/PMF/PDF/CDF；写出伯努利、二项、Categorical、高斯、均匀、指数、泊松分布及用途。
计算期望/方差/协方差/相关系数，理解期望线性性质与协方差矩阵几何。
运用条件概率、全概率、贝叶斯定理，分清先验/似然/后验/证据。
从"i.i.d.+概率模型"推导 MLE，说明 MLE ⟺ 最小化 NLL；加先验得 MAP，解释 MAP 对应 L2/L1 正则。
写出熵/交叉熵/KL/互信息定义，证明"最小化交叉熵 ⟺ 最小化 KL ⟺ 最大化似然"三者等价。
解释分类用交叉熵、回归用 MSE 各自追溯到 Categorical/高斯 MLE。
判断凸性，手写 GD/SGD/动量/Adam 更新公式；解释学习率、warmup、二阶方法思想。
（新增 RL 速成） 说清 MDP、状态/动作/奖励/策略、价值函数、策略梯度、actor-critic、GAE 与 PPO 的直觉。
讲清 KL 将在 VAE 的 ELBO 与 RLHF 奖励约束中的角色（埋点）。

先修

M1 的梯度/链式法则/向量矩阵运算；会求一元极值与简单定积分；Python/NumPy 入门；对数/指数性质。

主题与要点

主题	关键点	为什么重要
随机变量与常见分布 `[全]`	PMF（离散）vs PDF（连续，值可>1）；伯努利/二项/Categorical/高斯/均匀/指数/泊松的物理意义；高斯一维+多维（协方差椭圆）；CLT；配分函数	模型输出层、损失、初始化、噪声假设全用分布描述
期望/方差/协方差 `[全]`	期望线性性质（即使不独立）；方差/协方差矩阵（对称半正定，呼应 M1 特征分解）；无偏估计；蒙特卡洛估计	每个损失本质是"某个量的期望"；SGD 梯度是真梯度的无偏估计
条件概率与贝叶斯 `[全]`	P(A\|B)；链式法则（自回归 LM 的数学根 P(x)=∏P(xₜ\|x_<t)）；posterior∝likelihood×prior；基率谬误；条件独立；贝叶斯 vs 频率派	判别/生成区别、MLE/MAP、朴素贝叶斯、VAE 后验、RLHF 策略更新都在此
MLE 与 MAP `[全]`	对数似然把连乘变连加；高斯MLE→MSE、伯努利/Categorical MLE→交叉熵；MAP：高斯先验→L2、拉普拉斯→L1；为何用对数；小样本过拟合	枢纽：把"数据怎么生成"翻译成"该最小化什么"
采样基础 `[全]`	逆变换采样；重参数化预告 μ+σ·ε（VAE 能反传的关键）；拒绝/重要性采样、MCMC 概念；随机种子可复现	VAE/扩散/RL 策略采样/LLM 解码全是采样
熵与交叉熵 `[全]`	自信息 −log p；熵=平均不确定性；交叉熵 H(p,q)≥H(p)；分类交叉熵=one-hot 与 softmax 间交叉熵=NLL；log-sum-exp；CrossEntropyLoss 内含 log-softmax	深度学习最常用损失，从图像分类到 LM 预训练
KL 散度与互信息 `[全]`	D_KL(p‖q)=H(p,q)−H(p)；非负、不对称、非距离；最小化CE⟺最小化KL（三线汇合）；前向 vs 反向 KL（矩匹配 vs 寻峰）；互信息=表示学习理论基础；埋点：VAE 的 ELBO、RLHF 的 KL 惩罚	连接信息论与现代生成/对齐模型的总枢纽
凸性与优化几何 `[全]`	凸集/凸函数/Hessian 半正定；深网络非凸但可训（敌人是鞍点/病态/坏初始化）；负梯度=最速下降；条件数与病态	决定损失能否真正降下去
GD/SGD/动量/Adam `[全]`	full-batch vs SGD vs mini-batch；动量=梯度指数滑动平均；AdaGrad→RMSProp→Adam（动量+自适应+偏差修正）；AdamW（解耦权重衰减，Transformer 标准）；手写对比	把"损失"变"训练好的模型"的引擎
学习率/调度/二阶概览 `[全]`	学习率最重要；step/cosine + 线性 warmup；梯度裁剪；牛顿法 O(d³) 不可行 → 几乎都用一阶；Adam=廉价近似二阶	warmup+cosine 是现代大模型标配
★ 强化学习速成（新增，吸收评审） `[全]`	MDP（状态/动作/奖励/转移/折扣）；策略 π、回报 G、价值函数 V/Q；策略梯度 ∇J=E[∇log π·A]；REINFORCE 的高方差与基线；actor-critic；优势 A=Q−V 与 GAE；PPO 直觉（裁剪代理目标、信任域、KL 约束）；on/off-policy	消除 M12 RLHF/PPO 与 M14 RL-for-reasoning 的最严重先修断层

吸收评审：RL 速成放在 M2 末尾（也可在 M11 与 M12 之间复习），让学员到 PPO/GRPO 时不再遇到未学概念。M2 信息论补 Jensen 不等式与变分下界直觉，前置 M8 的 ELBO 推导工具。

关键资源

3Blue1Brown — Probability / CLT / Bayes (video) — 几何直觉首选。
StatQuest (Josh Starmer) (video) — 概念"蠢萌好懂"，按主题点播。
MIT 6.041 / 6.431x (Tsitsiklis) (course) — 权威概率第一课。
Deep Learning（花书）第3/4/5/8章 (book, 免费) — 概率+信息论+优化精炼综述。
PRML (Bishop) 第1.6/第2章 (book) — 贝叶斯视角黄金标准。
Sebastian Ruder《gradient descent overview》 (blog) — 优化器最高效单点资源。
Adam (2015) / AdamW (2019) 原论文 (paper)。
Convex Optimization (Boyd) + EE364A (book/course, 免费)。
Distill《Why Momentum Really Works》 (blog) — 交互可视化。
（RL 速成）Sutton & Barto《Reinforcement Learning》第3/13章 + OpenAI Spinning Up（PPO/GAE）+ Hugging Face Deep RL Course — RL 入门与 PPO 落地。
Karpathy makemore / Zero to Hero (repo) — 把概念落到代码。

动手项目

分布动物园（采样直方图 vs 理论曲线 + 二维高斯协方差椭圆，联系 M1 特征向量）。
贝叶斯推断（医疗检测后验曲线扫基率 + 手写朴素贝叶斯垃圾邮件 vs sklearn）。
从概率假设到损失（高斯回归 MLE→最小二乘、Categorical→交叉熵、MAP 先验强度扫描）。
信息论三件套验证（entropy/cross_entropy/kl/mutual_information，验证 H(p,q)=H(p)+D_KL）。
优化器擂台（病态二次/Rosenbrock 上 GD/SGD/动量/Adam 轨迹 + cosine 调度对比）。
微型 softmax 分类器（缝合"分布→MLE→交叉熵→SGD+动量→L2"整条链路）。
（RL 速成） 在 CartPole 或 GridWorld 上跑通 REINFORCE 与一个最小 actor-critic，观察基线如何降方差。

常见误区

把 PDF 值当概率（连续分布只有积分才是概率）。
期望线性性质只对线性运算成立：E[XY]≠E[X]E[Y]、E[g(X)]≠g(E[X])（Jensen 来源）。
死记交叉熵不知它=Categorical NLL。
把 KL 当距离（不对称、无三角不等式）。
数值不稳定（小概率取 log、连乘下溢、softmax 不减最大值）。
对 CrossEntropyLoss 再手动 softmax。
因"非凸"恐惧深度学习（真正的敌人是鞍点/病态/坏初始化/学习率）。
把 Adam 当万能默认。
忽视 warmup/调度致 Transformer 初期 NaN。
MLE 小样本必过拟合（拉普拉斯平滑/MAP 来救）。
（RL） 把策略梯度的高方差误判为 bug；忘了基线/优势能大幅降方差。

时间估计

约 3.5–4.5 周（含 RL 速成约 +0.5–1 周）。第1周分布/期望方差协方差；第2周贝叶斯/MLE/MAP/采样；第3周信息论；第4周最优化；第4.5–5周 RL 速成。

掌握自检

能从 i.i.d. 推 MLE 并说明 MLE⟺最小化 NLL，分别推出高斯→MSE、Categorical→交叉熵；能证 H(p,q)=H(p)+D_KL 并说清"优化交叉熵"而非"KL"的原因；能做贝叶斯数值题并解释基率谬误；能说清高斯先验↔︎L2、拉普拉斯↔︎L1；能纯 NumPy 实现 GD/SGD/动量/Adam 并解释偏差修正；能完整训练 softmax 分类器并逐项对应概念；能处理 softmax 数值稳定；能预告 KL 在 ELBO/RLHF 的角色；（RL）能写出策略梯度公式、解释优势函数与 GAE、说清 PPO 裁剪目标在做什么。

模块 3 · Python、NumPy、PyTorch 与实验工程

一句话：从科学计算栈到能从零写出完整、可复现训练循环的深度学习工程地基——吃透 NumPy 向量化/广播、PyTorch 张量/autograd/nn.Module/训练循环、数据加载、GPU/混合精度，并建立实验管理、调参调试与 Hugging Face 生态的工程肌肉。

学习目标

把含 for 循环的数值代码改写成纯向量化，并用广播规则解释 shape 变化与内存开销。
从零写不依赖高层封装的训练循环（zero_grad→forward→loss→backward→step），解释每行作用与漏写后果。
解释 autograd 计算图与反向传播，正确用 requires_grad / detach / no_grad / retain_graph。
用 nn.Module/DataLoader/调度器/混合精度组装工业级可复现训练脚本。
接入 W&B 或 TensorBoard，落地可复现性清单。
用 Hugging Face datasets/transformers 跑通推理与最小微调。
系统化调试训练故障（NaN/不降/OOM/CPU 瓶颈/train-val 不一致）。

先修

基础 Python；M1 线代（看懂张量 shape）；M1/M2 链式法则、梯度下降、交叉熵；命令行；可用 Python 环境（Miniconda 或 Colab）。

主题与要点

主题	关键点	为什么重要
Python 科学计算栈与环境工程 `[全]`	conda/venv 隔离环境 + 版本锁定；NumPy/SciPy/Pandas/Matplotlib/sklearn 分工；Jupyter/Colab 隐藏状态陷阱；何时从 notebook 毕业到 .py + argparse；pdb/breakpoint/assert	多数"跑不出来"是环境/版本/隐藏状态而非算法
NumPy 数组/向量化/广播 `[全]`	shape/dtype/view vs copy；向量化快 10–100×；广播尾部对齐规则；花式索引/布尔掩码/axis/keepdims；数值稳定（logaddexp、softmax 减最大值）	张量心智模型 1:1 迁移到 PyTorch
PyTorch 张量与设备/dtype `[全]`	Tensor vs ndarray（device/dtype/requires_grad）；from_numpy 零拷贝陷阱；view 要连续 vs reshape；`.to(device)`；float32/bf16/int64；in-place 风险	设备/dtype 不匹配是最高频报错
Autograd 自动微分 `[全]`	动态计算图；requires_grad/leaf/grad_fn；.grad 累加 → 必须 zero_grad；no_grad/detach/freeze 三场景；retain_graph/create_graph	区别于 NumPy 的核心魔法，但不是黑箱（呼应 M1，此处只讲机制不重推数学）
nn.Module 与模型构建 `[全]`	init 注册子模块/forward 定义计算；nn.Parameter/ModuleList（普通 list 不注册=经典坑）；train/eval 模式；nn.init；state_dict 保存	把张量运算组织成可复用/保存/迁移的模型
★ 从零写训练循环（核心） `[全]`	五步骨架默写；CrossEntropyLoss 喂 logits；epoch/batch + 验证分离 + no_grad；调度器何时 step；梯度裁剪/累积	阶段0 masteryCheck 硬指标，后续所有模型共用
数据加载 Dataset/DataLoader `[全]`	len/getitem；batch_size/shuffle/num_workers/pin_memory；collate_fn 处理变长 padding（NLP 必备）；transforms 只训练加增强；数据管线是隐形瓶颈	模型再快数据喂不上也白搭
GPU/CUDA 与混合精度 `[全]/[快略]`	GPU 并行；避免循环里 `.item()/.cpu()` 同步；显存构成（参数+激活+优化器+梯度）；AMP autocast+GradScaler + loss scaling；bf16 vs fp16；torch.compile；DDP 概念	LoRA/QLoRA 的前提；混合精度省一半显存提速
实验管理与可复现性 `[全]`	W&B/TensorBoard 记录 loss/指标/超参/资源；可复现清单（种子+cudnn+环境锁定+数据划分+commit hash）；严格可复现 vs 结果可比；一次只改一个变量	没有追踪就无法判断哪组最好
调参与调试方法论 `[全]`	故障诊断树（NaN/不降/OOM/过拟合）；先过拟合一个 batch；shape/device/dtype 排查；学习率最重要（lr range test）；网格/随机/贝叶斯搜索	真实训练 90% 时间在调试
Hugging Face 生态入门 `[全]/[快深]`	AutoModel/AutoTokenizer/pipeline；datasets `.map()`；Trainer 内部就是你手写的循环；Hub/accelerate	通往阶段5 的工具桥梁，先会手写再用封装

吸收评审（时效性）：混合精度的数值原理（fp16/bf16 动态范围、loss scaling）在 M3 作概念引入，真正规模化落地在 M11；避免过早深挖。

关键资源

PyTorch 官方教程（Learn the Basics / 60 Minute Blitz） (course)。
《Deep Learning with PyTorch》(Manning, 免费 PDF) (book) — 核心开发者参与。
Karpathy《building micrograd》 (video/repo) — 理解 autograd 最佳一课。
NumPy 官方 Broadcasting 文档 (blog)。
CS231n Python/NumPy + PyTorch tutorial (course)。
W&B Quickstart + PyTorch TensorBoard 教程 (blog)。
Hugging Face NLP Course (course)。
Karpathy《A Recipe for Training Neural Networks》 (blog) — 训练调试圣经。
PyTorch AMP recipe + torch.compile 教程 (blog)。

动手项目

NumPy 向量化重写挑战（欧氏距离矩阵/softmax/一维卷积，%timeit 对比 + shape 推导）。
纯 NumPy 两层网络（直通阶段0 capstone，参照 micrograd 验证梯度）。
从零 PyTorch 训练循环（不用高层封装，MNIST/FashionMNIST MLP，能默写每行）。
autograd 透视实验（打印 grad/grad_fn，分别试 detach/no_grad/漏写 zero_grad）。
可复现 + 实验追踪脚本（接入 W&B，跑两次验证可比，对比有无 BatchNorm）。
混合精度与 OOM 实战（fp32/amp/amp+累积三配置显存吞吐对比表）。
调试方法论演练（植入 5 个经典 bug 逐一定位）。
Hugging Face 跑通（pipeline 推理 + Trainer 微调 distilbert，与手写循环逐项对照）。

常见误区

张量与模型不在同一设备；忘记 zero_grad/backward/step；验证忘 eval()/no_grad()；对 CrossEntropyLoss 手动 softmax；普通 list 装子模块；循环里频繁 .item()/.cpu() 同步 + 累加张量拖着计算图致显存泄漏；view 对 transpose 后张量报错（需 contiguous）；切片返回 view 就地修改改到原数组；广播隐形 bug (N,1)−(N,)→(N,N)；notebook 乱序执行隐藏状态；不固定种子就调参；NaN 盲调；跳过"过拟合一个 batch"；直接用 Trainer 跳过手写循环。

时间估计

约 4–6 周（50–80h），与 M1/2 并行。"从零写训练循环"与"NumPy 两层网络"打磨到能默写；HF 跑通即可。

掌握自检

能默写完整训练脚本并逐行解释；能把 for 循环改写成向量化并推导 shape；能解释 zero_grad/backward/no_grad/detach/eval 及漏用后果；能手画计算图说明 backward 与 .grad 累加；面对 NaN/不降/OOM 能给系统排查顺序；能接入 W&B 落地可复现；能写 AMP 代码并解释 loss scaling/bf16 vs fp16；能用 HF 加载推理+Trainer 微调并指出对应手写循环哪部分。

阶段 1 · 经典机器学习与深度学习基础（10–13 周）

目标：从"最小化损失"统一视角理解监督/无监督学习，掌握偏差-方差/正则化/泛化；进入神经网络吃透反向传播、优化器、初始化、正则化与训练技巧。建立"模型=架构+损失+优化+数据"的统一心智模型。M4 是 M5 的概念铺垫。

模块 4 · 经典机器学习

一句话：用"模型=架构+损失+优化+数据"的统一视角吃透监督/无监督经典算法、模型评估与特征工程，建立贯穿全程的偏差-方差、正则化、泛化心智模型，并理解经典 ML 在工业界为何不可替代。

学习目标

用统一"损失+优化"视角解释线性/逻辑回归、SVM、决策树、k-means 的本质区别（假设空间/损失/优化/正则化四维）。
从零实现线性回归（正规方程+梯度下降）、逻辑回归（sigmoid+交叉熵+手推梯度）、决策树、k-means，对比 sklearn。
手推 L2 解析解、从约束几何/次梯度解释 L1 稀疏；实验展示 λ 移动偏差-方差。
讲清 SVM 最大间隔、对偶/支持向量、核技巧；bagging 降方差 vs boosting 降偏差，调参 XGBoost/LightGBM。
为分类/回归选对指标，设计无泄漏交叉验证，用学习曲线诊断过拟合/欠拟合并对症下药。
完成端到端特征工程流水线。

先修

M1 线代+微积分；M2 概率/信息论/最优化（含拉格朗日乘子）；M3 Python/NumPy/Pandas/Matplotlib。无需深度学习——本模块正是 M5 的概念地基。

主题与要点

主题	关键点	为什么重要
统一视角：损失最小化 `[全]`	假设空间+损失+优化；经验风险 ERM vs 期望风险=泛化鸿沟；参数 vs 非参数模型	把十几个算法串成一张图的"元知识"，深度学习只是换模型/优化
线性回归 `[全]`	正规方程闭式解 vs 梯度下降；高斯噪声 MLE=最小二乘；投影几何；多重共线性	麻雀虽小五脏俱全
逻辑回归与分类 `[全]`	sigmoid+交叉熵（伯努利 MLE）；为何不用 MSE；softmax 多分类；概率校准	"神经网络的一个神经元"，工业主力
正则化 L1/L2 `[全]`	岭回归解析解 w=(XᵀX+λI)⁻¹Xᵀy；L1 稀疏（菱形 vs 圆/次梯度）；Elastic Net；L2↔︎高斯先验、L1↔︎拉普拉斯（MAP）；λ=偏差-方差旋钮	对抗过拟合核心，贯穿全程（weight decay/dropout/标签平滑都是正则化）
SVM 与核方法 `[全]/[快略对偶]`	最大间隔；软间隔 C；hinge loss=SVM 纳入统一框架；对偶与支持向量；核技巧 K(x,x')；RBF/多项式核	深度学习前的统治算法，对偶/核训练对理解注意力有迁移价值
决策树与集成 RF/GBDT `[全]`	信息增益/基尼分裂；bagging（RF 降方差）vs boosting（GBDT 降偏差）；XGBoost/LightGBM（二阶近似、直方图、leaf-wise）	表格数据"打不过"的模型，偏差-方差最生动实战
聚类 k-means/层次 `[全]`	k-means=EM 特例（分配-更新）；k-means++；选 k（肘部/轮廓）；层次聚类树状图；DBSCAN/GMM 拓展	k-means 为 VAE/GMM 埋伏笔
降维 PCA/t-SNE/UMAP `[全]`	PCA=协方差特征分解=SVD=最大方差=最小重构误差三等价；t-SNE 只是可视化（不保距/全局）；UMAP	PCA=表示学习的线性前身，直通 M8 自编码器
模型评估 I：划分与交叉验证 `[全]`	train/val/test 职责分离；k 折/分层/时序切分；数据泄漏（预处理必须折内 fit，用 Pipeline）；嵌套 CV	评估错则结论全错，是所有 ML（含 LLM 评测）可信度基石
模型评估 II：偏差-方差诊断 `[全]`	泛化误差=偏差²+方差+噪声；学习曲线/验证曲线；对症清单；双下降对照	从"瞎试"到"有依据决策"的关键能力
模型评估 III：指标 `[全]`	混淆矩阵/precision/recall/F1；不平衡下准确率误导；ROC/AUC（概率解释）vs PR；RMSE/MAE/R²	选错指标=优化错目标
特征工程 `[全]`	缺失值/异常值；标准化（线性/SVM/kNN/k-means/PCA 必需，树不需）；类别编码（目标编码须折内防泄漏）；特征构造/选择；Pipeline/ColumnTransformer	"特征决定上限"，工业表格高度依赖
何时不用深度学习 `[全]`	表格数据 GBDT 常胜；可解释/合规（评分卡、SHAP）；成本/延迟/小数据；先建强基线再判断升级	纠正"万物皆深度学习"偏见

吸收评审（缺口补充）：本模块在 M4 概览层面补充 GNN/推荐系统/表格深度学习 的存在与归纳偏置（见"概览补充"小节链接），符合"归纳偏置随数据结构变化"的核心哲学；可解释性（SHAP/LIME/部分依赖）在此首次系统出现，呼应贯穿支线 M-I。

关键资源

ISL/ISLP (James et al., 2023) (book, 免费) — 经典 ML 最佳入门主线。
ESL (Hastie et al.) (book, 免费) — 进阶查阅手册。
Andrew Ng ML Specialization / CS229 (course) — 直觉+严谨。
scikit-learn User Guide (blog) — 世界级工程文档。
《Hands-On ML》(Géron) 第1部分 (book) — 工程实战主线。
XGBoost (2016) + LightGBM (2017) 论文 (paper)。
t-SNE 论文 + distill《How to Use t-SNE Effectively》 (paper/blog)。
StatQuest (video)。
Kaggle Titanic/House Prices + Learn 微课 (course)。
《Interpretable ML》(Molnar) (book, 免费) — SHAP/LIME，呼应可解释性支线。

动手项目

从零线性回归（正规方程+GD+岭回归，对齐 sklearn）。
从零逻辑回归（sigmoid+交叉熵+手推梯度+决策边界）。
从零决策树+k-means（基尼/信息增益/k-means++/肘部/轮廓）。
L1 vs L2 正则化路径图（展示 L1 压到 0）。
SVM 核方法可视化（make_moons/circles，线性 vs RBF，扫 C/γ）。
梯度提升表格实战（完整 Pipeline + 交叉验证调 XGBoost/LightGBM + 特征重要性 + Kaggle 提交）。
PCA+t-SNE/UMAP 可视化（MNIST，扫 perplexity）。
评估与诊断综合项目（不平衡数据 + 故意制造泄漏 + 混淆矩阵/ROC/PR + 学习曲线诊断，阶段1 capstone 核心）。

常见误区

测试集污染；数据泄漏（预处理在划分前）；不平衡盲信准确率；忘记特征缩放（树不需）；过度解读 t-SNE 图；k-means 当万能聚类；GBDT 不调学习率/树数配合+不早停；只调模型不做特征工程；混淆 bagging/boosting 作用；正则化方向搞反；"复杂模型一定更好"；不设种子/不记录配置。

时间估计

5–7 周（60–90h）。工程快速路线可压到 4 周（略读 SVM 对偶，重 GBDT+评估+特征工程）。

掌握自检

能填四维表格；能从零实现线性/逻辑回归并对齐 sklearn；能手推岭回归解析解+解释 L1 稀疏；能讲清 SVM 最大间隔/软间隔/支持向量/RBF；能说清 RF vs GBDT 机制并调出优于基线的 GBDT；不平衡任务能选对指标+读 ROC/PR+解释 AUC；能设计零泄漏 Pipeline+用学习曲线诊断；能讲三个"该用经典 ML"场景。

模块 5 · 深度学习基础：从感知机到能训练的神经网络

一句话：吃透"模型=架构+损失+优化+数据"统一心智模型，亲手推导反向传播并用纯 NumPy 从零实现能在 MNIST 上收敛的多层网络，再系统掌握让深网络"训得动"的全套工程武器：激活函数、初始化、正则化、归一化、优化器与学习率调度。

学习目标

用几何与计算图两种视角解释感知机、MLP、通用逼近定理；说清单层为何解不了 XOR。
从标量链式法则手推两层网络（ReLU+softmax 交叉熵）完整反向传播，写出矩阵形式。
纯 NumPy 实现前向/反向/SGD+动量/mini-batch，MNIST 上 >97%。
解释 sigmoid/tanh/ReLU/LeakyReLU/GELU 优缺点与死亡 ReLU；从方差守恒推 Xavier/He 初始化。
解释 Dropout/权重衰减/早停/数据增强机制差异，正确实现 inverted dropout。
推导 BatchNorm 前向/反向，解释 train/eval 与 running stats；说清 LayerNorm 为何适合序列。
用梯度检验验证实现，诊断梯度消失/爆炸；解释 SGD/Momentum/RMSProp/Adam/AdamW 差异，配置 warmup+cosine，产出训练技巧消融报告。

先修

M1 矩阵求导/链式法则；M2 交叉熵/MLE/梯度下降/期望方差；M3 NumPy 向量化/PyTorch/训练循环；M4 损失/过拟合/偏差-方差/正则化统一视角。

主题与要点

主题	关键点	为什么重要
感知机/MLP/通用逼近 `[全]`	感知机=线性+阶跃，XOR 反例；非线性是关键（否则多层=单层）；通用逼近"存在≠可学到"；计算图统一语言；张量形状记账	从线性到深度的概念跳板
★ 反向传播：手推+梯度检验 `[全]`	链式法则在计算图上高效复用；标量→矩阵形式（dW=xᵀ·d_out, db=Σd_out, dx=d_out·Wᵀ）；softmax+CE 联合梯度 (p−y)/B；局部×上游梯度路由；梯度检验<1e-7	整个深度学习的引擎（此处做完整实现，呼应 M1 只推数学）
激活函数：ReLU 族 `[全]`	sigmoid/tanh 饱和→梯度消失；ReLU 不饱和但死亡；LeakyReLU/GELU/SiLU；激活与初始化/归一化耦合	决定梯度能否健康流过深层
损失与输出层 `[全]/[快略]`	MSE/Huber vs 交叉熵；softmax 数值稳定（减最大值/log-softmax）；为何分类不用 MSE；标签平滑/focal	连接概率建模与优化的桥梁
初始化 Xavier/He `[全]`	全零破坏对称性失败；方差守恒推 Xavier（tanh）/He（ReLU）；初始化错误→信号消失/爆炸	BatchNorm/残差前是生死线
正则化 `[全]`	inverted dropout（训练除 keep_prob）；weight decay=L2（Adam 需 AdamW）；早停；数据增强；先判过/欠拟合再加正则	控制泛化，对应 M4 偏差-方差
归一化 BatchNorm/LayerNorm `[全]`	BN 对特征在 batch 维标准化+γβ；train/eval 与 running stats；BN 反向推导；LayerNorm 沿特征维（RNN/Transformer 用）；RMSNorm	让深网络训到上百层的关键
优化实践 `[全]`	SGD→Momentum→RMSProp→Adam→AdamW；学习率最重要+lr range test+warmup+cosine；梯度裁剪；消失/爆炸成因（谱半径）与对策链	把"架构+损失"变可用模型的最后一公里

吸收评审（消除重复）：归一化在 M5 讲清 BatchNorm 基础与 LayerNorm 动机；M9 不再重复 BN 基础，只差异化讲 Transformer 为何用 LayerNorm/RMSNorm。反向传播的完整 NumPy 实现集中在本模块；阶段0 与阶段1 capstone 差异化——阶段0=micrograd（标量自动求导引擎），阶段1=两层 MLP+MNIST（手写每层 backward + 模块化组件消融），避免重复。

关键资源

CS231n Module 1/2 笔记 (course) — 反向传播/激活/初始化/BN/优化最佳讲义。
花书第6/7/8章 (book, 免费) — 权威严谨参考。
Michael Nielsen《Neural Networks and DL》第2章 (book, 免费) — 反向传播四方程直觉。
Karpathy Zero to Hero（micrograd/makemore） (video)。
karpathy/micrograd repo (repo)。
BatchNorm/Dropout/Adam/He init 原论文 (paper)。
Karpathy《Yes you should understand backprop》 (blog)。
D2L (d2l.ai) (book, 中英双语免费)。

动手项目

核心：纯 NumPy 可训练 MLP（Linear/ReLU/Softmax-CE 三层各写 forward/backward，mini-batch SGD+动量，MNIST >97%，先梯度检查<1e-7）。
micrograd 风格自动求导引擎（解 XOR）。
模块化组件消融（He init/BN/dropout/weight decay，对照曲线图）。
初始化与激活诊断（6-8 层各激活值/梯度标准差直方图，看信号消失/爆炸/死亡 ReLU）。
PyTorch 优化器与调度消融（SGD/Momentum/RMSProp/Adam/AdamW × constant/step/cosine+warmup，写训练技巧消融报告，衔接阶段1 capstone）。

常见误区

不做梯度检验就训练；softmax/log 数值不稳；Dropout 训练/推理混淆（忘 inverted/eval）；BN 推理用错统计量/小 batch；初始化与激活不匹配；学习率没调就下结论；Adam 里用 L2 当 weight decay（应 AdamW）；梯度爆炸不裁剪/消失误判；只看训练损失不划验证集。

时间估计

5–6 周（60–80h）。第1周感知机/MLP/计算图；第2周反向传播手推+梯度检验；第3周核心 NumPy MLP；第4周激活/初始化/损失诊断；第5周正则化与归一化；第6周优化器/调度+PyTorch 消融报告。

掌握自检

能白纸推两层 ReLU+softmax 网络全部反向公式（矩阵形式）；能纯 NumPy 实现并通过梯度检查、MNIST>97%；能解释 XOR；能从方差守恒推 Xavier/He；能写 inverted dropout 与 BN 的 train/eval 两套逻辑；能解释 SGD/Momentum/RMSProp/Adam/AdamW 差异与 AdamW 必要性；面对"训不动"能给系统诊断清单；能解释 BN 加速效果与对初始化/学习率的放松。

阶段 2 · 视觉与序列：两大经典架构家族（8–11 周）

目标：掌握处理网格数据的 CNN 与处理序列数据的 RNN/LSTM/GRU，理解归纳偏置如何随数据结构变化，第一次接触注意力雏形与编码器-解码器——这是通往 Transformer 的关键跳板。M6/M7 相对独立，快速路线可任选其一精读，但 M7 的 attention 不可跳。

模块 6 · 卷积神经网络与计算机视觉

一句话：从卷积运算的归纳偏置出发，串起经典 CNN 演进（LeNet→ResNet→DenseNet）、迁移学习与下游视觉任务，并理解为何注意力催生了 Vision Transformer，为 Transformer 枢纽埋伏笔。

学习目标

用"参数共享+局部连接+平移等变性"解释卷积的归纳偏置。
徒手计算卷积/池化输出尺寸、参数量、FLOPs 与感受野。
讲清 LeNet→ResNet 演进主线，从优化角度解释残差连接为何让超深网络可训练。
PyTorch 从零搭 mini-ResNet 在 CIFAR-10 >90%，可视化卷积核/特征图。
正确执行迁移学习（冻结 vs 微调、分层学习率）。
说清分类/检测/分割三类任务的输入输出与代表架构。
阐述 CNN 局部偏置在数据充足时成瓶颈，从而理解 ViT 动机。

先修

M5 深度学习基础；M3 PyTorch 工程；M1 线代/链式法则；基础图像概念（H×W×C 张量、RGB、归一化）。

主题与要点

主题	关键点	为什么重要
卷积本质与归纳偏置 `[全]`	卷积=互相关；局部连接/参数共享/平移等变（区分等变 vs 不变）；多通道参数量 C_out×C_in×k×k；输出尺寸公式；1×1 卷积	视觉深度学习的原子操作
感受野/池化/下采样 `[全]`	感受野递推；堆叠小核（两层3×3≈5×5）；max/avg pooling；stride 卷积 vs 池化；全局平均池化；空洞卷积	连接"局部卷积"与"全局理解"的桥梁
经典演进 I：LeNet/AlexNet/VGG `[全]/[快略]`	LeNet 模板；AlexNet（ReLU/Dropout/GPU）；VGG（小核加深但参数爆炸）	展示"加深"逼近极限并暴露两大难题
经典演进 II：GoogLeNet/ResNet/DenseNet `[全]`	Inception 多尺度+1×1 bottleneck；ResNet 残差块 F(x)+x（从优化角度解释梯度高速公路与退化问题）；DenseNet 拼接	残差思想成为 Transformer/扩散标配，连接 M9
迁移学习与微调 `[全]`	浅层通用/深层任务特定；特征提取 vs 微调；分层学习率+ImageNet 归一化+增强；何时失效	视觉工程默认起点，预演"预训练+微调"
下游任务：分类/检测/分割 `[全]/[快略]`	检测两/单阶段（R-CNN/YOLO，IoU/NMS/mAP）；分割（FCN/U-Net/DeepLab）；共享 backbone+任务头；编码器-解码器	检测/分割是工业落地主力
从 CNN 到 ViT 动机 `[全]`	归纳偏置双面性；ViT patch→token+位置编码+全局自注意力；数据规模决定 CNN vs ViT；Swin/ConvNeXt	阶段2 通往阶段3 的桥梁

关键资源

CS231n (course) — CNN 入门金标准，作业用 NumPy 从零实现卷积。
D2L 第7–8章 (book) — PyTorch 逐一实现经典 CNN。
AlexNet/VGG/ResNet/DenseNet/ViT 原论文 (paper) — ResNet 务必精读。
PyTorch Transfer Learning Tutorial + torchvision.models (blog)。
CNN Explainer (poloclub) (blog) — 交互可视化。
labml.ai 注释实现 / timm (repo)。

动手项目

NumPy 手写 2D 卷积与池化（Sobel 边缘检测 + 反向传播对比 autograd）。
感受野与尺寸计算器（分析 VGG-16/ResNet-18）。
阶段2 capstone 核心：mini-ResNet 训 CIFAR-10 >90%（含 BN/增强/调度/TensorBoard；消融去残差/加深到 56 层复现退化现象）。
可视化卷积核与特征图。
迁移学习实战（冻结 vs 微调对比）。
（选做）跑通现成 Faster R-CNN/DeepLabV3 推理，建立任务直觉。

常见误区

卷积输出尺寸算错；混淆等变 vs 不变；以为是数学卷积（实为互相关）；忘归一化/用错 mean-std；BN 小 batch/推理用错；微调学习率过大冲毁预训练；盲目堆深不加残差/BN；CIFAR 直接套 224×224 架构；认为 ViT 全面碾压 CNN。

时间估计

4–5 周（50–70h）。工程快速路线压到 2.5–3 周（侧重 capstone+迁移学习）。

掌握自检

能写卷积输出尺寸公式并徒手算尺寸/参数量/感受野；能解释三大归纳偏置并区分等变/不变；能 NumPy 写 2D 卷积前向并与 PyTorch 对拍；能从优化角度解释残差让 100+ 层可训练 + 说清退化实验；能搭 mini-ResNet 训到 >90% 并复现退化；能正确迁移学习并解释策略选择；能说清三任务输入输出+共享 backbone；能讲清 ViT 与数据规模权衡。

模块 7 · 循环网络与序列建模（RNN / LSTM / GRU）

一句话：从时序依赖与 RNN 的展开/BPTT 出发，吃透梯度消失与门控（LSTM/GRU）的缓解机制，再走通 seq2seq 编码器-解码器与注意力雏形——最终从信息流与并行性两个角度论证 RNN 为何被 Transformer 取代，为 M9 铺设最强跳板。

学习目标

解释序列数据归纳偏置（时间参数共享、变长、顺序敏感）。
把 RNN 沿时间展开成共享权重深层计算图，手推 BPTT 并解释梯度连乘。
从雅可比连乘定量解释梯度消失/爆炸；掌握梯度裁剪。
从零实现 vanilla RNN 与 LSTM cell 前向/反向，解释门控与 cell state 加法更新为何缓解梯度消失。
说清 GRU 相对 LSTM 的简化与工程取舍；解释双向 RNN 适用与因果限制。
画出 seq2seq 信息流，指出定长上下文向量瓶颈，解释 Bahdanau/Luong 注意力。
用"信息流"和"可并行性"精确说出 RNN 两个根本瓶颈，论证 Transformer 设计动机。

先修

M5（反向传播/计算图/优化/梯度问题）；M1/M2（雅可比/链式法则/softmax/交叉熵）；M3 熟练 PyTorch；M8 嵌入基本概念（仅用到"离散 token→向量"）；最小分词概念（吸收评审，见下）。

主题与要点

主题	关键点	为什么重要
最小分词概念（前置，新增） `[全]`	字符级 vs 词级 vs 子词的存在；本模块用字符级即可；为何 OOV 是问题	吸收评审：避免分词在 M9 才迟到，字符级 LM capstone 需要它
序列数据与时序依赖 `[全]`	变长+依赖+顺序；语言建模 P(x)=∏P(xₜ\|x_<t)；困惑度=exp(平均交叉熵)；hidden state=被压缩的历史；任务形态分类；teacher forcing 与 exposure bias	整个大模型时代本质是自回归 LM
RNN 展开与 BPTT `[全]`	h_t=tanh(W_hh h_{t-1}+W_xh x_t)；展开成深度=T 前馈网络；∂h_t/∂h_k=∏雅可比；truncated BPTT+detach；正交初始化	理解 RNN 一切问题的数学入口
梯度消失与爆炸 `[全]`	雅可比谱半径<1 消失/>1 爆炸；tanh/sigmoid 饱和；爆炸→NaN 用裁剪治，消失更隐蔽；加法式状态=梯度高速公路	解释 vanilla RNN 记不住长程依赖
LSTM：门控与 cell state `[全]`	C_t=f_t⊙C_{t-1}+i_t⊙C̃_t（加法通路）；遗忘/输入/输出门；f_t≈1 时梯度不衰减；遗忘门偏置初始化为正	核心 implement-to-understand 里程碑
GRU：精简门控 `[全]`	更新门+重置门，无独立 cell state；参数更少更快；无普适赢家	"门控"是可裁剪的设计空间
双向与多层 RNN `[全]`	双向看左右上下文（编码类有益）；双向不能用于自回归生成；stacked RNN+层间 dropout；ELMo	双向 vs 单向是 BERT vs GPT 的分水岭伏笔
seq2seq 编码器-解码器 `[全]`	编码器压成定长 context vector，解码器自回归生成；信息瓶颈；贪心 vs beam search；teacher forcing；BLEU	催生注意力的直接动因
★ 注意力起源 Bahdanau/Luong `[全]`	对齐权重+动态上下文向量；加性 vs 乘性打分；可解释热力图；与 self-attention 的 Q/K/V 对应	跳板中的跳板，M9 强先修，不可跳
RNN 根本瓶颈 → Transformer `[全]`	瓶颈一：顺序计算不可并行；瓶颈二：长程路径长度线性增长（self-attention 为 O(1)）；O(T²) 代价；时间线	全程转折锚

关键资源

CS224n (course) — 序列建模黄金标准课程。
Karpathy《Unreasonable Effectiveness of RNNs》 (blog)。
Olah《Understanding LSTM Networks》 (blog) — LSTM 最清晰图解。
LSTM (1997) / GRU+seq2seq (2014) / Bahdanau (2015) / Luong (2015) 原论文 (paper)。
D2L RNN/注意力章节 (book) — 完整 PyTorch 从零实现。
Pascanu et al. (2013) 梯度消失/爆炸 (paper)。

动手项目

从零 vanilla RNN（NumPy/张量，手写 BPTT，字符级莎士比亚，观察梯度指数衰减）。
从零 LSTM cell（手写四门 + cell state，对比 RNN，遗忘门偏置消融，核心里程碑）。
PyTorch nn.LSTM/GRU 复现 char-rnn/makemore（GRU vs LSTM 参数/速度/效果对比表）。
不带 attention 的 seq2seq（日期格式归一化，长序列暴露瓶颈）。
加 Bahdanau/Luong 注意力（对比 + 注意力热力图，通往 M9 关键一跃）。
RNN 串行瓶颈基准（单步前向耗时随 T 线性增长，为"RNN 为何被取代"提供实验证据）。

常见误区

混淆"展开深度"与"多层深度"；以为 LSTM 彻底解决梯度消失（只是缓解）；张量形状灾难（batch_first/双向翻倍）；梯度裁剪只治爆炸不治消失；自回归生成错用双向；忽视 exposure bias；把注意力当黑盒 trick；BPTT 忘记累加共享权重梯度/忘 detach 致显存爆炸；窗口短于依赖跨度学不到长程。

时间估计

3–4 周（35–55h）。工程快速路线压到 2 周（精读 LSTM 与 attention，attention 不可跳），字符级 LSTM LM 整理为阶段2 capstone 的一半。

掌握自检

能白板展开 RNN 并手推 ∂h_t/∂h_k 雅可比连乘、定量解释梯度消失/爆炸条件；能从零实现 LSTM cell 并解释 cell state 加法更新；能说清 GRU vs LSTM 三条工程取舍；能解释双向不能自回归→BERT vs GPT 区别；能画 seq2seq+attention 信息流并指出解决/未解决的痛点；能写 Bahdanau/Luong 打分函数并对应 Q/K/V；能用两条主线论证 RNN 瓶颈+Transformer 如何回应；能展示加 attention 前后差距+读懂热力图。

阶段 3 · 表示学习与 Transformer 枢纽（9–12 周）

全程的转折与核心。先通过 AE/VAE/GAN/嵌入建立"学习紧致表示与生成分布"视角，随后集中火力攻克 Transformer 与自注意力——它是 LLM、扩散、多模态的共同地基。M9 是整个路线最高优先级，配合 capstone"从零实现 nanoGPT"，建议放慢节奏反复打磨。

模块 8 · 表示学习与生成模型 I（AE / VAE / GAN / 嵌入 / 对比学习损失）

一句话：从"压缩重建"到"学习并采样一个数据分布"，建立表示学习与生成建模的统一视角：用自编码器理解瓶颈表示，用 VAE 打通隐变量与变分推断，用 GAN 理解对抗博弈，用词嵌入与对比学习理解"语义即几何"，为后续 Latent Diffusion 与多模态埋伏笔。

学习目标

区分判别式 vs 生成式建模；解释"学习紧致表示"与"学习数据分布"是一枚硬币两面。
从零实现 AE/去噪 AE/稀疏 AE，解释三种正则各逼模型学什么。
逐项推导 VAE 的 ELBO，讲清重参数化为何让采样可反传、KL 项的信息瓶颈双重作用。
解释 VAE 与信息论（KL、率失真、后验坍塌）、β-VAE 解耦。
写出 GAN minimax 目标，解释判别器最优时最小化 JS 散度，识别缓解模式崩溃。
解释 word2vec（Skip-gram+负采样）与 GloVe 目标差异、嵌入几何（king−man+woman≈queen）。
讲清对比学习核心（InfoNCE、正负样本、SimCLR 增强）—— CLIP 的多模态对齐推迟到 M10。
说出 VAE 在 Latent Diffusion 中的角色。

先修

M2 概率+信息论（高斯、KL、MLE、Jensen/变分下界直觉）+最优化；M3 PyTorch；M5 深度学习基础；M6（部分）卷积/转置卷积；M9 的注意力非硬门槛。

吸收评审（顺序修正）：M8 只讲对比学习损失的纯表示学习视角（SimCLR/InfoNCE/嵌入几何），CLIP 的图文多模态对齐移到 M9 之后（并入 M10），因为 CLIP 文本编码器依赖 Transformer。

主题与要点

主题	关键点	为什么重要
表示学习统一视角 `[全]`	好表示=低维/解耦/对下游有用；判别 p(y\|x) vs 生成 p(x)；自监督；潜变量 z 的"真实自由度"直觉；脉络 AE→VAE→GAN→嵌入/对比→扩散	阶段3 世界观
自编码器 AE `[全]`	编码器/瓶颈/解码器+重建损失；瓶颈强迫丢冗余；线性 AE+MSE=PCA；AE 隐空间不是生成式的（随机 z 解码出噪声）；异常检测	VAE 的动机来源
去噪 AE / 稀疏 AE `[全]`	DAE 加噪重建干净→学数据流形；DAE 隐式学 score ∇log p(x)（通往扩散）；稀疏 AE（L1/KL 稀疏惩罚）；稀疏 AE 是 2024+ LLM 可解释性核心工具（呼应 M-I）	三种正则注入归纳偏置；两条线连向前沿
★ VAE：ELBO 与重参数化 `[全]`	p(x)=∫p(x\|z)p(z)dz 不可解；变分推断 ELBO=重建−KL(q‖p)；重参数化 z=μ+σ⊙ε（采样可反传）；AE 编码"点"vs VAE 编码"分布"；KL warmup 防后验坍塌；VAE 偏模糊原因	连接深度学习与概率推断的枢纽，Stable Diffusion 的压缩器
VAE 与信息论 `[全]/[研]`	KL=额外码率→率失真框架；后验坍塌（码率压到0）；β-VAE（信息瓶颈强度 vs 重建）；互信息视角	把 M2 信息论用起来
生成对抗网络 GAN `[全]`	minimax；判别器最优 D*=p_data/(p_data+p_g)→最小化 JS 散度；非饱和损失/WGAN-GP/谱归一化；模式崩溃识别与缓解；FID/IS 评估	隐式生成模型路线
词嵌入 word2vec/GloVe `[全]`	分布假说；Skip-gram+负采样；GloVe 共现矩阵分解；余弦相似度+线性类比（共现对数线性结构涌现）；静态 vs 上下文嵌入	离散世界接入网络的接口，"语义=几何"，RAG/向量检索基石
对比学习 SimCLR（仅损失视角） `[全]`	InfoNCE=互信息下界（与负采样一脉）；SimCLR（强增强+投影头+大 batch）；MoCo/BYOL/DINO；对比 vs 生成式表示学习	2020 后自监督主流；CLIP 留到 M10
承前启后：VAE 在 Latent Diffusion `[全]`	像素空间扩散算力爆炸→VAE 压到低维潜空间跑扩散；VAE=感知压缩器	把零散知识缝成通往前沿的网

关键资源

CS231n 生成模型一讲（AE/VAE/GAN） (course)。
CS224n 词向量两讲（word2vec/GloVe） (course)。
Lilian Weng《From Autoencoder to Beta-VAE》/《From GAN to WGAN》 (blog) — 跟着推 ELBO。
Auto-Encoding Variational Bayes (2013) (paper) — VAE 原始。
GAN (2014) + NIPS 2016 GAN Tutorial (paper)。
SimCLR (2020) + Lilian Weng《Contrastive Representation Learning》 (paper/blog) —（CLIP 移到 M10）。
word2vec (2013) / GloVe (2014) (paper)。
pytorch/examples (vae/dcgan) + lucidrains (repo)。
Latent Diffusion (Rombach 2022) 第3节前半 (paper) — 仅读 VAE 潜空间动机。
Embedding Projector + Jay Alammar《Illustrated Word2vec》 (blog)。

动手项目

AE 三连（普通卷积 AE / 去噪 AE / 稀疏 AE，2维隐空间散点 + 网格采样看"AE 隐空间不连续"——VAE 动机）。
从零 VAE（自写 ELBO+重参数化；随机采样生成 + 隐空间插值；KL annealing 实验防后验坍塌）。
DCGAN 并复现一次模式崩溃（训练日志+失败分析，再用 WGAN-GP/标签平滑缓解）。
词嵌入几何探索（gensim word2vec 或 GloVe，验证类比 + t-SNE 可视化 + most_similar）。
（进阶）迷你 SimCLR（CIFAR-10 InfoNCE + 线性探针，对比预训练 vs 随机特征）。
（选做衔接）潜空间生成概念串联（固定 VAE 编码器，在 z 上训小生成模型，写笔记连接 Latent Diffusion）。

常见误区

把 KL 项当黑魔法死记（要手推 ELBO）；重参数化没理解透（随机性必须外置到 ε）；后验坍塌不自知（KL≈0 要警觉）；AE 与 VAE 混为一谈；GAN 把所有问题归为学习率（loss 不指示进展，要看样本）；模式崩溃当"没训好"硬训；图像 VAE 模糊以为代码错（原理性短板）；把类比当精确等式；对比学习忽视增强/大 batch；输出激活与损失不匹配。

时间估计

4–5 周（50–70h）。第1周表示学习+AE/DAE/稀疏；第2–3周 VAE（重头，放慢）；第3–4周 GAN；第4周嵌入+对比学习+Latent Diffusion 衔接。

掌握自检

能从 log p(x) 推 ELBO 并解释重建/KL 项与信息论含义；能讲清重参数化为何梯度可回传；能做隐空间插值并解释 VAE 能而 AE 不能；能写 GAN minimax 并证明判别器最优时最小化 JS+识别缓解模式崩溃；能对比 AE/DAE/稀疏正则各逼学什么+指出 DAE 与扩散 score 联系；能说清 word2vec vs GloVe 目标差异+复现类比；能写 InfoNCE+说清 SimCLR 正负例/增强/batch；能讲清"为何 Stable Diffusion 先用 VAE 压到潜空间"。

模块 9 · Transformer 架构与注意力（核心枢纽 ★最高优先级）

一句话：从零吃透自注意力、多头机制、位置编码与三种 Transformer 范式（BERT/GPT/T5），精读《Attention Is All You Need》，最终能逐行实现并解释一个 decoder-only 小型 GPT——这是连接前面所有架构与后面所有大模型前沿的分水岭模块。

学习目标

NumPy 从零实现缩放点积注意力，解释张量形状随 batch/seq/头数变化。
解释 Q/K/V 角色分工，把注意力理解为"可微分软字典查找"。
PyTorch 从零实现多头自注意力、因果掩码、残差+LayerNorm、FFN，组装完整 block。
对比绝对/相对/RoPE 位置编码，说清如何把顺序信息注入置换不变的注意力。
讲清三范式训练目标与适用（BERT+MLM、GPT+CLM、T5/encoder-decoder），解释为何主流走向 decoder-only。
解释 BPE/WordPiece/SentencePiece 原理与差异，手动跑通 BPE 合并。
逐节复述《Attention Is All You Need》并批判性指出已被改进之处。
搭建 decoder-only 小型 GPT（nanoGPT），训练并采样生成连贯文本。

先修

M5 深度学习基础；M7 强先修（seq2seq+attention 信息流、RNN 两瓶颈）；M8 嵌入；M1 线代（追踪 (batch, seq, d_model)）；M3 PyTorch（einsum/bmm）。

主题与要点

主题	关键点	为什么重要
从 RNN 瓶颈到注意力 `[全]`	直接连接路径 O(1) vs RNN O(n)；自/交叉/掩码注意力	抓住"直接连接+可并行"主线
★ 缩放点积注意力 `[全]`	softmax(QKᵀ/√d_k)V 逐项拆解；为何除 √d_k（防 softmax 饱和）；张量形状全程追踪；掩码用 −∞ 加（非 0 乘）；软字典查找	唯一真正"新"的计算原语
自注意力与 Q/K/V `[全]`	Q/K/V 来自同一 X 的独立投影；非对称相似度；置换不变→必须加位置编码；注意力可解释性争议	从套公式到懂设计的关键一跃
多头注意力 `[全]`	多个相似度子空间；reshape 到 (batch, h, seq, d_k) 并行；concat+W_O；MQA/GQA 伏笔	表达力核心，reshape 最易出错处
位置编码：绝对/相对/RoPE `[全]/[RoPE 深化留 M11/M14]`	sinusoidal/可学习绝对；相对（T5/ALiBi）；RoPE 旋转（实现简洁+外推优势，现代标准）；加法 vs 注入方式	长上下文的核心战场（M9 简述 RoPE，M11/M14 结合长上下文深入）
残差+LayerNorm+FFN（完整 block） `[全]`	Pre-LN vs Post-LN（现代用 Pre-LN）；残差=梯度高速公路；FFN（4×宽，GELU/SwiGLU）；LayerNorm 沿特征维（M5 已讲 BN 基础，此处只差异化）；RMSNorm	把单一原语堆成可训练深层网络的胶水
范式一：Encoder-only BERT+MLM `[全]/[快略]`	双向；MLM 遮 15%；预训练-微调；[CLS]/[SEP]/[MASK]；不能直接生成	检索/嵌入/分类主力（RAG 检索器）
范式二：Decoder-only GPT+CLM `[全]`	自回归 CLM；因果掩码（下三角）；为何主流（统一目标/ICL/可扩展/KV 缓存）；GPT 演进	所有主流 LLM 骨架，capstone 目标
范式三：Encoder-Decoder T5 `[全]/[快略]`	交叉注意力（Q 自身，K/V 编码器）；T5 text-to-text；span-corruption；三范式对比表	理解交叉注意力最佳载体
分词 BPE/WordPiece/SentencePiece `[全]`	子词平衡词表/序列长；BPE 合并最高频对；byte-level BPE 永不 OOV；WordPiece 按似然；SentencePiece unigram；分词对数字/代码/多语言的隐性影响	模型与文本世界的接口（M11 只讲规模化工程取舍，避免重复）
★ 精读《Attention Is All You Need》 `[全]`	按节精读；第4节复杂度/路径长度对比表是精华；批判：Post-LN→Pre-LN、sinusoidal→RoPE、ReLU→GELU/SwiGLU	培养"读论文—复现—质疑"品味

关键资源

Attention Is All You Need (2017) (paper) — 必精读第3/4节。
Jay Alammar《Illustrated Transformer》 (blog) — 最佳可视化。
The Annotated Transformer (Harvard) (blog) — 逐行 PyTorch。
CS224N / CS336 (course)。
Karpathy《Let's build GPT》视频 + nanoGPT/minGPT/minbpe repo (video/repo) — capstone 直接配套。
RoFormer (RoPE, 2021) + EleutherAI《Rotary: A Relative Revolution》 (paper/blog)。
BERT/GPT-2/T5 原论文 (paper)。
Hugging Face NLP Course Tokenizers 章节 (course)。
Lilian Weng《The Transformer Family v2》 (blog) — 衔接 M14。

动手项目

NumPy 缩放点积注意力（含因果掩码，手算验证 + 形状打印）。
PyTorch MultiHeadSelfAttention（reshape 多头 + 形状断言 + 与官方对拍）。
完整 Transformer block（Pre-LN vs Post-LN 对比稳定性）。
★ Capstone：从零 nanoGPT（token+位置嵌入 + N 个因果掩码 block + 输出投影，tiny-shakespeare 训练采样，逐行解释张量形状）。
minbpe 从零实现 byte-level BPE（train/encode/decode，与 tiktoken 对比）。
位置编码实验（sinusoidal/可学习/RoPE 替换对比 + 外推）。
Annotated Transformer 复现 encoder-decoder（toy 翻译/序列反转，观察交叉注意力）。
对比实验（同语料 RNN/LSTM vs nanoGPT，loss/质量/单步耗时，体会并行性）。

常见误区

忘除 √d_k 或缩放写错（不报错难发现）；因果掩码方向错/没在 softmax 前应用（信息泄露）；多头 reshape/transpose 维度错；掩码用 0 乘而非 −∞ 加；忽视位置编码（退化成 bag-of-words）；混淆 LayerNorm/BatchNorm；把注意力权重当可靠因果解释；nanoGPT 数据/标签错位一位；Post-LN 不加 warmup 致发散；只看视频不亲手敲；分词字节级细节没处理；d_model 不被 h 整除。

时间估计

5–7 周（60–90h），全程最高优先级，宁可放慢反复打磨。 第1周缩放点积注意力+NumPy；第2周多头+完整 block；第3周位置编码+残差/LN/FFN；第4周三范式+分词；第5周精读论文+Annotated 复现；第6–7周打磨 nanoGPT+拓展实验。

掌握自检

能白纸默写缩放点积注意力公式+解释 √d_k+softmax 维度+张量形状；能 PyTorch 从零写支持掩码的多头自注意力并对拍；能画完整 block 数据流（残差/LN 位置/FFN）+说清 Pre/Post-LN；能默画三范式对比表；能解释因果掩码+KV 缓存加速；能手动跑 BPE 合并+说清三分词差异+byte-level 为何永不 OOV；能讲清三种位置编码+RoPE 为何成标准；能逐节复述论文第4节+指出 3 处已改进设计；完成 nanoGPT 训到 loss 下降并采样通顺文本，逐行解释每个张量；能 5 分钟向只懂 RNN 的人讲清 Transformer 解决了什么。

阶段 4 · 生成模型 II 与大模型训练范式（9–12 周）

在 Transformer 地基上理解现代生成式 AI 两条主线：扩散+多模态生成，以及 LLM 预训练/缩放定律/分布式训练。理解"预训练学知识、海量算力换能力"的范式。研究路线建议两者都深入，工程路线可侧重 M11。

模块 10 · 扩散模型与多模态生成（含 CLIP）

一句话：在 Transformer 与 VAE/GAN 地基上，吃透扩散模型从前向加噪到反向去噪的数学与采样原理，理解 Stable Diffusion 等潜空间扩散的工程架构，打通 CLIP/VLM 的多模态对齐思路，最终从零实现一个可采样的 DDPM。

学习目标

推导前向加噪、闭式采样 q(x_t|x_0)、反向去噪训练目标，解释为何简化为"预测噪声"MSE。
从零实现 DDPM（噪声调度+时间嵌入 U-Net+训练/采样循环），MNIST/CIFAR-10 生成。
解释扩散与 score-based、SDE 三视角统一（score=−噪声/σ）。
说清 DDIM 等快速采样、classifier-free guidance 机制与引导强度权衡。
画出 Stable Diffusion 数据流（文本→CLIP→交叉注意力→VAE 潜空间 U-Net→解码）。
解释 CLIP 对比学习如何对齐图文（吸收评审：CLIP 从 M8 移到此处，因依赖 Transformer 文本编码器）。
系统对比扩散 vs GAN vs VAE（统一对比表集中在此，消除重复）。
概念性说清 ControlNet、图生图/重绘、文生视频与 VLM。

先修

M2 概率（高斯/KL/贝叶斯/MLE）；M8 VAE 的 ELBO+重参数化、GAN、潜空间、对比学习损失；M9 Transformer/自/交叉注意力（CLIP 文本编码器、Stable Diffusion 条件、VLM 都依赖）；M6 U-Net；M3 PyTorch。

主题与要点

主题	关键点	为什么重要
前向加噪与闭式采样 `[全]`	固定无参马尔可夫链；重参数化合并 x_t=√ᾱ_t·x_0+√(1−ᾱ_t)·ε；t→T 趋纯高斯；linear/cosine 调度	整个框架的"锚"，训练目标的数学核心
★ 反向去噪与 DDPM 训练目标 `[全]`	反向近似高斯；从 ELBO（与 VAE 同源）展开成 KL 项；简化为预测噪声 MSE L=E‖ε−ε_θ‖²；正弦时间嵌入；ε/x_0/v 三种参数化	模块数学心脏，capstone 理论依据
Score-based 与 SDE 统一 `[全]/[研]`	score=∇log p；NCSN+朗之万；score≈−ε_θ/√(1−ᾱ_t)；SDE/概率流 ODE	理解 DDIM/DPM-Solver 合理性
采样器 DDPM→DDIM 加速 `[全]`	DDPM ~1000 步慢；DDIM 确定性大步跳（20–50 步）；DPM-Solver/UniPC（10–20 步）；蒸馏/consistency/LCM（1–4 步）；质量-速度-多样性三角	从研究走向产品的关键瓶颈
条件生成与 Classifier-Free Guidance `[全]`	ε_θ(x_t,t,c)；CFG 训练随机丢条件+采样外推；引导强度 w（保真度 vs 多样性）	现代文生图出图质量秘密武器
潜空间扩散与 Stable Diffusion `[全]`	VAE 压到潜空间（算力降一个数量级）；三组件（VAE/U-Net/文本编码器）；交叉注意力注入文本；SDXL/SD3(DiT+rectified flow)/FLUX	开源文生图事实标准
文生图/图生图/ControlNet/文生视频 `[全]/[快略]`	img2img（strength）；inpainting；ControlNet 零卷积；IP-Adapter/LoRA/DreamBooth；文生视频时间注意力（Sora/DiT）	最有产品价值的部分
★ CLIP 与多模态对齐（从 M8 移入） `[全]`	对称 InfoNCE 在 4 亿图文对；图文共享嵌入空间；零样本分类；CLIP 在文生图的双重角色；SigLIP	连接视觉与语言的桥梁，文生图/VLM 共同基石
视觉-语言模型 VLM `[全]/[快略]`	视觉编码器+连接模块（投影 MLP/Q-Former/交叉注意力）+LLM；视觉指令微调（LLaVA）；扩散=文→图 vs VLM=图→文；幻觉/计数难点	当下多模态主战场
★ 扩散 vs GAN vs VAE 系统对比（统一对比表） `[全]`	训练稳定性/样本质量/模式覆盖/推理速度/似然/潜空间；VAE 与扩散共享 ELBO 框架；latent diffusion=VAE+扩散	吸收评审：三处生成模型对比集中于此

关键资源

DDPM (Ho et al., 2020) (paper) — capstone 蓝本。
Lilian Weng《What are Diffusion Models?》 (blog) — 最佳数学综述伴读。
The Annotated Diffusion Model (HF) (blog) — 逐行 PyTorch 脚手架。
DDIM (2021) / Score-based SDE (2021) + Yang Song 博客 (paper/blog)。
Latent Diffusion (Rombach 2022) (paper) — Stable Diffusion 源论文。
Classifier-Free Guidance (Ho & Salimans 2022) (paper)。
CLIP (Radford 2021) (paper) — 多模态对齐基石。
ControlNet (Zhang 2023) (paper)。
Hugging Face diffusers 库 (repo)。
EDM (Karras) + MIT 6.S184/Flow Matching 课程 (course/paper)。
LLaVA (2023) + BLIP-2 (2023) (paper) — VLM 通用范式。

动手项目

核心 capstone：从零 DDPM（纯 PyTorch，cosine 调度 + 时间嵌入 U-Net + 噪声预测 MSE + DDPM 采样，MNIST 清晰数字，再 CIFAR-10）。
加 DDIM 采样（1000 步 vs 20/50 步质量/耗时曲线）。
条件 DDPM + CFG（按标签生成，扫描 w 观察保真度/多样性）。
diffusers 跑通 Stable Diffusion 全流程（文生图/图生图/inpainting/ControlNet，架构图对应代码）。
从零 mini-CLIP（小图像+文本编码器，对称 InfoNCE，零样本检索）。
（进阶）潜空间扩散迷你版（小 VAE 潜空间跑 DDPM，对比算力收益）。
（研究路线）复现一个消融（linear vs cosine 调度 / ε vs v-prediction）。

常见误区

把前向过程当需学习的网络；时间步 t 没作为条件/时间嵌入写错；闭式采样系数写反/索引错位；采样循环 t=0 仍加噪声；CFG 忘训练阶段丢条件；guidance scale 一味调大；彩色数据不归一化；误以为 SD 在像素空间扩散；训练步数预期不切实际（先 MNIST 验证管线）；把扩散与 GAN/VAE 对立看（SD=VAE+扩散）；CLIP/对比学习用过小 batch；只会调 diffusers 高层 API。

时间估计

4–6 周（50–80h）。第1–2周吃透 DDPM 数学+从零实现；第3周 score/SDE/DDIM/CFG；第4周 Latent Diffusion+diffusers；第5–6周 CLIP/VLM/文生视频+三范式对比+mini-CLIP。研究路线+1–2 周复现。

掌握自检

能推闭式采样并解释系数来历；能从 ELBO 推到简化 MSE 并说清"预测噪声=预测 score";能从零写 DDPM（时间嵌入 U-Net+训练/采样）MNIST 生成并逐行解释；能解释 DDIM 为何 20–50 步并实现对比；能画 SD 数据流说清各组件职责+为何潜空间；能解释 CFG 训练/采样两端+w 权衡；能讲清 CLIP 对比学习如何对齐图文+被文生图/VLM 复用；能一句话概括 VLM 架构+举代表模型；能从五维度对比扩散/GAN/VAE+解释 latent diffusion=VAE+扩散；能讲清 ControlNet 零卷积。

模块 11 · 大语言模型预训练与扩展（数据工程一等公民）

一句话：理解"基座模型"如何从海量文本中通过自监督预训练诞生：从训练目标、数据流水线、缩放定律、分布式并行到混合专家与评测，建立"预训练学知识、算力换能力"的工程化范式认知。

学习目标

解释预训练 vs 微调分工，说清 CLM/MLM/去噪三目标的损失、架构与代表模型。
描述完整预训练数据流水线（抓取→过滤→PII→精确/模糊去重 MinHash→配比→tokenizer），解释每步影响。
从零训练 BPE tokenizer（规模化工程取舍，呼应 M9 已讲算法）。
写出 Kaplan/Chinchilla 缩放定律，推导 C≈6ND 下 N/D 最优配比（~20 tokens/参数），判断"训练不足"还是"参数过大"。
区分数据/张量/流水线并行，解释 ZeRO 三阶段与 FSDP，估算 GPU 数与显存。
解释 MoE 路由/稀疏激活/负载均衡，说清固定 FLOPs 下放大参数及代价。
解释上下文长度对注意力的二次方影响与长上下文训练做法。
用困惑度与下游基准评估基座，理解数据污染。

先修

M9 强先修（从零 decoder-only block）；M5（交叉熵/AdamW/warmup+cosine/梯度裁剪/混合精度）；M2（MLE/熵/交叉熵/幂律）；M3 PyTorch；已完成 nanoGPT。

主题与要点

主题	关键点	为什么重要
预训练范式：自监督与基座诞生 `[全]`	自监督=数据自身构造监督；基座只会续写，对话来自后训练；CLM/MLM/去噪对照；为何主流 decoder-only+CLM；"预训练学知识、后训练学对齐"	总纲世界观
自监督目标数学与实现 `[全]`	CLM 损失+困惑度=exp(平均CE)；MLM 15% 遮挡样本效率低；T5 span corruption；target=input 右移一位；文档打包+跨文档 mask	决定模型学到什么
Tokenization（规模化工程） `[全]`	byte-level BPE 永不 OOV；词表大小权衡（32K–256K）；数字/代码/多语言压缩率；glitch tokens；压缩率=有效上下文/成本	M9 讲算法，此处只讲规模工程取舍（消除重复）
★ 数据流水线（一等公民，吸收评审） `[全]`	来源（CC/Wiki/书/代码/The Pile/FineWeb）；质量过滤（规则+分类器+困惑度）；精确+模糊去重 MinHash/LSH（降记忆/提样本效率）；数据配比（高质量上采样）；去污染；PII/安全；课程化退火；合成数据 synthetic data；SFT/偏好数据构造方法学；数据版权与许可	"数据 > 架构"是 2024-26 共识
★ Scaling Laws `[全]`	L 随 N/D/C 幂律；C≈6ND；Kaplan（偏参数）vs Chinchilla（~20 tokens/参数）；训练最优 vs 推理最优（Llama 过度训练）；数据受限缩放、推理时缩放、蒸馏缩放（吸收评审，新范式）；局限（不预测涌现能力）	LLM 时代工程指南针
分布式训练 `[全]/[快略细节]`	7B 需 ~100GB+；DP/TP/PP 切分维度；ZeRO 三阶段/FSDP（消除显存冗余）；Megatron TP；PP micro-batch；3D 并行+activation checkpointing+混合精度；通信瓶颈（TP 节点内、PP/DP 节点间）	"有想法"到"真能训出来"的鸿沟
混合专家 MoE `[全]`	FFN→多专家+Top-k 路由（稀疏激活）；细粒度+共享专家（DeepSeek）；负载均衡（辅助损失/无辅助损失偏置调整）；Switch/Mixtral/DeepSeek-V3；激活参数定推理成本、总参定容量	前沿模型突破"参数=算力"瓶颈
上下文长度/成本/评测 `[全]`	注意力 O(L²)+KV 缓存线性；两阶段训练+RoPE 外推（位置插值/YaRN/NTK-aware）+FlashAttention+ring attention；C≈6ND+MFU 估成本；loss spike 处理；困惑度局限；下游基准 MMLU/HellaSwag/GSM8K/HumanEval + 污染（呼应评测支线 M-E）	落到可计算/可验证/可预算的现实约束

吸收评审（时效性）：缩放定律纳入数据受限/推理时/蒸馏缩放；MoE 纳入细粒度+共享+无辅助损失均衡；位置编码外推纳入 YaRN/位置插值/NTK-aware。

关键资源

Stanford CS336（从零造 LM） (course) — 最对口主线。
Kaplan (2020) + Chinchilla (Hoffmann 2022) (paper) — 缩放对照。
GPT-3 (2020) (paper)。
Llama / Llama 2 / Llama 3 技术报告 (paper) — 工程细节最丰富的真实案例。
Karpathy《Build the GPT Tokenizer》+ nanoGPT/build-nanogpt (video/repo)。
Lee et al. (2021) 去重 (paper)。
The Pile/RedPajama/Dolma/FineWeb 论文与博客 (blog) — FineWeb 尤其可复现。
DeepSpeed ZeRO + Megatron-LM + PyTorch FSDP 文档 (paper)。
Switch/Mixtral/GShard (paper)。
HF《Ultra-Scale Playbook》 (blog) — 大规模训练实战。
Eleuther lm-evaluation-harness (repo) — 评测标准库。

动手项目

从零 BPE tokenizer（minBPE，对比不同词表压缩率，观察数字/中文切分）。
复现 GPT-2 (124M) 预训练（build-nanogpt，FineWeb-Edu 子集，warmup+cosine+bf16+梯度累积，HellaSwag 对比）。
迷你 scaling law 实验（5M/15M/50M/150M 参数 loss vs 参数对数图，拟合幂律 + Chinchilla 小规模验证）。
mini 数据流水线（语言/质量过滤 + MinHash 去重，对比去重前后困惑度）。
从零 MoE FFN 层（8 专家 Top-2 路由 + 负载均衡损失，统计专家负载）。
FSDP 多卡训练（对比单卡 vs FSDP 显存，理解 ZeRO-3 分片；无多卡则估算 7B 显存账）。
lm-evaluation-harness 评测（HellaSwag/ARC/MMLU few-shot + 污染检查）。

常见误区

把"基座会聊天"当预训练产物；用 Kaplan"越大越好"指导现代实践（应 Chinchilla）；忽视 tokenizer 长期影响；跳过去重；评测不去污染；混淆激活参数与总参数（MoE）；低估分布式工程复杂度；只看困惑度判断好坏；过小 batch/忽略 warmup 训大模型。

时间估计

4.5–6 周。自监督+tokenizer 约1周；数据流水线约1周；scaling laws+迷你实验约1周；分布式+ZeRO/FSDP 约1–1.5周；MoE+长上下文/评测约1周；GPT-2 复现贯穿。研究路线 MoE/scaling +1–2 周。

掌握自检

能白板写 CLM/MLM/去噪损失+说清各自上下文/预测目标+为何 decoder-only+CLM；能从零实现 byte-level BPE+解释与 WordPiece/Unigram 差异+词表权衡；给定 C 能用 C≈6ND+~20 tokens/参数推 N/D，判断真实模型训练不足/过度训练+解释 Llama 过度训练；能画 DP/TP/PP+说清 ZeRO/FSDP 分摊+粗算 7B 显存；能解释 MoE Top-k 路由+负载均衡+总参 vs 激活参数；完成 GPT-2 复现展示 loss/困惑度曲线+HellaSwag 分数+说明去污染；能端到端复述基座诞生流程+指出每步易错处。

阶段 5 · 对齐、微调应用与前沿追踪（10–14 周 + 长期）

完成从"会预训练"到"会用好并对齐"的最后一跃：理解后训练与对齐如何把基座变成有用/无害/诚实的助手；掌握 PEFT/LoRA、Prompt、RAG、Agent、推理优化等落地技术；最后建立持续追踪 2024–2026 前沿的能力与品味。M14 转入长期持续追踪（每周固定 2–3 小时读论文/复现，无终点）。

模块 12 · 后训练与对齐（SFT / RLHF / DPO）

一句话：理解后训练如何把只会"续写"的基座变成有用、无害、诚实的对话助手：从 SFT 到 RLHF 的奖励模型+PPO 三段式，再到把偏好优化简化为分类损失的 DPO 及变体（IPO/KTO/ORPO），贯穿理解 KL 约束、奖励黑客与对齐本质。

学习目标

讲清"预训练→后训练"范式转变，说明为何纯预训练模型不能直接当助手。
从零写 SFT 训练循环并正确实现 loss masking（只在回答 token 算损失）。
画出 RLHF 三阶段，写出奖励模型 Bradley-Terry 损失，解释 PPO 目标里 KL 惩罚的来源与作用。
从"KL 约束下最大化奖励"最优解手推 DPO 损失，对比 RLHF vs DPO 目标函数差异。
说清 DPO 局限及 IPO/KTO/ORPO 变体动机。
区分 RLHF/RLAIF/Constitutional AI；用 HHH 框架分析对齐失败。
在偏好数据上跑通 DPO 微调并与 SFT 基线对比胜率。

先修

M11（预训练目标/tokenizer/解码）；M9（decoder-only 前向）；M2 的强化学习速成（MDP/策略梯度/actor-critic/GAE/PPO，吸收评审消除断层）；M2 概率/KL/MLE；M3 PyTorch+HF；M13 的 PEFT/LoRA 并行了解（消费级 GPU 几乎必用）。

主题与要点

主题	关键点	为什么重要
什么是后训练 `[全]`	基座只学 P(next token)=超强自动补全；后训练=SFT+偏好对齐；能力（预训练）vs 对齐（后训练引出）；base→instruct/chat；chat template；InstructGPT 1.3B 胜 175B	整个模块世界观
SFT / 指令微调 `[全]`	SFT=指令-回答对上自回归；loss masking（prompt 设 -100）；指令微调泛化；数据质量>>数量（LIMA 1000 条）；SFT 局限（只能模仿一个答案）；多轮打包/EOS	后训练第一步，80% 场景性价比最高
人类偏好与奖励模型 `[全]`	成对偏好 (prompt,chosen,rejected)；RM=标量头；Bradley-Terry 损失 −log σ(r_w−r_l)；RM=代理人类；RM 脆弱性→reward hacking/Goodhart；HH-RLHF	DPO 推导前提，理解 KL 约束必要性
★ RLHF 与 PPO `[全]`	三阶段（SFT→RM→PPO）；目标 max E[r]−β·KL(π‖π_ref)；KL 约束防 reward hacking（呼应 M2）；PPO 把生成建模成 token 级决策+裁剪；显存放 4 个模型；REINFORCE 类（RLOO/GRPO）简化	把 M2 KL 落到实处，理解对齐难/贵/不稳
★ DPO `[全]`	KL 约束最优解 π∝π_ref·exp(r/β)→反解 r=β·log(π/π_ref)；代回 Bradley-Terry 消掉奖励模型*；DPO 损失；离线/监督/单阶段/稳定；β=KL 强度；DPO 已知问题（降 chosen 绝对概率）	开源对齐事实标准，智识高潮，必须手推
DPO 变体 IPO/KTO/ORPO `[全]/[研]`	IPO（防确定性过拟合）；KTO（非成对好/坏标签，前景理论，贴近点赞/点踩）；ORPO（单阶段无 ref）；SimPO/cDPO；选型口诀	2024 后真实工程决策
RLAIF 与 Constitutional AI `[全]`	AI 充当偏好标注者；CAI 两阶段（自我批评-修正+RLAIF）；把"什么是无害"从海量标注变少量原则；与红队关系；通往可扩展监督	Claude 的训练范式，可扩展对齐方向
★ HHH、安全与红队（升级，吸收评审） `[全]`	HHH 三维张力；诚实/真实性/幻觉；谄媚 sycophancy（RLHF 副作用）；红队/越狱/prompt injection；对齐评测（win rate/AlpacaEval/MT-Bench，长度偏置）；对齐税	从"怎么训"升华到"训成什么样、怎么验证"，呼应安全支线 M-S

吸收评审（升级安全）：本模块的安全内容与贯穿支线 M-S（伦理/安全/负责任 AI） 联动——偏见与公平、隐私与数据治理、版权合规、AI 治理（EU AI Act）在 M-S 系统化，本模块聚焦对齐相关的越狱/谄媚/红队。

关键资源

InstructGPT (Ouyang 2022) (paper) — RLHF 三阶段奠基，读图1。
DPO (Rafailov 2023) (paper) — 第4节推导必自推。
Constitutional AI (Bai 2022) (paper)。
Llama 2 (2023) 第3节 (paper) — 工业级 RLHF 最佳实践。
HF TRL 库（SFT/DPO/PPO/KTO/ORPO Trainer） (repo) — 实操首选。
HF Alignment Handbook（Zephyr 配方） (repo)。
KTO/ORPO/IPO 论文 (paper)。
CS224N/CS336 RLHF 讲座 (course)。
HF《Illustrating RLHF》+ Chip Huyen《RLHF》 (blog)。
Anthropic HH-RLHF/UltraFeedback + Red Teaming 论文 (repo/paper)。

动手项目

SFT 最小实现（小 base 模型 + LoRA，手写 loss masking，对比去掉 masking 的退化）。
奖励模型 + Bradley-Terry 损失（HH-RLHF/UltraFeedback，测偏好预测准确率 + 分数分布）。
DPO 复现（capstone 对应）（TRL DPOTrainer，与 SFT 基线算胜率 + margin 曲线）。
手推+代码验证 DPO 损失（自写 vs TRL 对拍 <1e-4）。
DPO vs KTO vs ORPO 小对比（胜率/稳定性/显存/时长 + 解释 ORPO 无需 ref）。
迷你 Constitutional AI 自我批评（纯推理构造批评-修正数据对）。
红队 + 谄媚探针（越狱/引导错误观点/诱导有害，记录失败 + 缓解方案）。

常见误区

SFT 忘 loss masking（学生成问题）；chat template 不一致；以为 RLHF/DPO 能教新知识；跳过/敷衍 SFT 阶段；忽视 KL/β 设置（reward hacking 或语言崩坏）；DPO 只看 loss 不看绝对概率（同时压低 chosen）；RM/judge Goodhart 化（长度偏置）；把无害做过头变无用；完整 PPO 显存低估（4 模型）；谄媚/标注者偏差放大。

时间估计

3–4 周（35–55h）。第1周后训练范式+SFT；第2周 RM+RLHF/PPO+KL（数学密集放慢）；第3周 DPO 推导+复现+变体（重头+capstone）；第4周 RLAIF/CAI+HHH/安全+对比报告。工程快速 2 周（PPO 只读不实现）；研究 +1 周。

掌握自检

能白板画 RLHF 三阶段+写各损失+解释 PPO KL 惩罚来源与去掉后果；能从 π*∝π_ref·exp(r/β) 推 DPO 损失并解释奖励模型如何消掉；能写 SFT loss masking 逻辑+指出缺失 masking 的 bug；能对比 RLHF vs DPO 目标差异+两优势两局限；能各一句话概括 IPO/KTO/ORPO 解决 DPO 哪个问题+按数据条件选；能区分 RLHF/RLAIF/CAI 反馈来源+描述 CAI 自我批评机制；跑通 DPO 展示与 SFT 胜率对比+解读 margin 曲线；能用 HHH 分析谄媚/越狱案例+提数据层缓解。

模块 13 · 微调与应用（PEFT / Prompt / RAG / Agent / 推理优化）

一句话：把"会预训练、会对齐"的基座真正用起来：以最小算力做 PEFT（LoRA/QLoRA），用提示工程榨干能力，用 RAG 接外部知识，用 Agent 调用工具完成多步任务，并用量化/KV cache/FlashAttention/投机解码/vLLM 把推理成本压到可上线——把 LLM 从 demo 变成产品的工程总成。

学习目标

说清全参微调 vs PEFT 权衡，从"低秩假设"推导 LoRA：W'=W+(α/r)·BA。
消费级 GPU 用 LoRA/QLoRA 微调 7B 级模型，正确合并/部署 adapter。
掌握提示工程方法论（zero/few-shot/CoT/self-consistency/结构化输出），解释 ICL 为何"不更新权重也能学"。
从零搭生产 RAG（切块→嵌入→向量库→检索→重排→生成），用 RAGAS 评估诊断。
判断该用 RAG/微调/结合。
实现 Agent（function calling/ReAct/MCP），搭会调工具、自我纠错的最小智能体。
掌握推理优化全栈（量化/KV cache/FlashAttention/PagedAttention/连续批处理/投机解码），用 vLLM 部署。
做端到端成本/延迟/质量三角权衡分析。

先修

M9 强先修（self-attention/KV cache/causal mask）；M11（tokenizer/自回归/混合精度/参数量与显存）；M12（SFT 数据格式/chat template）；M3 PyTorch；M1/M2（矩阵秩/低秩分解/余弦相似度）；可用 GPU（≥16GB 或 Colab T4）。

主题与要点

主题	关键点	为什么重要
微调谱系总览 `[全]`	全参（显存 12–16× 参数）vs PEFT（<1% 参数）；四流派（加法/重参数化/前缀/选择）；低内在维度；决策维度（显存/数据/多任务/零延迟）	整个模块地图
★ LoRA 原理与实现 `[全]`	ΔW=BA（r 远小于 d,k）；h=Wx+(α/r)BAx；A 高斯/B 零初始化；参数从 70 亿降到几百万；r/α/target_modules/dropout；推理合并零延迟	2023 以来微调标准
QLoRA/Adapter/Prefix/Prompt Tuning `[全]`	QLoRA（4-bit NF4+双重量化+分页优化器，单卡微调 33B/65B）；Adapter（推理串行延迟）；Prefix/Prompt（软提示）；DoRA；选型口诀	QLoRA 让普通人微调大模型
提示工程与 ICL `[全]`	ICL 不更新权重；zero vs few-shot（recency/majority label bias）；CoT《Let's think step by step》；self-consistency 投票；ReAct/ToT/Least-to-Most；结构化输出约束；与推理模型关系	零成本提升第一手段
★ RAG 一：嵌入/切块/向量库/检索 `[全]`	RAG 动机（知识冻结/幻觉/私有数据）；嵌入（BGE/E5，bi-encoder）；切块策略+overlap（头号变量）；向量库（FAISS/Chroma/Qdrant/pgvector，ANN HNSW/IVF）；混合检索（dense+BM25，RRF）；top-k 与上下文预算	企业落地最主流方案
★ RAG 二：重排/评估/诊断/RAG vs 微调 `[全]`	bi-encoder 召回+cross-encoder 重排（行业标准两段式）；查询改写（HyDE/multi-query/分解）；RAGAS（faithfulness/relevancy/context precision-recall）分段评估；失败模式（召回失败/lost-in-the-middle/无关块致幻/多跳）；RAG vs 微调决策框架；GraphRAG/agentic RAG	demo 易、靠谱难，分水岭
★ Agents：function calling/ReAct/MCP `[全]`	感知-推理-行动循环；function calling（JSON schema）；ReAct（Thought-Action-Observation）；记忆/规划/反思/终止；MCP（AI 应用的 USB-C，解决 M×N 集成）；框架地形（先手写再用框架）；可靠性挑战（错误累积/成本爆炸）	LLM 从聊天走向干活的关键
★ 推理优化一：量化/KV cache/FlashAttention `[全]`	推理是带宽受限（每 token 读全部权重）；量化（INT8/INT4/GPTQ/AWQ）；KV cache（O(n²)→逐 token O(n)）；MQA/GQA 压缩；FlashAttention（IO 感知 tiling/重计算）；PagedAttention	"跑得起但用不起"的关键
★ 推理优化二：投机解码/连续批处理/vLLM `[全]`	投机解码（草稿模型并行验证，2–3×）；Medusa/EAGLE；连续批处理（动态加入/移出）；vLLM（PagedAttention+连续批处理+OpenAI 兼容 API）；SGLang/TGI/llama.cpp/Ollama；吞吐/延迟（TTFT/TPOT）/质量/成本四角	推理成本降一个数量级的工程杠杆

吸收评审（时效性 + MLOps/Agent 系统）：推理优化纳入 FlashAttention-3、prefill/decode 分离、KV cache 压缩（MLA） 等 2025-26 部署主流；Agent 部分补充 多 Agent 编排、记忆系统、工具学习可靠性与评测、安全沙箱（与 M14 联动）；MLOps 闭环（服务监控/A-B 测试/漂移检测/回归测试/可观测性 tracing/guardrails）在"概览补充"小节给出框架。

关键资源

LoRA (2021) / QLoRA (2023) (paper)。
HuggingFace PEFT 库 (repo)。
CoT (Wei 2022) + Self-Consistency (Wang 2022) (paper)。
OpenAI/Anthropic Prompt Engineering 官方指南 (blog)。
RAG (Lewis 2020) + Lost in the Middle (Liu 2023) (paper)。
RAGAS 框架 (repo)。
ReAct (Yao 2022) + MCP 官方文档 (paper/blog)。
FlashAttention (2022)/FA-2 + PagedAttention/vLLM (Kwon 2023) (paper/repo)。
CS336 (course)。
Lilian Weng《Prompt Engineering》/《LLM Powered Autonomous Agents》 (blog)。
Sebastian Raschka《Build a LLM from Scratch》+ PEFT 博客 (book)。

动手项目

LoRA 从零最小实现（自写 LoRALinear，替换 nanoGPT 线性层）。
QLoRA 微调 7B 开源模型（capstone 第一部分）（单卡 ≤24GB，自构 SFT 数据，合并 adapter+vLLM 部署）。
提示工程消融（GSM8K 子集，zero/few-shot/CoT/self-consistency 准确率对比报告）。
从零生产级 RAG（capstone 第二部分核心）（递归切块→BGE/E5→FAISS/Chroma→混合检索→重排→带引用生成，RAGAS 评估 + 诊断 3 种失败模式）。
手写 ReAct Agent（不依赖 LangChain，接计算器/检索/代码执行，防死循环+重试，可选 MCP server）。
vLLM 部署与推理优化基准（开关量化/不同 batch 的吞吐/延迟，vLLM vs 朴素 HF generate）。
（整合 capstone）端到端 LLM 应用（QLoRA 模型+RAG+Agent+vLLM，作品集仓库）。

常见误区

把微调当万能药（多数先 prompt+RAG）；LoRA 超参乱设（r 过大过拟合）；SFT 数据/chat template 不一致；QLoRA 把基座也训练/合并出错；RAG 切块草率（头号原因）；RAG 只评最终答案不分段；只用向量忽视关键词与重排；Agent 过度工程化（先手写最小 ReAct）；忽视推理是带宽受限（优化错方向）；量化无脑最低 bit；KV cache 显存爆炸被忽视；评估全靠肉眼。

时间估计

7–9 周（80–120h）。PEFT+LoRA/QLoRA 约2.5周；提示工程约1周；RAG 约2周；Agent+MCP 约1.5周；推理优化+vLLM 约1.5周；整合 capstone 约1周。工程快速 5–6 周（精做 QLoRA+RAG+vLLM）；研究 +2 周。

掌握自检

能从低秩假设推 LoRA 公式+解释 A/B 初始化+α/r+合并；能 QLoRA 微调 7B 完成任务+正确处理 chat template+部署，效果优于基座；给定场景能论证用 prompt/RAG/微调/组合；能从零搭含混合检索+重排的 RAG+RAGAS 分段评估+3 种失败模式诊断修复；能手写 ReAct Agent+解释 MCP 解决什么；能解释推理为何带宽受限+各优化针对哪个瓶颈；能用 vLLM 部署+产出吞吐/TTFT/TPOT 对比表；能读 LoRA/QLoRA/RAG/ReAct/FlashAttention 任一原论文复述贡献与局限。

模块 14 · 前沿进展（2024–2026）：推理模型、MoE、长上下文、多模态、Agent 与模型版图

一句话：把 M1–13 的地基汇聚到当下，理解 2024–2026 真正改变格局的几条主线（用 RL 造出"会思考"的推理模型、用稀疏 MoE 把参数做大算力做省、把上下文拉到百万级、走向原生多模态与能操作计算机的 agentic 系统、世界模型/视频生成、蒸馏小模型），并建立一套能长期自我更新、读懂并复现最新论文的方法论与品味。

学习目标

用统一语言解释"测试时计算 test-time compute"范式与训练时缩放的关系。
讲清推理模型训练配方（o1/o3→DeepSeek-R1 纯 RL，GRPO/RLVR，冷启动→RL→拒绝采样蒸馏），指出长 CoT 何时有效/过度思考。
从架构解释稀疏 MoE（路由/Top-k/负载均衡/共享/细粒度专家）。
说清超长上下文（128K→1M+）实现要素与局限（needle ≠ 长程推理，RULER/LongBench）。
描述原生多模态/全模态范式转变（GPT-4o 原生图像、Gemini 原生多模态、理解+生成统一）。
刻画 agentic 系统能力边界，用真实基准（SWE-bench Verified/GAIA/OSWorld/τ-bench）判断 demo 与可靠落地差距。
概述世界模型/视频生成前沿，分清已实现与被夸大。
在高效化维度做工程取舍（蒸馏/量化/小模型）。
画出 2026 年中开源 vs 闭源版图的判断框架（而非写死型号），并建立可持续前沿追踪工作流。

先修

M9（self-attention/KV/位置编码）；M11（scaling law/并行）；M12（SFT/RLHF/DPO + RL 速成）；M13（agent/推测解码/vLLM/量化）；扎实英文论文阅读能力。

主题与要点

主题	关键点	为什么重要
范式总览：第二条缩放曲线 `[全]`	训练时缩放遇数据墙；test-time compute（更长 CoT 换正确率）；三形态（串行长 CoT/并行投票 best-of-N/树迭代）；o1 算力对数线性提升；时间线	理解整个格局的总纲
推理模型 I：o1/o3 与长 CoT `[全]`	大规模 RL 优化隐藏推理链；reasoning_effort；数学/代码提升最大；自我反思/回溯涌现；过度思考；ARC-AGI 争议；快/慢双模型+thinking budget	推向主流的引爆点（区分官方声称 vs 推断）
★ 推理模型 II：DeepSeek-R1 开放配方 `[全]`	R1-Zero 纯 RL（无 SFT）涌现长 CoT；RLVR（可验证奖励）；完整流水线（冷启动 SFT→推理 RL→拒绝采样→再 SFT→对齐 RL）；GRPO（去 critic，组相对奖励，省显存）；推理蒸馏；open-r1/PRM vs ORM	最该亲手复现的部分，把 M12 RL 打通到前沿
MoE 前沿 `[全]`	多专家+Top-k 路由（稀疏激活）；细粒度+共享专家（DeepSeek）；无辅助损失负载均衡；DeepSeek-V3(671B/激活37B)/Mixtral/Qwen3/Llama-4；激活参数定成本、总参定容量；显存/通信代价	前沿大模型几乎一致选择
超长上下文 `[全]`	O(n²)+KV 缓存瓶颈；RoPE 外推/位置插值/YaRN/NTK-aware；Ring Attention/MLA/KV 压缩；needle 通过≠长程多跳推理（RULER/LongBench/lost-in-the-middle）；Gemini 1M；长上下文 vs RAG	最易被数字游戏误导处
多模态/全模态/原生多模态 `[全]/[快略]`	三代（拼接/原生/全模态 omni）；统一 token 化+early fusion；GPT-4o 原生图像生成（理解+生成统一）；端到端语音；长视频理解	通向通用感知-行动智能体
Agentic 系统与计算机使用 `[全]`	工具+规划+记忆+反馈循环；computer use（Claude/Operator）；SWE-bench Verified（自主修 bug）；真基准（GAIA/OSWorld/WebArena/τ-bench）；单步高≠长程高（误差按步指数衰减）；可靠性工程（错误累积/沙箱/human-in-loop）；MCP	产业押注最重方向
世界模型与视频生成 `[全]/[研]`	Sora（DiT 时空 patch）/Veo/Kling；世界模型=动作条件可交互模拟器（vs 仅好看视频）；Genie/Genie 2；物理/因果先验假说（尚有争议）；现状校准（物理违和/长时漂移）	最具想象力也最易炒作
高效化：蒸馏/量化/小模型 `[全]`	推理蒸馏（大模型 CoT 数据 SFT 小模型）；量化（INT4 几乎无损）；Phi/Gemma/Qwen 小尺寸；成本/延迟/质量三角；小而专 vs 大而全	前沿不只更大，更小更省同样是前沿
★ 模型版图：判断框架（非型号清单） `[全]`	闭源（OpenAI/Anthropic/Google）vs 开放权重（Llama/Qwen/DeepSeek/Mistral/Gemma/Phi）；趋势（开闭差距收窄/推理标配/全面 MoE/降价/中国实验室主力）；开放权重≠开源+许可陷阱；用 LMArena/Artificial Analysis/垂直 benchmark 交叉校准	吸收评审：改造为"如何自行评估当下版图"，而非写死型号
★ 前沿追踪方法论 `[全]`	信息源分层（arXiv>可信博客>社交噪音）；每周 2–3h 读论文+复现；三遍法+批判清单（提升来自方法还是算力/数据？可复现？局限？）；区分真突破/刷榜/营销；最小复现（小模型核心机制）；评测素养（污染/作弊）	本模块的真正产出：可持续自我更新的肌肉

吸收评审（时效性 + 评测）：推理模型确保涵盖 GRPO/RLVR/PRM；缩放纳入推理时缩放；MoE 纳入无辅助损失均衡；位置编码纳入 YaRN/位置插值/attention sink；版图改成判断框架；推理优化跟进 FA-3/prefill-decode 分离/MLA；评测素养与贯穿支线 M-E 联动。

关键资源

DeepSeek-R1 (arXiv:2501.12948) (paper) — 最重要精读，可复现蓝本。
DeepSeek-V3 (arXiv:2412.19437) (paper) — 前沿 MoE 标准参考。
OpenAI《Learning to Reason with LLMs》(o1 博客) + system cards (blog) — 区分声称 vs 推断。
Lilian Weng《Why We Think》 (blog) — 推理/test-time compute 综述。
CS336 (course)。
Raschka《Build a LLM》+ ahead-of-AI 博客 (book)。
Mixtral (2401.04088) + Switch Transformers (2101.03961) (paper)。
RULER (2404.06654) + Lost in the Middle (2307.03172) (paper)。
SWE-bench/SWE-bench Verified + GAIA/OSWorld/τ-bench 排行榜 (repo)。
Sora 技术报告 + DeepMind Genie/Genie 2 (paper)。
HF Open-R1 + TRL GRPOTrainer (repo) — 动手主力。
LMArena + Artificial Analysis + Stanford AI Index (blog) — 交叉校准（引用带日期）。

动手项目

核心·复现推理 RL（TRL GRPOTrainer + 1.5B 基座，GSM8K 子集 RLVR：答案正确+格式奖励，观察 CoT 变长/准确率上升/自我验证，复述 R1-Zero 现象）。
MoE 从零（nanoGPT 某 block FFN 换最小 MoE，router+Top-2+负载均衡损失，统计专家负载，故意去掉均衡观察坍塌）。
推理蒸馏（用 R1-Distill 或上一步模型生成长 CoT 微调不会推理的同尺寸基座，验证提升）。
长上下文压力测试（needle-in-a-haystack + RULER 风格多针/多跳，画有效准确率 vs 位置/长度曲线，看 lost-in-the-middle）。
agent 真实评测（最小 code-agent 在 SWE-bench Lite 跑，记录成功率/失败模式/token 成本 + 反思步骤观察误差累积）。
版图与评测素养（3 个任务各挑开源+闭源模型盲测打分，与 LMArena/Artificial Analysis 对照，产出带日期与方法说明的"模型选型表"，每季度更新）。

常见误区

把 test-time compute 当万灵药（简单题过度思考）；误以为 o1/o3 训练细节公开（区分声称/推断/R1 验证）；混淆 RLHF 与 RLVR/推理 RL（奖励来源不同）；GRPO/PPO 栽在工程细节（奖励设计/KL/采样）；迷信长上下文宣称长度（needle≠长程推理）；MoE 参数数字误导（成本看激活参数）；用 demo/单榜判断能力；把"视频好看"等同"懂物理"；追新闻不追机制；忽视开放权重≠开源与许可陷阱。

时间估计

作为有限学习单元 5–7 周（核心精读 + 2–3 动手项目），此后转入长期持续追踪（每周 2–3h，无终点）。先用 2 周吃透 test-time compute+R1+MoE 三主干，再 2–3 周覆盖长上下文/多模态/agent/世界模型/高效化，最后 1 周搭版图表与追踪工作流。

掌握自检

能白板画训练时 vs 测试时缩放两曲线+解释三形态+举长 CoT 有害场景；能复述 R1 完整流水线+RLVR/GRPO 各解决什么+GRPO 去 critic 好处；能从零实现含 router+Top-k+负载均衡的 MoE+按激活参数估成本；能解释 RoPE 外推/Ring Attention/MLA+用 needle+RULER 证明有效<宣称+说清长上下文 vs RAG；能区分三代多模态+解释 GPT-4o 原生图像为何"理解+生成统一";能用 ≥4 真实基准说明 agent 现状+解释单步高长程低的数学原因；能区分视频生成 vs 可交互世界模型+指出"懂物理"是愿景还是事实；能基于三角论证微调小模型+RAG/工具何时优于超大闭源；能画 2026 年中版图判断框架+说明用哪些榜单交叉校准；能用三遍法+批判清单读最新论文+设计最小复现实验。

第四部分 · 贯穿式支线（吸收评审补全的横向能力）

以下四块横向能力评审指出在原架构中散落或缺失，本课程把它们做成贯穿支线，在多个模块嵌入并在此统一框架。

支线 M-E · 评测与方法论（贯穿 M4/M11/M13/M14）

为什么单列：对一门"能读懂并复现前沿论文"的课程，评测是核心方法论。

经典指标（M4）：准确率/precision/recall/F1/ROC-AUC/RMSE/MAE。
困惑度与内在指标（M7/M11）：perplexity 的定义、跨 tokenizer 不可比。
LLM 基准与污染（M11/M14）：MMLU/HellaSwag/GSM8K/HumanEval；数据污染 contamination、去污染、基准饱和。
LLM-as-judge / 胜率 / Arena（M12/M14）：AlpacaEval/MT-Bench、长度偏置、LMArena Elo、人类盲评方法学。
推理模型评测（M14）：AIME/GPQA/SWE-bench Verified/ARC-AGI、test-time 投入与方法功劳的区分。
RAG/Agent 端到端评估（M13/M14）：RAGAS（faithfulness/context precision-recall）分段评估、GAIA/OSWorld/τ-bench、单步 vs 长程成功率、pass@k。
统一品味：私有/动态/人类盲评类评测优先于易被刷分的公开静态榜单。

支线 M-S · 伦理、安全与负责任 AI（贯穿 M12，独立成框架）

为什么升级：面向 2026 这是必备而非可选。

对齐相关（M12）：幻觉、越狱 jailbreak、prompt injection、谄媚 sycophancy、红队 red-teaming。
偏见与公平 fairness：数据去偏、群体公平性指标。
隐私与数据治理：PII 移除、训练数据合规、记忆与抽取攻击。
版权与许可：训练数据版权、开放权重≠开源、商用许可（Apache/MIT vs 社区许可）。
AI 治理与监管：EU AI Act、模型卡 model card、双用途/滥用风险。
可扩展监督（M14）：弱到强泛化、欺骗性对齐 deceptive alignment 等开放问题。

支线 M-I · 可解释性与可视化（贯穿 M6/M8/M14）

为什么补：2024-26 研究热点，与"读懂前沿"目标直接相关。

CNN 可视化（M6）：卷积核、特征图。
经典 ML 可解释性（M4）：SHAP、LIME、部分依赖图。
LLM 可解释性（M14）：attention 分析、探针 probing、机制可解释性 mechanistic interpretability、稀疏自编码器 SAE 分解残差流为单义特征（呼应 M8 稀疏 AE）。

概览补充（评审指出的应用域/工程闭环，至少概览级）

GNN / 推荐系统 / 表格深度学习（M4 概览）：工业主力，契合"归纳偏置随数据结构变化"哲学。GNN（消息传递/图卷积）、推荐（双塔召回/排序/向量检索）。
经典 NLP 预备（M7 前最小铺垫）：n-gram 语言模型、文本表示、NER/POS、perplexity。
生产/部署 MLOps 闭环（M13 概览）：服务监控、A/B 测试、漂移检测、回归测试、CI/CD for models、LLM 可观测性（tracing/guardrails）。
经典 RL 基础（M2 速成）：MDP/策略梯度/actor-critic/GAE/PPO（已并入 M2）。

第五部分 · 贯穿全程的里程碑项目（Capstones）

阶段	里程碑	内容	验证
阶段 0	手写自动微分引擎（micrograd）	纯 NumPy 矩阵求导链式法则；实现 micrograd 标量自动求导引擎并训玩具任务	数学+工程地基扎实（与阶段1 差异化）
阶段 1	经典 ML 全家桶 + 深网络训练诊断	(1) 从零线性/逻辑回归/决策树/k-means 对比 sklearn；(2) 纯 NumPy 两层网+MNIST>97%；(3) PyTorch 多层网络 CIFAR-10 + 训练技巧消融报告（初始化/BN/残差/优化器/正则化）	偏差-方差诊断与训练技巧掌握
阶段 2	CNN 图像分类 + RNN 字符级语言模型	(1) mini-ResNet CIFAR-10>90% + 可视化 + 复现退化；(2) 字符级 LSTM 语言模型 + Bahdanau attention（作为 Transformer 伏笔，明确这是定性预告而非要求实现 Transformer）	归纳偏置直觉 + RNN 瓶颈论证
阶段 3（核心分水岭）	从零实现 nanoGPT	完全从零 PyTorch 实现多头自注意力/位置编码/Transformer block/decoder-only GPT，tiny-shakespeare 训练采样，逐行解释。配套：VAE/GAN 在 MNIST 生成	彻底吃透 Transformer
阶段 4	从零 DDPM + 迷你 scaling 实验	(1) 从零 DDPM 在 MNIST/CIFAR-10 采样；(2) 迷你预训练：训自己的 nanoGPT 验证小型 scaling 趋势（模型/数据规模 vs loss），写观察报告	扩散数学 + 缩放认知
阶段 5（终极）	端到端 LLM 应用 + 对齐复现	(1) LoRA/QLoRA 微调开源模型完成特定任务（产出 SFT 数据+评测）；(2) 带检索的 RAG/Agent 应用（向量库+检索+重排+工具调用，RAGAS 诊断改进）；(3) 复现 DPO 并对比 SFT 基线胜率。整合成作品集仓库 + vLLM 部署	端到端能力闭环
阶段 5 进阶	复现推理 RL（研究路线）	用 GRPO+RLVR 在 GSM8K 子集让小模型学会推理，复述 R1-Zero 现象	把 RL 打通到前沿
贯穿全程（研究路线）	论文复现挑战	从阶段3 起每阶段复现 1 篇经典论文的核心结果或关键消融（attention 变体/RLHF-DPO 对比/2024-26 推理模型核心机制）	独立研究与复现能力

第六部分 · 推荐总资源清单

课程（一手优先）

3Blue1Brown（线代/微积分/神经网络可视化）
CS231n（视觉/CNN/反向传播）
CS224n（NLP/序列/Transformer）
CS229（经典 ML 严谨推导）
CS336: Language Modeling from Scratch（从零造 LLM，对接阶段4/5）
MIT 18.06（线代）/ MIT 6.431x（概率）/ EE364A（凸优化）
Hugging Face NLP Course + Deep RL Course
Andrew Ng ML Specialization
OpenAI Spinning Up（RL/PPO）

书籍（多数免费在线）

《Mathematics for Machine Learning》、《Deep Learning》（花书）、PRML/《Deep Learning: Foundations and Concepts》(Bishop)
《An Introduction to Statistical Learning》(ISLP)、《Hands-On ML》(Géron)
《Deep Learning with PyTorch》、Dive into Deep Learning (D2L)
《Neural Networks and Deep Learning》(Nielsen)、Sutton & Barto《Reinforcement Learning》
《Build a LLM from Scratch》(Raschka)、《Interpretable ML》(Molnar)

关键论文（按主线）

基础架构：Attention Is All You Need、ResNet、LSTM、Bahdanau attention、ViT、RoFormer(RoPE)
生成模型：VAE、GAN、DDPM、DDIM、Score-based SDE、Latent Diffusion、CFG、ControlNet
表示/多模态：word2vec、GloVe、SimCLR、CLIP、LLaVA、BLIP-2
预训练/缩放：GPT-3、Kaplan/Chinchilla、Llama 技术报告、Switch/Mixtral、DeepSeek-V3
对齐：InstructGPT、DPO、Constitutional AI、KTO/ORPO/IPO、Llama 2
应用/推理：LoRA、QLoRA、RAG、Lost in the Middle、ReAct、FlashAttention、PagedAttention
前沿：DeepSeek-R1、Sora、Genie、RULER

博客/工具/仓库

Karpathy 全系列：micrograd → makemore → minGPT/nanoGPT → minbpe → build-nanogpt（implement-to-understand 脊柱）
Lilian Weng（lil'log）：扩散、对比学习、prompt、agent、推理综述
Jay Alammar：Illustrated Transformer/GPT-2/Word2vec
The Annotated Transformer / Diffusion Model（逐行实现）
distill.pub / Seeing Theory / CNN Explainer / bbycroft.net/llm（交互可视化）
工具栈：PyTorch、Hugging Face (transformers/datasets/peft/trl/diffusers/accelerate)、vLLM、W&B/TensorBoard、FAISS/Chroma、RAGAS、lm-evaluation-harness、Open-R1

第七部分 · 学完之后如何持续跟踪前沿

M14 没有终点——本课程的真正产出不是记住 2026 年某个排名，而是带走一套"读论文—复现—质疑"的肌肉，让你在 2027、2028 也能自己跟上。

1. 建立固定节律

每周固定 2–3 小时 读论文 + 小复现，可持续性远胜单次冲刺。
维护一个第二大脑（Notion/Obsidian/Anki），记录推导、踩坑、论文要点，做间隔重复。

2. 信息源分层

层级	来源
一手（优先）	arXiv（cs.CL/cs.LG）、官方技术报告/system card、模型权重页
高质量二手	少数可信研究者博客/newsletter（Lilian Weng、Sebastian Raschka、Sebastian Ruder）、会议 tutorial
噪音（警惕）	社交媒体热搜、营销稿、未经独立复现的"突破"

3. 读论文"三遍法 + 批判清单"

先读摘要+图表抓骨架 → 2. 读方法抓核心 → 3. 读细节能复现。

批判清单：它解决什么问题？基线是否公平？提升来自方法还是更多算力/数据？是否可复现（有无代码/权重）？失败模式与未讨论的局限是什么？

4. 区分"真突破/刷榜/营销"的启发式

是否有独立复现、是否在多个独立 benchmark 一致、是否报告成本与失败案例、是否混淆 test-time compute 投入与方法本身的功劳。

5. 最小复现策略

不追求复现全规模，在小模型/小数据上复现"核心机制"（如用 GRPO 在 GSM8K 子集让 0.5B–1.5B 模型学会推理；用 nanoGPT 加一个 MoE 层观察路由）。

6. 评测素养

知道每个 benchmark 测什么、易被污染/作弊在哪，优先信任私有/动态/人类盲评类评测。

7. 持续校准模型版图

用 LMArena（人类盲评 Elo）+ Artificial Analysis（成本/速度/质量）+ 垂直 benchmark（SWE-bench/GPQA/AIME/RULER） 交叉看，不信单一榜单或厂商自报数字。每季度更新一次你自己的"模型选型表"（带日期与方法说明）。

8. 选定方向深耕（研究路线）

在对齐、长上下文、推理、多模态、可解释性、效率中选 1–2 个细分方向，持续产出复现与改进，形成自己的研究品味。

终点不是学完，而是能就某一细分方向持续产出复现与改进。带着这套能力，你已经从"会调 API"升级为"能读懂、复现、评判并推进前沿"的人。