📍 你在这里:当前 = 阶段0 · 模块2(概率统计、信息论与最优化,含 RL 速成)。本模块已经放出 10 课:前 5 课讲概率 → 分布 → 贝叶斯 → MLE/MAP → 信息论,主线是"损失函数到底从哪来";后 5 课接采样、凸性、优化器和强化学习速成。学完模块2 进入 模块3 · Python/NumPy/PyTorch 与实验工程。
每课结构:学习产出(开头)→ 机制讲解 + 公式 + 示意图 + 例题 → 调一调观察现象(可改可跑)→ 动手练习 → 掌握自检 → 可以先放过的点(结尾),并逐条数学校验(连"调一调"的预期现象都核对过)。右下角"Python 实验台"小窗可随手验证。
1概率的语言——随机变量、分布、期望与方差
不确定性的数学;PMF/PDF/CDF、期望线性性、方差、蒙特卡洛
能力点概率语言——把"不确定性"写成数学(输出层/损失/噪声都用分布说话)
2分布动物园与协方差伯努利→高斯、协方差矩阵与椭圆(接特征分解)、CLT
能力点分布与协方差——认识模型用的分布 + 协方差的几何(接 M1 特征分解,PCA 的种子)
3条件概率与贝叶斯P(A|B)、链式法则=自回归 LM 的根、先验/似然/后验、基率谬误
能力点贝叶斯思维——先验/似然/后验;自回归 LM 的概率根 P(x)=∏P(xₜ|x_<t)
4从数据到损失——MLE 与 MAP似然→NLL、高斯→MSE、Categorical→交叉熵、MAP→L2/L1
能力点MLE/MAP——把"数据怎么生成"翻译成"该最小化什么损失"(本模块枢纽)
5信息论——熵、交叉熵、KL熵/交叉熵/KL/互信息、三线汇合、VAE/RLHF 埋点
能力点信息论——交叉熵/KL:深度学习最常用损失的来源(VAE/RLHF 的埋点)
6采样——逆变换、重参数化与蒙特卡洛逆变换采样、重参数化技巧、MCMC 概念
能力点采样与重参数化——VAE/扩散/RL/LLM 解码的共同操作
7凸性与梯度下降——优化的几何凸集/凸函数、负梯度最速下降、病态与条件数
能力点凸性与梯度下降——损失能否真正降下去
8现代优化器——SGD、动量、Adam 与调度SGD/动量/RMSProp/Adam/AdamW、warmup+cosine
能力点现代优化器——把损失变成训练好的模型(AdamW+warmup 是大模型标配)
9强化学习速成 I——MDP、价值与贝尔曼MDP、回报、V/Q、贝尔曼方程
能力点强化学习 I——MDP/价值/贝尔曼(RLHF、推理 RL 的语言)
10强化学习速成 II——策略梯度到 PPO策略梯度/REINFORCE/优势/GAE/PPO → RLHF
能力点强化学习 II——策略梯度→PPO(直通 RLHF/GRPO)