首页　/　从零到前沿 ML 自学课程　·　阶段0：数学与工具基础

模块 2 · 概率统计、信息论与最优化（含强化学习速成）

从随机变量与贝叶斯出发 → 用 MLE/MAP 把"概率假设"翻译成"损失" → 用信息论解释损失为何长这样 → 凸性与 SGD/Adam 把它优化下去 → RL 速成。三条线在"最小化损失"汇合。

📍 你在这里：当前 = 阶段0 · 模块2（概率统计、信息论与最优化，含 RL 速成）。本模块已经放出 10 课：前 5 课讲概率 → 分布 → 贝叶斯 → MLE/MAP → 信息论，主线是"损失函数到底从哪来"；后 5 课接采样、凸性、优化器和强化学习速成。学完模块2 进入 模块3 · Python/NumPy/PyTorch 与实验工程。

每课结构：学习产出（开头）→ 机制讲解 + 公式 + 示意图 + 例题 → 调一调观察现象（可改可跑）→ 动手练习 → 掌握自检 → 可以先放过的点（结尾），并逐条数学校验（连"调一调"的预期现象都核对过）。右下角"Python 实验台"小窗可随手验证。

1概率的语言——随机变量、分布、期望与方差

不确定性的数学；PMF/PDF/CDF、期望线性性、方差、蒙特卡洛

能力点概率语言——把"不确定性"写成数学（输出层/损失/噪声都用分布说话）

2分布动物园与协方差

伯努利→高斯、协方差矩阵与椭圆（接特征分解）、CLT

能力点分布与协方差——认识模型用的分布 + 协方差的几何（接 M1 特征分解，PCA 的种子）

3条件概率与贝叶斯

P(A|B)、链式法则=自回归 LM 的根、先验/似然/后验、基率谬误

能力点贝叶斯思维——先验/似然/后验；自回归 LM 的概率根 P(x)=∏P(xₜ|x_<t)

4从数据到损失——MLE 与 MAP

似然→NLL、高斯→MSE、Categorical→交叉熵、MAP→L2/L1

能力点MLE/MAP——把"数据怎么生成"翻译成"该最小化什么损失"（本模块枢纽）

5信息论——熵、交叉熵、KL

熵/交叉熵/KL/互信息、三线汇合、VAE/RLHF 埋点

能力点信息论——交叉熵/KL：深度学习最常用损失的来源（VAE/RLHF 的埋点）

6采样——逆变换、重参数化与蒙特卡洛

逆变换采样、重参数化技巧、MCMC 概念

能力点采样与重参数化——VAE/扩散/RL/LLM 解码的共同操作

7凸性与梯度下降——优化的几何

凸集/凸函数、负梯度最速下降、病态与条件数

能力点凸性与梯度下降——损失能否真正降下去

8现代优化器——SGD、动量、Adam 与调度

SGD/动量/RMSProp/Adam/AdamW、warmup+cosine

能力点现代优化器——把损失变成训练好的模型（AdamW+warmup 是大模型标配）

9强化学习速成 I——MDP、价值与贝尔曼

MDP、回报、V/Q、贝尔曼方程

能力点强化学习 I——MDP/价值/贝尔曼（RLHF、推理 RL 的语言）

10强化学习速成 II——策略梯度到 PPO

策略梯度/REINFORCE/优势/GAE/PPO → RLHF

能力点强化学习 II——策略梯度→PPO（直通 RLHF/GRPO）