首页　/　从零到前沿 ML 自学课程　·　阶段0：数学与工具基础

模块 3 · Python、NumPy、PyTorch 与实验工程

从科学计算栈与环境工程出发 → NumPy 向量化/广播建立张量心智 → PyTorch 张量/Autograd/nn.Module → 第6课起从零写训练循环、数据加载、混合精度、实验管理与调试、Hugging Face。主线是"能从零写出完整、可复现的训练循环"。

📍 你在这里：当前 = 阶段0 · 模块3（Python/NumPy/PyTorch 与实验工程）。本轮先放出 前 5 课（环境工程 → NumPy 向量化/广播 → PyTorch 张量 → Autograd → nn.Module），它们是"写训练循环之前你必须先会的地基"。第6课起进入核心的"从零写训练循环"。代码用浏览器内 Python（Pyodide，NumPy 可跑）：可运行格能直接改了跑；PyTorch/命令行等以参考代码形式给出（不在浏览器运行，但 API 正确）。

每课结构：学习产出（开头）→ 机制讲解 + 最小可跑/手写实现 + 真实 API 当指针 + 示意图 → 调一调观察现象（可改可跑）→ 动手练习 → 掌握自检 → 可以先放过的点（结尾），并逐课做代码对抗校验（可运行代码心算重跑、PyTorch 参考代码核对 API 正确性）。右下角"Python 实验台"小窗可随手验证。

1Python 科学计算栈与环境工程

conda/venv 隔离、版本锁定、栈分工、notebook 隐藏状态、何时毕业到 .py

能力点环境工程——让"跑不出来"不再是元凶（隔离环境/锁版本/逃出 notebook 隐藏状态）

2NumPy 数组、向量化与广播

view vs copy、向量化 10–100×、广播尾部对齐、keepdims、softmax 数值稳定

能力点NumPy 向量化与广播——张量心智模型，1:1 迁移到 PyTorch（性能与隐形 bug 的根）

3PyTorch 张量、设备与 dtype

Tensor=ndarray+三属性、from_numpy 零拷贝、view vs reshape/contiguous、.to(device)

能力点PyTorch 张量——device/dtype/requires_grad 三属性；吃掉最高频报错

4Autograd 自动微分

动态计算图、手写 micrograd、.grad 累加→zero_grad、no_grad/detach/冻结

能力点Autograd——亲手写一个 micrograd 把"自动微分魔法"拆开（接 M1 反向传播）

5nn.Module 与模型构建

注册机制、手写迷你 Module、nn.Parameter/ModuleList、train/eval、state_dict

能力点nn.Module——把张量运算组织成可保存/迁移的模型（注册机制是关键）

6从零写训练循环（核心）即将上线

五步骨架、CrossEntropyLoss 喂 logits、训练/验证分离、调度器

能力点从零训练循环（核心）——阶段0 硬指标，后续所有模型共用

7数据加载 Dataset 与 DataLoader即将上线

__len__/__getitem__、batch/shuffle/num_workers、collate_fn 变长 padding

能力点数据加载——Dataset/DataLoader/collate_fn，数据管线是隐形瓶颈

8GPU/CUDA 与混合精度即将上线

显存构成、避免同步、AMP autocast+GradScaler、bf16 vs fp16

能力点GPU 与混合精度——AMP+GradScaler 省一半显存提速（LoRA/QLoRA 前提）

9实验管理、可复现与调试方法论即将上线

W&B/TensorBoard、可复现清单、故障诊断树、先过拟合一个 batch

能力点实验管理与调试——可复现清单 + 故障诊断树（真实训练 90% 时间在调试）

10Hugging Face 生态入门即将上线

AutoModel/Tokenizer/pipeline、datasets.map、Trainer 内部就是手写循环

能力点Hugging Face——先会手写循环再用 Trainer，通往阶段5 的工具桥梁