目录
21 / 21 · 189 分钟I模型解剖
II训练与对齐
III生产中的模型
IV深入探索
- 149 min
在不重新训练一切的情况下专业化模型
LoRA、QLoRA、SFT。如何通过训练0.1%的参数将通用模型适配到特定领域。
- 158 min
当模型读取图像时
块嵌入、ViT、CLIP。文本Transformer如何通过将图像视为标记网格而变成多模态。
- 168 min
我们如何知道一个模型更好?
MMLU、HumanEval、LMSYS Arena。为什么测量大语言模型的智能很困难——以及为什么没有一个基准测试就足够了。
- 179 min
先思考,再回答
思考tokens、扩展推理、思考预算。o1/o3类模型如何在回答之前生成隐藏的思维链。
- 188 min
为什么第2个 token 比第1个快
KV 缓存与自回归生成。Prefill vs decode、TTFT,以及为什么缓存改变了一切。
- 199 min
更大的模型总是更好吗?
Kaplan 与 Chinchilla 的扩展法则。为什么 GPT-3 训练不足,以及每个参数 20 个 token 的最优比。
- 209 min
模型内部到底在做什么?
电路、多义神经元、Sparse Autoencoders。Anthropic 与 DeepMind 如何打开黑盒。
- 219 min
通过擦除噪声来生成图像
Stable Diffusion、DALL-E、Midjourney。反向去噪过程、CLIP 的作用,以及为什么 U-Net 正在让位于 Transformer。