索引

所有章节

从分词到对齐。每章至少包含一个交互式可视化。

I模型解剖

II训练与对齐

III生产中的模型

IV深入探索

14
微调
在不重新训练一切的情况下专业化模型
LoRA、QLoRA、SFT。如何通过训练0.1%的参数将通用模型适配到特定领域。
9 min
15
多模态
当模型读取图像时
块嵌入、ViT、CLIP。文本Transformer如何通过将图像视为标记网格而变成多模态。
8 min
16
评估
我们如何知道一个模型更好？
MMLU、HumanEval、LMSYS Arena。为什么测量大语言模型的智能很困难——以及为什么没有一个基准测试就足够了。
8 min
17
推理
先思考，再回答
思考tokens、扩展推理、思考预算。o1/o3类模型如何在回答之前生成隐藏的思维链。
9 min
18
推理
为什么第2个 token 比第1个快
KV 缓存与自回归生成。Prefill vs decode、TTFT，以及为什么缓存改变了一切。
8 min
19
扩展
更大的模型总是更好吗？
Kaplan 与 Chinchilla 的扩展法则。为什么 GPT-3 训练不足，以及每个参数 20 个 token 的最优比。
9 min
20
可解释性
模型内部到底在做什么？
电路、多义神经元、Sparse Autoencoders。Anthropic 与 DeepMind 如何打开黑盒。
9 min
21
扩散
通过擦除噪声来生成图像
Stable Diffusion、DALL-E、Midjourney。反向去噪过程、CLIP 的作用，以及为什么 U-Net 正在让位于 Transformer。
9 min

所有章节 · Step by Token