索引

所有章节

从分词到对齐。每章至少包含一个交互式可视化。

I模型解剖
  1. 01

    基础

    一次预测一个词

    什么是语言模型?为什么预测下一个词就足以使智能涌现。

    6 min
  2. 02

    分词

    从文本到标记

    文本如何变成数字。BPE、子词,以及为什么大语言模型难以计算字母数量。

    8 min
  3. 03

    嵌入

    意义的空间

    几何空间中的词语。国王 − 男人 + 女人 = 女王,以及其他向量奇迹。

    10 min
  4. 04

    注意力

    注意力机制就是一切

    改变一切的机制。每个标记如何关注所有其他标记以理解上下文。

    12 min
  5. 05

    架构

    完整的Transformer

    拼接各个部分:多头注意力、前馈网络、归一化、残差连接。

    14 min
II训练与对齐
  1. 06

    训练

    它如何学习

    损失函数、梯度下降、反向传播。以及为什么需要数十亿参数。

    10 min
  2. 07

    生成

    选择下一个词

    温度、top-ktop-p。将概率分布转化为文本的艺术。

    7 min
  3. 08

    对齐

    从原始模型到助手

    微调、RLHF、宪法AI。如何使大语言模型变得有用且无害。

    9 min
III生产中的模型
  1. 09

    上下文

    模型记住了什么

    上下文窗口:完美但有界的记忆。为什么ChatGPT会遗忘以及这意味着什么。

    8 min
  2. 10

    RAG

    读取你的文档

    大语言模型如何在不记忆的情况下访问数千页内容。嵌入、语义搜索、注入上下文。

    9 min
  3. 11

    智能体

    从回答的模型到行动的模型

    工具使用、ReAct循环、多步任务。大语言模型如何成为能够在世界中行动的智能体。

    10 min
  4. 12

    提示工程

    与LLM对话的艺术

    零样本、少样本、思维链、自一致性。为什么提示词的措辞会从根本上改变模型的输出。

    8 min
  5. 13

    幻觉

    为什么 LLMs 会编造

    校准、错误的笃定、应对措施。最常被诟病的现象背后的结构性机制——以及我们能为此做些什么。

    9 min
IV深入探索
  1. 14

    微调

    在不重新训练一切的情况下专业化模型

    LoRAQLoRASFT。如何通过训练0.1%的参数将通用模型适配到特定领域。

    9 min
  2. 15

    多模态

    当模型读取图像时

    块嵌入、ViT、CLIP。文本Transformer如何通过将图像视为标记网格而变成多模态。

    8 min
  3. 16

    评估

    我们如何知道一个模型更好?

    MMLU、HumanEval、LMSYS Arena。为什么测量大语言模型的智能很困难——以及为什么没有一个基准测试就足够了。

    8 min
  4. 17

    推理

    先思考,再回答

    思考tokens、扩展推理、思考预算。o1/o3类模型如何在回答之前生成隐藏的思维链。

    9 min
  5. 18

    推理

    为什么第2个 token 比第1个快

    KV 缓存与自回归生成。Prefill vs decode、TTFT,以及为什么缓存改变了一切。

    8 min
  6. 19

    扩展

    更大的模型总是更好吗?

    Kaplan 与 Chinchilla 的扩展法则。为什么 GPT-3 训练不足,以及每个参数 20 个 token 的最优比。

    9 min
  7. 20

    可解释性

    模型内部到底在做什么?

    电路、多义神经元、Sparse Autoencoders。Anthropic 与 DeepMind 如何打开黑盒。

    9 min
  8. 21

    扩散

    通过擦除噪声来生成图像

    Stable Diffusion、DALL-E、Midjourney。反向去噪过程、CLIP 的作用,以及为什么 U-Net 正在让位于 Transformer

    9 min
所有章节 · Step by Token