01 · 基础 · 6 min

一次预测一个词

什么是语言模型?为什么预测下一个词就足以使智能涌现。

最大的惊喜

现代人工智能最奇特的地方在于:大语言模型所做的一切,都建立在一种单一能力之上——预测下一个词

你给模型一个句子的开头:

"天空是蓝色的,因为……"

模型会从它认识的数千个词里,计算出哪一个最有可能出现在下一个位置。然后用这个新词重复这个过程。如此往复。仅此而已。

就从这个微小而机械的操作中,涌现出了一切:翻译、摘要、代码、量子物理讲解、笑话、诗歌。

为什么这行得通

要准确预测下一个词,你需要对这个世界有深刻的理解。

考虑这个句子:

"医生解雇了护士,因为……"

要猜测后面会说什么,模型必须知道"她"很可能指的是护士(而非医生)——它必须理解语法、上下文,乃至医疗行业的社会习俗。

预测词语,意味着对产生这些词语的世界进行建模。

这就是核心思想。强迫一个系统大规模地预测人类文本,就迫使它隐式地学习产生这些文本的世界是如何运作的。

一个分布,而非一个词

当我们说"模型预测下一个词"时,这只是一种简化说法。实际上,在每一步,模型会对整个词表产生一个概率分布:每个 Token 都会获得一个分数,所有分数加起来等于 1。

为了生成文本,你必须从这个分布中选择一个 Token。这才是有趣的地方:同一个模型、同样的提示词,根据不同的采样策略,可以生成截然不同的文本。

在每一步,模型都会在所有词元上给出一个概率分布。最高的那一根柱子很少是唯一合理的候选——这正是让文本的延续保持开放、而非机械的关键。

上面有三个可以调节的旋钮:

  • Temperature(温度) — 在 softmax 之前对 logit 进行缩放。在低温度(0.1–0.3)下,分布集中在最可能的候选词上:模型变得可预测,几乎是确定性的。在高温度(1.5–2.0)下,分布趋于平坦:那些冷门选项重新变得可信。
  • Top-k — 只保留概率最高的 k 个候选词,排除那些罕见选项构成的长尾。
  • Top-p核采样)— 保留累积概率超过 p 的最小集合。比 top-k 更智能:如果某一步有显而易见的答案,p 可以只保留 1 个候选;如果模型在 20 个接近的选项间犹豫,则全部保留。

试试首都提示词。分布极度集中于"北京",以至于温度几乎没有效果:你需要将温度调到 1.8 以上,其他选项才有机会出现。模型对此胸有成竹

相比之下,在天空提示词的第二步,有好几种延续都说得通("颜色"、"光"、"大海"……)——这才是温度真正改变结果的地方。

驱动一切的循环

LLM 做的所有事情,都可以归纳为这个循环:

  1. 读取上下文(已有的 Token 序列)。
  2. 对下一个 Token 生成概率分布。
  3. 从这个分布中采样一个 Token
  4. 将其添加到上下文中。重复。

这个过程机械、重复,说起来枯燥无味。然而,在一个拥有数千亿参数的模型上执行数十亿次之后,这个循环产生了对话、演示、可以编译的代码。

本站规划

整个旅程被组织成四个部分,从最机械的环节走向最完整的形态。

I. 模型解剖。 我们把这台机器拆开来看。词元化、词嵌入、注意力、Transformer——文本是如何变成一串可被变换的向量的。

II. 训练与对齐。 这数十亿个参数究竟是怎么学会的。损失函数、梯度、采样、RLHF——从一个随机的模型,走到一个有用的助手。

III. 生产中的模型。 当你向 ChatGPT 或 Claude 发送一个提示词时,背后发生了什么。上下文窗口、RAG、智能体——让 LLM 在日常中真正可用的基础设施。

IV. 深入探索。 当前研究正在攻关的话题。微调、多模态、扩展推理、扩展定律、可解释性、扩散——理解这一切将走向何方。

每个章节至少包含一个交互式可视化。目标不是让你记住公式,而是让你对内部发生的事情建立起机械直觉

出发。

更新于

一次又一次地预测下一个词 · Step by Token