第 01 · 基础 · 6 min

一次预测一个词

什么是语言模型？为什么预测下一个词就足以使智能涌现。

最大的惊喜

现代人工智能最奇特的地方在于：大语言模型所做的一切，都建立在一种单一能力之上——预测下一个词。

你给模型一个句子的开头：

"天空是蓝色的，因为……"

模型会从它认识的数千个词里，计算出哪一个最有可能出现在下一个位置。然后用这个新词重复这个过程。如此往复。仅此而已。

就从这个微小而机械的操作中，涌现出了一切：翻译、摘要、代码、量子物理讲解、笑话、诗歌。

要准确预测下一个词，你需要对这个世界有深刻的理解。

考虑这个句子：

"医生解雇了护士，因为她……"

要猜测后面会说什么，模型必须知道"她"很可能指的是护士（而非医生）——它必须理解语法、上下文，乃至医疗行业的社会习俗。

预测词语，意味着对产生这些词语的世界进行建模。

这就是核心思想。强迫一个系统大规模地预测人类文本，就迫使它隐式地学习产生这些文本的世界是如何运作的。

当我们说"模型预测下一个词"时，这只是一种简化说法。实际上，在每一步，模型会对整个词表产生一个概率分布：每个 Token 都会获得一个分数，所有分数加起来等于 1。

为了生成文本，你必须从这个分布中选择一个 Token。这才是有趣的地方：同一个模型、同样的提示词，根据不同的采样策略，可以生成截然不同的文本。

在每一步，模型都会在所有词元上给出一个概率分布。最高的那一根柱子很少是唯一合理的候选——这正是让文本的延续保持开放、而非机械的关键。

上面有三个可以调节的旋钮：

Temperature（温度） — 在 softmax 之前对 logit 进行缩放。在低温度（0.1–0.3）下，分布集中在最可能的候选词上：模型变得可预测，几乎是确定性的。在高温度（1.5–2.0）下，分布趋于平坦：那些冷门选项重新变得可信。
Top-k — 只保留概率最高的 k 个候选词，排除那些罕见选项构成的长尾。
Top-p（核采样）— 保留累积概率超过 p 的最小集合。比 top-k 更智能：如果某一步有显而易见的答案，p 可以只保留 1 个候选；如果模型在 20 个接近的选项间犹豫，则全部保留。

试试首都提示词。分布极度集中于"北京"，以至于温度几乎没有效果：你需要将温度调到 1.8 以上，其他选项才有机会出现。模型对此胸有成竹。

相比之下，在天空提示词的第二步，有好几种延续都说得通（"颜色"、"光"、"大海"……）——这才是温度真正改变结果的地方。

LLM 做的所有事情，都可以归纳为这个循环：

这个过程机械、重复，说起来枯燥无味。然而，在一个拥有数千亿参数的模型上执行数十亿次之后，这个循环产生了对话、演示、可以编译的代码。

整个旅程被组织成四个部分，从最机械的环节走向最完整的形态。

I. 模型解剖。 我们把这台机器拆开来看。词元化、词嵌入、注意力、Transformer——文本是如何变成一串可被变换的向量的。

II. 训练与对齐。 这数十亿个参数究竟是怎么学会的。损失函数、梯度、采样、RLHF——从一个随机的模型，走到一个有用的助手。

III. 生产中的模型。 当你向 ChatGPT 或 Claude 发送一个提示词时，背后发生了什么。上下文窗口、RAG、智能体——让 LLM 在日常中真正可用的基础设施。

IV. 深入探索。 当前研究正在攻关的话题。微调、多模态、扩展推理、扩展定律、可解释性、扩散——理解这一切将走向何方。

每个章节至少包含一个交互式可视化。目标不是让你记住公式，而是让你对内部发生的事情建立起机械直觉。

出发。

更新于 2026年5月10日