第 16 · 评估 · 8 min

我们如何知道一个模型更好？

MMLU、HumanEval、LMSYS Arena。为什么测量大语言模型的智能很困难——以及为什么没有一个基准测试就足够了。

怎样判断一个模型是好的？

这看起来是个简单的问题，答案却很复杂。

对于排序算法，衡量标准很清晰：它排序正确吗？速度如何？对于语言模型，"好"可能意味着：准确、诚实、有帮助、无害、幽默、简洁、有创造力……而这些品质并不总是指向同一个方向。

评估大语言模型本身就是一个独立的研究领域。每个基准都捕捉到了某些真实的东西，同时也遗漏了某些重要的东西。

自动化基准测试

MMLU — 知识广度

MMLU（大规模多任务语言理解）测试 57 个学科：医学、法律、化学、历史、数学、哲学……这些都是四选一的多项选择题，由机器自动评分。

受过良好教育的人类平均得分约为 90%。目前最好的模型能达到 88–89%。

它衡量的是：存储在参数中的知识广度。它遗漏的是：在真正全新的情境下推理的能力、承认不确定性的能力、发现问题本身描述有误的能力。

HumanEval — 代码能力

164 道 Python 编程题。模型生成函数，自动化单元测试验证其是否正确运行。标准指标是 pass@k：对每道题生成 k 个候选解（通常 k=1 或 k=10），只要其中至少有一个通过测试就算成功。pass@1 衡量的是可靠性，pass@10 衡量的是模型的原始能力上限。

它衡量的是：在定义明确的问题上生成可用代码的能力。它遗漏的是：真实开发的现实——理解 5 万行代码库中的一个 Bug、重构、编写文档。

MATH 与 GSM8K — 数学推理

MATH：12,500 道高中和竞赛级数学题，以 LaTeX 格式呈现。GSM8K：8,500 道自然语言描述的算术题。

它衡量的是：多步骤数学推理。它遗漏的是：数学创造力、形式化证明、数学发现。

人类基准：LMSYS Arena

Arena 的方式与众不同。匿名用户向两个模型（不显示名称）提问，阅读两个回答，然后选择更喜欢哪一个。ELO 分数由数千次这样的对决产生。

这是唯一真正衡量人类实际偏好的基准——带着全部的主观性：理想的长度、语气、格式、幽默感、感知到的诚实度。

它衡量的是：整体人类偏好。它遗漏的是：事实准确性（人类并不总是知道哪个答案是对的）、专业任务、可复现性。

探索雷达图

以下是五个主要模型在六个基准上的对比。点击某个模型查看其详细得分，或点击某个基准了解它衡量的是什么。

每条轴是一个基准。不同模型有不同的画像——擅长代码却不擅长长链推理，或者相反。没有一张雷达图能给出最终结论：必须把客观基准和人类偏好结合起来才能判断 LLM。

雷达图揭示了什么

仔细观察这些模式：

没有全面领先的模型。 Claude 3.5 Sonnet 在 HumanEval 和 BBH 上领先，GPT-4o 在 Arena 和 MATH 上占优，Llama 3.1 70B 具有竞争力，但在几乎所有指标上都略落后于闭源模型。

Arena 与学术基准并不完全相关。 一个模型可能在 MMLU 上表现优异，却在 Arena 上平平无奇——反之亦然。人类欣赏的东西与学术准确性并不一样。

基准正在饱和。 MMLU 在 2020 年时很难（GPT-3 得分 43%）。到 2024 年，所有主要模型都在 82 到 89% 之间。差异化需要来自其他地方。

评估的根本性问题

数据污染

如果训练数据包含了基准测试的答案，模型就在"不知情的情况下作弊"了。对于像 MMLU 这样的公开数据集，这是一个严峻的问题。

解决方案：私有基准，定期更新，题目不在网络上流传。在规模上难以维护。

基准劫持

有些实验室会让模型直接针对基准测试进行优化，而不是真正提升它们本应衡量的能力。模型可能学会识别 MMLU 题目的格式，却并不真正理解内容。

这就是古德哈特定律（Goodhart's Law）的问题：当一个指标成为目标，它就不再是好的指标了。

人类偏好的偏差

Arena 有一个内在偏差：人类倾向于偏好长且格式化的回答（要点列表、标题、示例），即使一个简短的回答会更有用。针对 Arena 优化的模型往往变得啰嗦。

没有任何基准衡量的东西

识别出问题表述模糊并主动寻求澄清的能力。
诚实：知道说"我不知道"而不是凭空编造。
在长对话中保持一致性。
在真正全新的情境下进行因果推理。
适应用户的具体情境。

这些品质很难自动化衡量——然而它们在实践中往往是最重要的。

迈向新的评估范式

研究正在探索几个方向：

LLM 作为评判者：用一个强大的 LLM 来评估另一个模型的回答。可扩展，但存在循环性——评判者自身的偏见会污染评估结果。

对抗性基准：人类主动尝试欺骗模型。衡量鲁棒性，而不仅仅是正常条件下的能力。

真实任务评估：

SWE-Bench —— 真实的 GitHub bug，要在真实的代码仓库里修。模型拿到一个仓库、一段 bug 描述，必须给出一个能通过测试的补丁。比 HumanEval 难得多。
GAIA —— 多步骤的问题，需要推理、网页搜索、文件操作。衡量的是智能体能力。
GPQA（Graduate-Level Google-Proof QA）—— 物理、化学、生物的博士级别问题，专门设计成不能靠 Google 搜出来。把真正在推理的模型和只是在检索的模型区分开。
ARC-AGI —— 抽象的视觉谜题，专门用来衡量模型在全新概念上的通用推理能力。直到 2024 年底才有模型越过人类基准线。
Humanity's Last Exam —— 世界顶尖研究者水平的题目，专门用于那些经典基准已经饱和的领域。

持续自动化评估：不断生成新问题以追踪模型演变的系统。

黄金法则

没有任何单一基准能告诉你某个模型是否适合你的使用场景。

最好的评估方式始终如一：建立一个包含你自己真实用例的数据集，在上面评估模型，并依据对你重要的指标进行比较——而不是根据排行榜上重要的指标。

基准是代理指标。真正的测试只有一个：你自己的问题。

更新于 2026年5月10日