第 16 · 评估 · 8 min
我们如何知道一个模型更好?
MMLU、HumanEval、LMSYS Arena。为什么测量大语言模型的智能很困难——以及为什么没有一个基准测试就足够了。
怎样判断一个模型是好的?
这看起来是个简单的问题,答案却很复杂。
对于排序算法,衡量标准很清晰:它排序正确吗?速度如何?对于语言模型,"好"可能意味着:准确、诚实、有帮助、无害、幽默、简洁、有创造力……而这些品质并不总是指向同一个方向。
评估大语言模型本身就是一个独立的研究领域。每个基准都捕捉到了某些真实的东西,同时也遗漏了某些重要的东西。
自动化基准测试
MMLU — 知识广度
MMLU(大规模多任务语言理解)测试 57 个学科:医学、法律、化学、历史、数学、哲学……这些都是四选一的多项选择题,由机器自动评分。
受过良好教育的人类平均得分约为 90%。目前最好的模型能达到 88–89%。
它衡量的是:存储在参数中的知识广度。 它遗漏的是:在真正全新的情境下推理的能力、承认不确定性的能力、发现问题本身描述有误的能力。
HumanEval — 代码能力
164 道 Python 编程题。模型生成函数,自动化单元测试验证其是否正确运行。标准指标是 pass@k:对每道题生成 k 个候选解(通常 k=1 或 k=10),只要其中至少有一个通过测试就算成功。pass@1 衡量的是可靠性,pass@10 衡量的是模型的原始能力上限。
它衡量的是:在定义明确的问题上生成可用代码的能力。 它遗漏的是:真实开发的现实——理解 5 万行代码库中的一个 Bug、重构、编写文档。
MATH 与 GSM8K — 数学推理
MATH:12,500 道高中和竞赛级数学题,以 LaTeX 格式呈现。GSM8K:8,500 道自然语言描述的算术题。
它衡量的是:多步骤数学推理。 它遗漏的是:数学创造力、形式化证明、数学发现。
人类基准:LMSYS Arena
Arena 的方式与众不同。匿名用户向两个模型(不显示名称)提问,阅读两个回答,然后选择更喜欢哪一个。ELO 分数由数千次这样的对决产生。
这是唯一真正衡量人类实际偏好的基准——带着全部的主观性:理想的长度、语气、格式、幽默感、感知到的诚实度。
它衡量的是:整体人类偏好。 它遗漏的是:事实准确性(人类并不总是知道哪个答案是对的)、专业任务、可复现性。
探索雷达图
以下是五个主要模型在六个基准上的对比。点击某个模型查看其详细得分,或点击某个基准了解它衡量的是什么。
每条轴是一个基准。不同模型有不同的画像——擅长代码却不擅长长链推理,或者相反。没有一张雷达图能给出最终结论:必须把客观基准和人类偏好结合起来才能判断 LLM。
雷达图揭示了什么
仔细观察这些模式:
没有全面领先的模型。 Claude 3.5 Sonnet 在 HumanEval 和 BBH 上领先,GPT-4o 在 Arena 和 MATH 上占优,Llama 3.1 70B 具有竞争力,但在几乎所有指标上都略落后于闭源模型。
Arena 与学术基准并不完全相关。 一个模型可能在 MMLU 上表现优异,却在 Arena 上平平无奇——反之亦然。人类欣赏的东西与学术准确性并不一样。
基准正在饱和。 MMLU 在 2020 年时很难(GPT-3 得分 43%)。到 2024 年,所有主要模型都在 82 到 89% 之间。差异化需要来自其他地方。
评估的根本性问题
数据污染
如果训练数据包含了基准测试的答案,模型就在"不知情的情况下作弊"了。对于像 MMLU 这样的公开数据集,这是一个严峻的问题。
解决方案:私有基准,定期更新,题目不在网络上流传。在规模上难以维护。
基准劫持
有些实验室会让模型直接针对基准测试进行优化,而不是真正提升它们本应衡量的能力。模型可能学会识别 MMLU 题目的格式,却并不真正理解内容。
这就是古德哈特定律(Goodhart's Law)的问题:当一个指标成为目标,它就不再是好的指标了。
人类偏好的偏差
Arena 有一个内在偏差:人类倾向于偏好长且格式化的回答(要点列表、标题、示例),即使一个简短的回答会更有用。针对 Arena 优化的模型往往变得啰嗦。
没有任何基准衡量的东西
- 识别出问题表述模糊并主动寻求澄清的能力。
- 诚实:知道说"我不知道"而不是凭空编造。
- 在长对话中保持一致性。
- 在真正全新的情境下进行因果推理。
- 适应用户的具体情境。
这些品质很难自动化衡量——然而它们在实践中往往是最重要的。
迈向新的评估范式
研究正在探索几个方向:
LLM 作为评判者:用一个强大的 LLM 来评估另一个模型的回答。可扩展,但存在循环性——评判者自身的偏见会污染评估结果。
对抗性基准:人类主动尝试欺骗模型。衡量鲁棒性,而不仅仅是正常条件下的能力。
真实任务评估:
- SWE-Bench —— 真实的 GitHub bug,要在真实的代码仓库里修。模型拿到一个仓库、一段 bug 描述,必须给出一个能通过测试的补丁。比 HumanEval 难得多。
- GAIA —— 多步骤的问题,需要推理、网页搜索、文件操作。衡量的是智能体能力。
- GPQA(Graduate-Level Google-Proof QA)—— 物理、化学、生物的博士级别问题,专门设计成不能靠 Google 搜出来。把真正在推理的模型和只是在检索的模型区分开。
- ARC-AGI —— 抽象的视觉谜题,专门用来衡量模型在全新概念上的通用推理能力。直到 2024 年底才有模型越过人类基准线。
- Humanity's Last Exam —— 世界顶尖研究者水平的题目,专门用于那些经典基准已经饱和的领域。
持续自动化评估:不断生成新问题以追踪模型演变的系统。
黄金法则
没有任何单一基准能告诉你某个模型是否适合你的使用场景。
最好的评估方式始终如一:建立一个包含你自己真实用例的数据集,在上面评估模型,并依据对你重要的指标进行比较——而不是根据排行榜上重要的指标。
基准是代理指标。真正的测试只有一个:你自己的问题。
更新于