チャプター 16 · 評価 · 8 min
あるモデルが優れているとどうわかるか?
MMLU、HumanEval、LMSYS Arena。LLMの知性を測定することが難しい理由—そして単一のベンチマークでは不十分な理由。
モデルが優れているかどうか、どうやって知るのか?
シンプルな質問のように見える。答えは複雑だ。
ソートアルゴリズムなら簡単だ:正しくソートされているか?どのくらい速く?言語モデルにとって、「優れている」とは次のことを意味しうる:正確、誠実、役立つ、無害、面白い、簡潔、創造的……これらの性質が常に同じ方向を向いているわけではない。
LLMの評価はそれ自体が研究分野だ。すべてのベンチマークは何か真実を捉え、何か重要なことを見逃している。
自動化されたベンチマーク
MMLU——知識の幅
MMLU(Massive Multitask Language Understanding)は57の学術分野をテストする:医学、法律、化学、歴史、数学、哲学……四択の選択式問題で自動的に評価される。
教養ある人間の平均スコア:約90%。現在最良のモデルは88〜89%に達する。
何を測定するか:パラメータに蓄積された知識の幅。 何を見逃すか:本当に新しい状況についての推論能力、不確実性を認める能力、不適切に組み立てられた質問を検出する能力。
HumanEval——コード
164のPythonプログラミング問題。モデルが関数を生成し、自動化されたユニットテストが動作を確認する。標準的な指標は**pass@k**:問題ごとに k 個の候補解を生成し(多くの場合 k=1 または k=10)、少なくとも1つがテストを通れば成功とカウントする。pass@1 は信頼性を、pass@10 は素の能力を測る。
何を測定するか:よく定義された問題に対して機能するコードを生成する能力。 何を見逃すか:開発の現実——5万行のコードベースのバグを理解すること、リファクタリング、ドキュメント化。
MATH & GSM8K——数学
MATH:LaTeX形式の高校・競技レベルの数学問題12,500題。GSM8K:自然言語による算術問題8,500題。
何を測定するか:多段階の数学的推論。 何を見逃すか:数学的創造性、形式的証明、発見。
人間のベンチマーク:LMSYSアリーナ
アリーナは異なる。匿名の人間が2つのモデル(名前なしで表示)に任意の質問をし、両方の応答を読んで好みを選ぶ。ELOスコアはこれらの数千のデュエルから生まれる。
これが人間が実際に好むものを測定する唯一のベンチマークだ——その主観性をすべて込めて。理想的な長さ、トーン、フォーマット、ユーモア、知覚される誠実さ。
何を測定するか:全体的な人間の好み。 何を見逃すか:事実の正確さ(人間はどちらの回答が正しいか常に知っているわけではない)、専門的なタスク、再現性。
レーダーを探索してみよう
各軸はベンチマークである。モデルごとにプロファイルが異なる——コードに強くて長文推論に弱い、あるいはその逆。どのレーダーチャートも単独では結論を出せない:客観的なベンチマークと人間の好みを組み合わせる必要がある。
レーダーが明らかにすること
パターンをよく見てみよう:
圧倒的なモデルはない。 Claude 3.5 SonnetはHumanEvalとBBHでリードする。GPT-4oはアリーナとMATHで優位に立つ。Llama 3.1 70Bは競争力があるが、ほぼすべての点でプロプライエタリモデルに後れを取る。
アリーナと学術的ベンチマークは完璧には相関しない。 モデルはMMLUで優秀でありながらアリーナでは平均的であり得る——その逆もある。人間は学術的な正確さとは異なる何かを評価している。
ベンチマークは飽和しつつある。 MMLUは2020年には難しかった(GPT-3:43%)。2024年には、すべての主要モデルが82〜89%の間にある。差別化は別のところから来る。
評価の根本的な問題
データ汚染
訓練データにベンチマークの回答が含まれていれば、モデルは知らずに「カンニング」したことになる。MMLUのような公開データセットでは深刻な問題だ。
解決策:プライベートなベンチマーク、定期的に更新され、質問がオンラインに流通しないもの。大規模に維持するのは難しい。
ベンチマークのハッキング
一部のラボは、ベンチマークが測定すると想定されている能力のためにではなく、ベンチマーク自体のためにモデルを最適化する。モデルはMMLUの質問のフォーマットを認識することを学んでも、実際に内容を理解していないかもしれない。
これはグッドハートの問題だ:測定値が目標になると、それは良い測定値であることをやめる。
人間の好みの問題
アリーナにはバイアスがある:人間は短い答えの方が有用であるときでも、長くフォーマットされた応答(箇条書き、見出し、例)を好む傾向がある。アリーナのために最適化するモデルは冗長になる。
どのベンチマークも測定しないもの
- 曖昧な質問を検出して明確化を求める能力。
- 誠実さ:でっち上げる代わりに「分からない」と言えること。
- 長い会話での一貫性。
- 本当に新しい状況での因果推論。
- ユーザーのコンテキストへの適応。
これらの性質は自動的に測定するのが難しい——しかし、実際にはしばしば最も重要なものだ。
新しい評価パラダイムに向けて
研究はいくつかの方向を模索している:
LLM-as-a-judge(審判としてのLLM):強力なLLMを使って別のモデルの応答を評価する。スケーラブルだが循環的——審判のバイアスが評価を汚染する。
敵対的ベンチマーク:人間がモデルを積極的に騙そうとする。通常の条件下での能力だけでなく、堅牢性を測定する。
実タスク評価:
- SWE-Bench — 実在のコードベースの中で修正すべきGitHubのバグ。モデルはリポジトリとバグの記述を受け取り、テストを通すパッチを生成しなければならない。HumanEvalよりはるかに難しい。
- GAIA — 推論、ウェブ検索、ファイル操作を必要とする多段階の質問。エージェント能力を測定する。
- GPQA(Graduate-Level Google-Proof QA)— 物理、化学、生物の博士課程レベルの質問で、Google検索では答えられないように設計されている。推論するモデルと取得するモデルを区別する。
- ARC-AGI — 抽象的な視覚パズルで、新しい概念に対する一般的な推論を測定するように設計されている。2024年後半までは、人間レベルの閾値を超えたモデルはなかった。
- Humanity's Last Exam — 古典的なベンチマークが飽和しているような領域で、世界最高の研究者レベルの質問。
継続的な自動評価:モデルの進化を追跡するために継続的に新しい質問を生成するシステム。
黄金律
どんな単一のベンチマークも、モデルがあなたのユースケースに適しているかどうかを教えてくれない。
最良の評価は常に同じだ:あなた自身の実際のユースケースのデータセットを構築し、それでモデルを評価し、リーダーボードにとって重要なことではなく、あなたにとって重要なことで比較する。
ベンチマークはプロキシだ。唯一の本当のテストは、あなたの問題だ。
更新日