Kapitel 16 · Evaluierung · 8 min

Woher wissen wir, dass ein Modell besser ist?

MMLU, HumanEval, LMSYS Arena. Warum die Messung der Intelligenz eines LLM schwierig ist — und warum kein einzelner Benchmark ausreicht.

Wie weiß man, ob ein Modell gut ist?

Das ist eine Frage, die einfach klingt. Die Antwort ist kompliziert.

Bei einem Sortieralgorithmus ist es einfach: Sortiert er korrekt? In wie viel Zeit? Bei einem Sprachmodell kann „gut" bedeuten: präzise, ehrlich, nützlich, harmlos, witzig, prägnant, kreativ… und diese Eigenschaften zeigen nicht immer in dieselbe Richtung.

Die Evaluation von LLMs ist ein eigenständiges Forschungsgebiet. Jeder Benchmark erfasst etwas Wahres und verfehlt etwas Wichtiges.

Automatische Benchmarks

MMLU — Die Breite des Wissens

MMLU (Massive Multitask Language Understanding) testet 57 akademische Disziplinen: Medizin, Jura, Chemie, Geschichte, Mathematik, Philosophie… Das sind Multiple-Choice-Fragen mit vier Antworten, automatisch bewertet.

Durchschnittliche Punktzahl eines gut ausgebildeten Menschen: ~90 %. Die besten aktuellen Modelle erreichen 88–89 %.

Was es misst: die Breite des in den Parametern gespeicherten Wissens.
Was es verfehlt: die Fähigkeit, über neue Situationen nachzudenken, Unsicherheit einzugestehen, eine schlecht gestellte Frage zu erkennen.

HumanEval — Code

164 Python-Programmierprobleme. Das Modell generiert eine Funktion, automatische Unit-Tests prüfen, ob sie funktioniert. Die Standardmetrik ist pass@k : Man generiert k Lösungsvorschläge pro Problem (oft k=1 oder k=10) und zählt einen Erfolg, sobald mindestens einer die Tests besteht. pass@1 misst die Zuverlässigkeit, pass@10 die rohe Fähigkeit.

Was es misst: die Fähigkeit, funktionierenden Code für gut definierte Probleme zu produzieren.
Was es verfehlt: die Realität der Entwicklung — einen Bug in einer 50.000-Zeilen-Codebase verstehen, refaktorieren, dokumentieren.

MATH & GSM8K — Mathematik

MATH: 12.500 Mathematikprobleme auf Oberstufen-/Wettbewerbsniveau, in LaTeX. GSM8K: 8.500 arithmetische Probleme in natürlicher Sprache.

Was es misst: mathematisches Denken in mehreren Schritten.
Was es verfehlt: mathematische Kreativität, formale Beweise, Entdeckung.

Der menschliche Benchmark: LMSYS Arena

Die Arena ist anders. Anonyme Menschen stellen beliebige Fragen an zwei Modelle (ohne Namen angezeigt), lesen beide Antworten und wählen ihre Präferenz. Der ELO-Score resultiert aus Tausenden dieser Duelle.

Das ist der einzige Benchmark, der misst, was Menschen wirklich bevorzugen — in all ihrer Subjektivität. Ideale Länge, Ton, Format, Humor, wahrgenommene Ehrlichkeit.

Was es misst: die globale menschliche Präferenz.
Was es verfehlt: faktische Genauigkeit (Menschen wissen nicht immer, welche Antwort korrekt ist), spezialisierte Aufgaben, Reproduzierbarkeit.

Erkunde das Radar

Hier sind fünf große Modelle auf sechs Benchmarks verglichen. Klicke auf ein Modell, um seine Detailwerte zu sehen, oder auf einen Benchmark, um zu verstehen, was er bewertet.

Jede Achse ist ein Benchmark. Modelle haben unterschiedliche Profile — stark im Code, schwach beim langen Reasoning, oder umgekehrt. Kein einzelnes Radar liefert das endgültige Urteil: man muss objektive Benchmarks und menschliche Präferenzen kombinieren.

Was das Radar enthüllt

Schau dir die Muster genau an:

Kein dominantes Modell. Claude 3.5 Sonnet führt bei HumanEval und BBH. GPT-4o dominiert Arena und MATH. Llama 3.1 70B ist wettbewerbsfähig, aber bei fast allem unter den proprietären Modellen.

Arena und akademische Benchmarks korrelieren nicht perfekt. Ein Modell kann bei MMLU hervorragend und bei Arena mittelmäßig sein — und umgekehrt. Menschen schätzen andere Dinge als akademische Präzision.

Die Benchmarks sättigen sich. MMLU war 2020 schwierig (GPT-3: 43 %). 2024 liegen alle großen Modelle zwischen 82 und 89 %. Die Differenzierung kommt von woanders.

Die grundlegenden Probleme der Evaluation

Datenkontamination

Wenn die Trainingsdaten die Antworten der Benchmarks enthalten, hat das Modell „geschummelt", ohne es zu wissen. Das ist ein ernstes Problem mit öffentlichen Datensätzen wie MMLU.

Die Lösung: private Benchmarks, regelmäßig aktualisiert, deren Fragen nicht online kursieren. Schwierig im großen Maßstab zu pflegen.

Benchmark Hacking

Manche Labs optimieren ihre Modelle auf die Benchmarks statt für die Fähigkeiten, die sie messen sollen. Ein Modell kann lernen, das Format einer MMLU-Frage zu erkennen, ohne den Stoff wirklich zu verstehen.

Das ist das Goodhart-Problem: Wenn eine Messung zum Ziel wird, hört sie auf, eine gute Messung zu sein.

Die Frage der menschlichen Präferenz

Die Arena leidet unter einer Verzerrung: Menschen tendieren dazu, lange und formatierte Antworten (Aufzählungspunkte, Titel, Beispiele) zu bevorzugen, selbst wenn eine kurze Antwort nützlicher wäre. Modelle, die lernen, die Arena zu optimieren, werden geschwätzig.

Was kein Benchmark misst

Die Fähigkeit, eine mehrdeutige Frage zu erkennen und um Klarstellung zu bitten.
Ehrlichkeit: „Ich weiß es nicht" sagen statt erfinden.
Kohärenz über lange Gespräche.
Kausales Denken in wirklich neuen Situationen.
Anpassung an den Nutzerkontext.

Diese Qualitäten sind schwer automatisch zu messen — und doch sind es oft die, die in der Praxis am meisten zählen.

Hin zu neuen Evaluationsparadigmen

Die Forschung erkundet mehrere Richtungen:

LLM-as-a-Judge: Ein leistungsfähiges LLM nutzen, um die Antworten eines anderen zu bewerten. Skalierbar, aber zirkulär — die Verzerrungen des Richters kontaminieren die Evaluation.

Adversarielle Benchmarks: Menschen suchen aktiv nach Wegen, Modelle zu täuschen. Messen die Robustheit, nicht nur die Fähigkeiten unter normalen Bedingungen.

Evaluation durch echte Aufgaben:

SWE-Bench — echte GitHub-Bugs, die in bestehenden Codebases zu beheben sind. Das Modell erhält ein Repository, eine Bug-Beschreibung und muss einen Patch erstellen, der die Tests besteht. Viel schwieriger als HumanEval.
GAIA — mehrstufige Fragen, die Reasoning, Websuche und Dateimanipulation erfordern. Misst die agentische Fähigkeit.
GPQA (Graduate-Level Google-Proof QA) — Fragen aus Physik, Chemie und Biologie auf Doktorandenniveau, so konzipiert, dass man sie nicht per Google-Suche beantworten kann. Unterscheidet Modelle, die denken, von solchen, die abrufen.
ARC-AGI — abstrakte visuelle Puzzles, konzipiert, um allgemeines Reasoning auf neuen Konzepten zu messen. Bis Ende 2024 hatte kein Modell die menschliche Schwelle überschritten.
Humanity's Last Exam — Fragen auf dem Niveau der besten Weltforscher, in Bereichen, in denen klassische Benchmarks gesättigt sind.

Kontinuierliche und automatische Evaluation: Systeme, die kontinuierlich neue Fragen generieren, um die Entwicklung der Modelle zu verfolgen.

Die goldene Regel

Kein einzelner Benchmark sagt dir, ob ein Modell für deinen Anwendungsfall geeignet ist.

Die beste Evaluation bleibt immer dieselbe: Erstelle einen Datensatz deiner eigenen realen Anwendungsfälle, evaluiere die Modelle darauf und vergleiche das, was für dich zählt — nicht das, was für Rankings zählt.

Benchmarks sind Proxies. Der einzige echte Test ist dein Problem.

Aktualisiert am 10. Mai 2026