Kapitel 19 · Skalierung · 9 min

Größer, immer besser?

Die Skalierungsgesetze von Kaplan und Chinchilla. Warum GPT-3 unterbelastet war und das optimale Verhältnis von 20 Tokens pro Parameter.

Eine trügerische Intuition

Jahrelang lebte die KI-Industrie von einer einfachen Überzeugung: Ein doppelt so großes Modell ist besser. GPT-2 (1,5 Milliarden Parameter) wurde von GPT-3 (175 Milliarden) überholt. PaLM, Megatron, Gopher — der Wettlauf um die Parameter schien endlos.

Dann veröffentlichte 2022 ein Team von DeepMind ein Paper, das alles veränderte. Ihre These: Die großen Modelle dieser Zeit waren massiv untertrainiert. Nicht zu klein — sondern unterversorgt mit Daten.

Das Modell, das diese These bewies, hieß Chinchilla.

Das Kaplan'sche Gesetz: die erste Formulierung

2020 veröffentlicht OpenAI ein Paper von Jared Kaplan und Kollegen — „Scaling Laws for Neural Language Models" —, das etwas Bemerkenswertes zeigt. Über Dutzende von Modellen, die in unterschiedlichen Größen trainiert wurden, folgt der Validation Loss einem einfachen Potenzgesetz:

L ≈ L∞ + (C₀ / C)^α

Die Formel entschlüsselt:

  • C — das gesamte Compute, das ins Training fließt (in FLOPs).
  • L — der finale Validation Loss.
  • L∞ — der irreduzible Loss: die Untergrenze, unter die man selbst mit unendlichem Compute nicht kommen kann. Das ist die natürliche Entropie der menschlichen Sprache — es gibt immer einen Anteil Unvorhersagbarkeit beim nächsten Wort.
  • C₀ — eine Normalisierungskonstante, die von der Architektur abhängt.
  • α ≈ 0,05 — der Exponent des Potenzgesetzes.

Klar gesagt: Eine Verdopplung des Compute reduziert den Loss um eine vorhersagbare Größe. Das Gesetz ist erstaunlich robust über 7 Größenordnungen.

Kaplan zieht daraus einen Schluss, der die Industrie zwei Jahre lang leiten wird: Bei gegebenem Compute-Budget verteile den Großteil auf die Modellgröße, wenig auf die Daten.

Genau das hat OpenAI mit GPT-3 gemacht. 175 Milliarden Parameter, aber „nur" 300 Milliarden Trainings-Tokens.

Chinchilla wirft alles um

2022 wiederholen Hoffmann et al. (DeepMind) das Experiment mit einer anderen Methodik. Statt die Modellgröße zu fixieren und das Compute zu variieren, erkunden sie systematisch die Ebene (N, D) bei konstantem Compute.

Ihre Schlussfolgerung widerspricht Kaplan direkt: N und D sollten gleich schnell wachsen. Um den Loss bei gegebenem Compute-Budget zu minimieren, muss man ein Modell bescheidener Größe auf vielen Daten trainieren.

Genauer gesagt ist das optimale Verhältnis:

D ≈ 20 × N

Für ein Modell mit 70 Milliarden Parametern liegt das Optimum bei etwa 1,4 Billionen Tokens. GPT-3 (175 Milliarden Parameter, 300 Milliarden Tokens) hatte ein Verhältnis von 1,7 — zwanzigmal weniger als das Optimum.

DeepMind hat es bewiesen, indem es Chinchilla trainierte: 70 Milliarden Parameter, 1,4 Billionen Tokens. Kleiner als GPT-3, mehr Tokens, und besser auf allen Benchmarks.

Die Compute-Karte

Im Log-Log-Diagramm sinkt der Loss als Potenzgesetz mit dem Compute. Die Slider N (Parameter) und D (Tokens) zeigen die Iso-Compute-Kurve: für ein gegebenes Budget gibt es ein optimales N/D-Verhältnis — laut Chinchilla rund 20 Tokens pro Parameter.

Verschiebe den Punkt, um die Ebene (N, D) zu erkunden. Die Chinchilla-Diagonale ist die Linie, auf der jeder Compute-Dollar optimal ausgegeben wird. Darüber hat man ein zu kleines Modell zu lange trainiert; darunter das Gegenteil.

Du wirst etwas Interessantes bemerken: LLaMA-3 liegt deutlich oberhalb der Diagonale. Mit 70 Milliarden Parametern, trainiert auf 15 Billionen Tokens, hat es ein Verhältnis von 214 — zehnmal mehr als das Chinchilla-Optimum.

Warum? Weil Meta für etwas anderes als die Effizienz des Trainings-Compute optimiert hat. Sie haben für die Inferenzkosten optimiert. Ein kleineres Modell, das länger trainiert wird, kostet (etwas) mehr im Training, aber viel weniger im Produktionsbetrieb. Über Milliarden von Anfragen ist die Ersparnis gewaltig.

Über die Parameter hinaus: Datenqualität

Die Scaling Laws sind nicht das Ende der Geschichte. Mehrere Grenzen treten zutage.

Die verfügbare Datenmenge ist endlich. Common Crawl, Wikipedia, GitHub, ArXiv, gescannte Bücher — der Bestand qualitativ hochwertiger Textdaten im Internet ist nicht unendlich. Mehrere Teams schätzen, dass wir uns der Mauer nähern: Ein Modell mit 1 Billion Parametern am Chinchilla-Optimum zu trainieren würde 20 Billionen Tokens erfordern, was die sauberen öffentlichen Korpora bei Weitem übersteigt.

Qualität schlägt Quantität, aber nur bis zu einem Punkt. Einen Korpus zu filtern, um nur qualitativ hochwertige Daten zu behalten (Lehrbücher, Fachbücher, sauberen Code), verbessert das Modell mehr als das Hinzufügen mittelmäßiger Daten. Aber zu aggressives Filtern verarmt am Ende die Verteilung und schadet der Generalisierung.

Emergente Fähigkeiten verzerren die Kurve. Bei bestimmten Aufgaben (mehrstufiges Reasoning, komplexe Mathematik, seltene Anweisungen) bleibt die Leistung flach bis zu einer bestimmten Größenschwelle — und steigt dann abrupt. Diese „Emergent Abilities" sind umstritten: Einige Forscher (Schaeffer et al., 2023) zeigen, dass sie verschwinden, wenn man eine kontinuierlichere Metrik wählt. Aber das praktische Phänomen bleibt: Kleine Modelle können bestimmte Dinge nicht, egal wie viel Fine-Tuning.

Die praktische Lektion

Wenn du heute ein Modell trainierst, hier ist, was die Scaling Laws dir sagen:

  • Festes Compute? Ziele auf ein Verhältnis D/N nahe 20. Das ist das Trainings-Optimum.
  • Du wirst das Modell massiv ausliefern? Verschiebe das Verhältnis nach oben. Ein kleineres Modell, das länger trainiert wird, kostet weniger in der Inferenz — das ist es, was Meta, Mistral und immer mehr Teams tun.
  • Du visierst eine emergente Fähigkeit an? Kleine Optimierungen werden nicht reichen. Du musst eine Größenschwelle überschreiten.
  • Dir fehlen Daten? Qualität, Filterung und Vielfalt zählen mehr als die rohe Größe des Korpus.

Die Scaling Laws sagen nicht, dass man unendlich wachsen muss. Sie sagen, dass es ein richtiges Verhältnis zwischen Parametern und Daten gibt — und dass wir Jahre damit verbracht haben, auf der falschen Seite zu liegen.

Aktualisiert am

Skalierungsgesetze: Kaplan, Chinchilla und das optimale Verhältnis · Step by Token