Kapitel 17 · Schlussfolgern · 9 min

Denken, bevor man antwortet

Thinking Tokens, erweitertes Schlussfolgern, Denkbudgets. Wie o1/o3-Modelle eine versteckte Gedankenkette generieren, bevor sie antworten.

Die schnelle Antwort ist oft falsch

Was ist die letzte Ziffer von 7¹⁰⁰?

Wenn du diese Frage einem klassischen LLM stellst, antwortet es wahrscheinlich „7" in einem Bruchteil einer Sekunde. Logisch: 7 fängt mit 7 an, 7² = 49, und wenn man nicht zu sehr nachdenkt, nimmt man an, dass es 7 bleibt. Die Antwort ist falsch — es ist 1.

Stellst du dieselbe Frage aber einem Reasoning-Modell wie o1, o3 oder DeepSeek-R1, zögert es. Es „denkt" 10, 20, manchmal 60 Sekunden lang. Und es kommt zur richtigen Antwort.

Der Unterschied liegt nicht in den Gewichten des Modells. Er liegt darin, was das Modell vor der Antwort tun darf.

Die Thinking Tokens

Jedes LLM erzeugt Tokens, eines nach dem anderen, von links nach rechts. Was Reasoning-Modelle auszeichnet, ist, dass sie zuerst eine lange Sequenz versteckter Tokens erzeugen — einen inneren Monolog, den der Nutzer nie sieht — bevor sie die endgültige Antwort produzieren.

Diese versteckten Tokens heißen Thinking Tokens (oder Denk-Tokens).

Das Modell kann darin alles schreiben: Zwischenrechnungen, Hypothesen, die es widerlegt, abgebrochene Erkundungspfade, Überprüfungen. Es ist ein Notizblock, den es löscht, bevor es dir das saubere Ergebnis zeigt.

Das ist keine Magie. Es ist einfach zusätzlicher Platz, um ein schwieriges Problem zu bearbeiten.

Probier es selbst aus

Stelle das Denk-Budget auf „Keines" und klicke dann auf „Denken". Beobachte die sofortige Antwort. Stelle dann das Budget auf „Vollständig" und starte erneut.

Die ausgegrauten Blöcke sind die interne Gedankenkette — das Modell stellt Hypothesen auf, prüft, geht manchmal zurück. Diese Thinking Tokens kosten Latenz und Geld, lösen aber Probleme, die der direkte Modus nicht lösen kann.

Der Unterschied zwischen den beiden liegt nicht in der Kapazität des Modells — er liegt in der Inferenz-Rechenzeit, die ihm zugewiesen wird.

Wie es technisch funktioniert

Es ist keine andere Architektur. Es ist derselbe Transformer, derselbe Attention-Mechanismus, dieselbe autoregressive Generierung.

Was sich ändert, sind das Training und das Decoding. Während des Fine-Tunings lernt das Modell, nützliche Reasoning-Spuren zu produzieren — Gedankenketten, die zur richtigen Antwort konvergieren. Man zeigt ihm Tausende von Problemen mit ihren Lösungen, und es lernt, den Zwischenpfad zu konstruieren.

Bei der Inferenz erhält es ein Budget an Denk-Tokens — eine Grenze dafür, wie viele versteckte Tokens es erzeugen darf. Je größer das Budget, desto mehr kann es erkunden. Ab einem bestimmten Budget hört die Qualität der Antworten auf schwierigen Aufgaben auf, signifikant zuzunehmen.

Ein wichtiges Detail: Die Thinking Tokens werden vor der Antwort erzeugt, im selben Token-Stream. Das Modell „denkt" nicht parallel — es denkt seriell, und das kostet Tokens wie alles andere auch.

Erweitertes Reasoning vs. Chain-of-Thought

Du hast vielleicht schon die Technik des Chain-of-Thought (CoT) gesehen, bei der man das Modell explizit auffordert: „denke Schritt für Schritt". Das ist anders, aber verwandt.

Chain-of-Thought (geprompted)Erweitertes Reasoning (nativ)
Wer löst es ausDer Nutzer im PromptDas Modell selbst
SichtbarkeitSichtbar in der AntwortVersteckt (Thinking Tokens)
SteuerungMan kann die Schritte lenkenDas Modell wählt seinen Plan
BeispieleGPT-4 mit „let's think step by step"o1, o3, Claude mit Extended Thinking

Geprompted CoT verbessert die Leistung ebenfalls — aber natives Reasoning geht weiter, weil das Modell nicht gezwungen ist, ein lesbares Reasoning zu schreiben. Es kann unsaubere Pfade erkunden, Berechnungen anstellen, die es wieder verwirft, sich widersprechen und korrigieren, alles im versteckten Raum.

Wann es sich lohnt

Erweitertes Reasoning verbessert die Leistung deutlich bei:

  • Mathematik und Logik — Beweise, kombinatorische Probleme, exakte Arithmetik
  • Komplexem Code — Multi-File-Debugging, nicht-triviale Algorithmen
  • Strukturiertem Reasoning — Rätsel, verkettete Deduktionen
  • Planung — Aufgaben, die eine Strategie vor dem Handeln erfordern

Bei einer einfachen faktischen Frage („Was ist die Hauptstadt von Frankreich?"), bei kreativen Texten oder einer Übersetzung bringt erweitertes Reasoning hingegen nichts — und kostet mehr.

Es ist außerdem eine der wirksamsten Gegenmaßnahmen gegen Halluzinationen (Kapitel 13). Ein Modell, das sich die Zeit nimmt, seinen eigenen Entwurf zu überprüfen, fängt Fehler ab, die eine einmalige Antwort ohne Pause hätte durchschlüpfen lassen. Keine Magie — es kann auch innerhalb seines Reasonings halluzinieren — aber schon das bloße Ausrollen der Schritte filtert einen erheblichen Teil der faktischen Fehler heraus.

Die Kosten sind die eigentliche Bremse. Thinking Tokens werden wie normale Tokens berechnet. Ein o1-Modell, das 1.000 Denk-Tokens vor einer 30-Token-Antwort erzeugt, verbraucht in Wirklichkeit 1.030 Tokens. Bei Millionen von Anfragen zählt das.

Test-Time Compute Scaling

Was Reasoning-Modelle aufgezeigt haben, ist, dass man Intelligenz zur Inferenzzeit kaufen kann: Je mehr Denk-Tokens man zuweist, desto besser werden die Antworten bei schwierigen Aufgaben.

Das nennt man Test-Time Compute Scaling — im Gegensatz zum üblichen Scaling, das die Parameter des Modells im Training erhöht.

Die Kurve ähnelt den klassischen Scaling Laws: Eine Verdopplung des Denk-Budgets verbessert die Leistung, aber mit abnehmenden Erträgen. Ab einem bestimmten Punkt kompensiert längeres Nachdenken nicht mehr.

Und das ist eine wichtige Entdeckung: Die Intelligenz eines LLM ist keine feste Konstante, die durch seine Gewichte bestimmt wird. Sie hängt auch vom Compute ab, den man ihm im Moment der Antwort gibt.

Ein Modell, das lange über ein schwieriges Problem nachdenkt, kann ein größeres Modell übertreffen, das schnell antwortet. Schnelligkeit ist nicht immer eine Tugend.

Aktualisiert am

Reasoning-Modelle: nachdenken vor dem Antworten · Step by Token