Kapitel 08 · Alignment · 9 min
Vom Rohmodell zum Assistenten
Fine-Tuning, RLHF, konstitutionelle KI. Wie man ein LLM nützlich und harmlos macht.
Das Rohmodell ist kein Assistent
Am Ende des Pre-Trainings kann dein LLM eine und nur eine Sache: Text auf plausible Weise fortsetzen. Das ist nützlich, sogar magisch. Aber es ist kein Assistent.
Frage ein Rohmodell „Wie macht man Cookies?" und es gibt gute Chancen, dass es so weitergeht:
„Wie macht man Cookies? Wie macht man Kekse? Wie macht man Kuchen? Das Cookies-Rezept ist ein Rezept, das Cookies, Zucker…"
Nicht weil es dumm ist. Weil es in seinem Korpus viele Seiten gesehen hat, auf denen eine Frage von weiteren Fragen oder Rauschen gefolgt wird. Es tut seine Arbeit: vorhersagen, was statistisch folgt, nicht was nützlich wäre.
Um vom Vervollständiger zum Assistenten zu gelangen, wird das Modell aligned (ausgerichtet).
Drei identische Prompts, zwei Modelle: links das rohe Modell, rechts dasselbe nach Supervised Fine-Tuning und RLHF. Das rohe setzt den Text fort; das ausgerichtete antwortet — und lehnt problematische Anfragen ab.
Drei aufeinanderfolgende Schritte
Modernes Alignment erfolgt in mehreren Phasen, die auf das Pre-Training aufgestapelt werden.
1. Instruction Tuning (SFT)
Das Modell wird (im klassischen überwachten Modus) auf einem Datensatz von Anweisung → ideale Antwort-Paaren, die von Menschen geschrieben wurden, nachtrainiert. Ein paar Zehntausend Paare reichen aus. Das lehrt das Modell:
- Anweisungen zu befolgen statt sie zu vervollständigen
- das gewünschte Format einzuhalten (Liste, Absatz, Code…)
- eine vollständige Antwort zu geben statt zu plappern
Das ist der Schritt, der gpt-3 in gpt-3.5-instruct verwandelt. Der Unterschied ist spektakulär: Das Modell beginnt endlich zu antworten.
2. RLHF (Reinforcement Learning from Human Feedback)
SFT allein reicht nicht. Es lehrt einen Antwortstil, macht aber nicht den feinen Unterschied zwischen einer „mittelmäßigen" und einer „hervorragenden" Antwort.
Daher das RLHF, in drei Unterschritten:
a) Das Modell generiert mehrere mögliche Antworten auf denselben Prompt. b) Ein Mensch ordnet sie (A > B > C). c) Man trainiert ein Reward Model, das menschliche Präferenzen imitiert, und optimiert dann den LLM via Reinforcement Learning, um diese Belohnung zu maximieren.
Das Ergebnis: Ein Modell, das sich nicht damit begnügt zu antworten, sondern so antwortet, wie Menschen es von Modellen bevorzugen. Höflicher, strukturierter, weniger arrogant, nützlicher.
2bis. DPO: PPO, einfacher gemacht
Das gerade beschriebene RLHF stützt sich auf einen RL-Algorithmus (PPO), der schwer zu trainieren ist: separates Reward Model, numerische Instabilität, enormer Compute-Aufwand.
2023 schlug ein Team aus Stanford DPO (Direct Preference Optimization) vor. Die Idee: das Reward Model und den RL-Schritt kurzschließen. Mathematisch lässt sich eine einfache überwachte Loss ableiten, die den LLM direkt darauf optimiert, die „gewinnende" Antwort der „verlierenden" auf jedem Vergleichspaar vorzuziehen.
Konkret trainiert DPO, ausgehend von denselben (Prompt, Antwort_A_besser_als_Antwort_B)-Paaren, die das klassische RLHF benutzte, das Modell in einem einzigen Durchgang — wie ein gewöhnliches Supervised Fine-Tuning. Kein separates Reward Model, kein PPO, keine Instabilität.
Das Ergebnis ist auf Benchmarks fast nicht von PPO-RLHF zu unterscheiden, bei einem Bruchteil der Kosten. Seit 2024 haben DPO und seine Varianten (IPO, KTO, ORPO) das klassische PPO bei Llama, Mistral und den meisten Open-Source-Labs weitgehend ersetzt. Anthropic und OpenAI verwenden noch komplexere Pipelines, aber der Abstand schließt sich.
Du liest immer noch überall „RLHF". Es ist zu einem Sammelbegriff geworden. Unter der Haube ist es zunehmend DPO.
3. RLAIF / Constitutional AI
Eine Variante: Statt Menschen verwendet man ein anderes Modell (oft dasselbe), um das Feedback gemäß einer geschriebenen Verfassung zu geben — eine Reihe von Prinzipien („gib keine illegalen Anweisungen", „erfinde keine Quellen", „erkläre dein Denken, wenn es nützlich ist"…). Das nennt man Constitutional AI.
Vorteile: skalierbar (Menschen sind teuer und langsam), reproduzierbar (die Verfassung ist explizit), modifizierbar (man kann Prinzipien anpassen, ohne alles neu zu annotieren).
Das ist das Verfahren, das Anthropic für Claude verwendet und das viele andere Labs seitdem übernommen haben.
Was Alignment nicht tut
Ein paar Mythen zu entkräften.
Alignment ändert nicht das Wissen des Modells. Wenn das Rohmodell nicht weiß, dass Napoleon auf Sankt Helena gestorben ist, wird RLHF es ihm nicht beibringen. RLHF ändert die Art und Weise, wie das Modell ausdrückt, was es weiß, nicht den Umfang dessen, was es weiß.
Alignment ist keine einfache Zensur. Die Anleitung zur Herstellung einer Bombe zu verweigern ist kein Wort auf einer schwarzen Liste: Es ist eine gelernte Politik, die auf umformulierte Formulierungen verallgemeinert und die Ablehnung begründet.
Alignment ist nicht perfekt. Jailbreaks (Prompts, die RLHF umgehen) existieren immer noch. Verzerrungen des Korpus bleiben teilweise bestehen. Halluzinationen existieren immer noch, weil das Modell manchmal mehr Belohnung dafür bekommt, sicher zu wirken, als zuzugeben, dass es nicht weiß.
Alignment hat einen Preis. Bei manchen technischen Aufgaben ist ein ausgerichtetes Modell schlechter als ein Basismodell: Es weigert sich, Risiken einzugehen, es fügt Disclaimers hinzu, es wird über das Vernünftige hinaus vorsichtig. Das nennt man den Alignment Tax.
Warum LLMs halluzinieren
Das ist wahrscheinlich die häufigste Kritik an LLMs: Sie erfinden Fakten mit voller Überzeugung. Eine bibliografische Referenz, die nicht existiert, ein nie ausgesprochenes Zitat, ein verzerrtes Ereignis. Warum?
Drei Mechanismen wirken zusammen.
1. Cross-entropy belohnt keine Unsicherheit. Während des Pre-Trainings (Kapitel 06) lernt das Modell, die Log-Wahrscheinlichkeit des korrekten Tokens zu minimieren. An keinem Punkt lernt es, „ich weiß es nicht" zu sagen — das Ziel ist immer, etwas vorherzusagen. Wenn die richtige Antwort nicht in seinen Parametern steckt, produziert es die plausibelst klingende Zeichenfolge aus dem Bauch heraus.
2. RLHF belohnt Selbstsicherheit mehr als Ehrlichkeit. Wenn Menschen Präferenzen annotieren, ziehen sie im Schnitt eine selbstsichere, gut formulierte Antwort einem „ich bin nicht sicher, ich weiß es nicht" vor. Das Reward Model lernt diesen Bias, und der LLM lernt, sicher zu wirken, auch wenn er es nicht ist.
3. Keine interne Verifikationsschleife. Ein Mensch, der etwas erfindet, hält inne, zweifelt, prüft nach. Ein LLM, der Token für Token generiert, hat diesen Mechanismus nicht von Haus aus — er geht voran, ohne externe Kontrolle.
Deshalb verschwinden Halluzinationen nicht durch noch mehr Alignment. Sie sind strukturell. Die wirksamen Gegenmaßnahmen sind systemisch:
- Das Modell mit Werkzeugen verbinden (Kapitel 11) — rechnen statt schätzen, eine Datenbank abfragen statt sich zu erinnern.
- RAG (Kapitel 10) — verlässliche Quellen bereitstellen, statt sich auf das Parameter-Gedächtnis zu verlassen.
- Erweitertes Reasoning (Kapitel 17) — ein Modell, das sich Zeit zum Nachdenken nimmt, halluziniert weniger.
- Explizites Fine-Tuning auf Unsicherheit — dem Modell beibringen, „ich weiß es nicht" zu sagen, wenn seine interne Wahrscheinlichkeit niedrig ist (aktive Forschung).
Eine Halluzination ist kein Bug des Modells. Sie ist das, was passiert, wenn ein System, das darauf trainiert ist, immer plausiblen Text zu produzieren, auf eine Frage trifft, deren Antwort nicht in seinen Gewichten steht.
Die offene Frage
Alignment löst ein unmittelbares Problem: Ein LLM nützlich und allgemein vernünftig zu machen. Es erschöpft nicht die Grundfrage, die manchmal Alignment mit großem A genannt wird:
Wie garantiert man, dass ein System, das viel fähiger als ein Mensch ist, im Interesse der Menschheit handelt?
Heute richtet man durch menschliches Feedback aus, weil Menschen die besten Richter bleiben. Wenn Modelle besser als Menschen bei den Aufgaben werden, bei denen man sie beurteilen möchte, wird dieser Hebel nicht mehr ausreichen. Das ist ein offenes Problem und Gegenstand eines ganzen Forschungszweigs.
Ende von Teil II
Du hast jetzt die gesamte interne Pipeline eines modernen LLMs durchlaufen, von den rohen Textbytes bis zum ausgerichteten Verhalten:
- 01 — Das nächste Wort immer wieder vorhersagen.
- 02 — Den Text tokenisieren.
- 03 — Jeden Token in einen Bedeutungsraum einbetten.
- 04 — Die Tokens über Attention einander betrachten lassen.
- 05 — Transformer-Blöcke stapeln.
- 06 — Durch Gradientenabstieg trainieren.
- 07 — Das nächste Wort samplen.
- 08 — An menschliche Präferenzen ausrichten.
Kein einzelner dieser Mechanismen ist isoliert betrachtet mysteriös. Keiner allein reicht aus, um zu erklären, was man sieht, wenn ein LLM ein wissenschaftliches Paper zusammenfasst oder ein Sonett schreibt: Die Intelligenz entsteht aus ihrer Komposition in großem Maßstab.
Das Wunder steckt nicht in einem einzigen der Teile. Es steckt in der gesamten Kette, multipliziert mit Milliarden von Parametern und trainiert auf Billionen von Tokens.
Und jetzt?
Das Modell ist bereit. Es kann vorhersagen, schlussfolgern, Anweisungen befolgen. Aber zwischen ihm und der Erfahrung, die du hast, wenn du ChatGPT oder Claude benutzt, steht noch eine ganze Infrastruktur: das Kontextfenster, das festlegt, woran es sich erinnert, RAG, das ihm Zugriff auf deine Dokumente verschafft, Agenten, die es mit Werkzeugen verbinden.
Das ist Gegenstand von Teil III — Das Modell im Einsatz.
Und darüber hinaus taucht Teil IV — Weitergehen in aktuelle Forschungsthemen ein: Fine-Tuning, Multimodalität, erweitertes Reasoning, Skalierungsgesetze, Interpretierbarkeit, Diffusion.
Die Pipeline steht. Der Rest ist alles, was wir darauf aufbauen.
Aktualisiert am