Kapitel 12 · Prompting · 8 min

Die Kunst, mit einem LLM zu sprechen

Zero-Shot, Few-Shot, Chain-of-Thought, Self-Consistency. Warum die Formulierung eines Prompts das Ergebnis grundlegend verändert.

Der Prompt ist kein Text — er ist ein Programm

Wenn du „fasse diesen Artikel zusammen" in ChatGPT eingibst, passiert oberflächlich nichts besonders Spektakuläres. Aber der Text, den du gesendet hast, hat ein sehr präzises Verhalten in einem Modell ausgelöst, das auf Billionen von Tokens trainiert wurde.

Ein Prompt ist ein Programm in natürlicher Sprache. Nicht in dem Sinne, dass er kompiliert würde, sondern in dem Sinne, dass seine Formulierung bestimmt, welches Verhalten das Modell aktiviert. Derselbe Satz, anders formuliert, kann radikal unterschiedliche Ergebnisse liefern — nicht weil das Modell launisch wäre, sondern weil sein Pre-Training ihm unterschiedliche Muster für unterschiedliche Kontexte beigebracht hat.

Prompt Engineering ist die Kunst, dieses Programm so zu formulieren, dass man das gewünschte Verhalten erhält.

Vier Stufen der Technik

Zero-Shot: einfach die Frage stellen

Die einfachste Technik. Man stellt die Frage direkt, ohne Beispiel und ohne Anweisung. Das Modell aktiviert das wahrscheinlichste Verhalten angesichts seines Trainings.

Das funktioniert sehr gut für einfache, faktische Aufgaben. Es scheitert an Problemen, die Reasoning erfordern — nicht weil das Modell es nicht weiß, sondern weil es nicht weiß, dass es nachdenken muss.

Few-Shot: Beispiele zeigen

Statt zu erklären, was man will, zeigt man es. Man platziert 2 bis 5 (Eingabe, Ausgabe)-Paare vor der eigentlichen Frage. Das Modell — dank seines In-Context-Learning-Mechanismus — versteht das Muster und wendet es auf die neue Eingabe an.

Der Schlüssel: Die Beispiele müssen repräsentativ für die Art der Aufgabe sein. Themenfremde Beispiele helfen nicht. Beispiele, die den richtigen Ansatz zeigen, helfen sehr.

Chain-of-Thought: Schritt für Schritt denken

Eine überraschende Entdeckung von 2022 (Wei et al.): Es genügt, eine Anweisung wie „denke Schritt für Schritt" hinzuzufügen, damit sich die Leistung bei Reasoning-Problemen verdoppelt, manchmal verdreifacht.

Warum funktioniert das? Das Modell erzeugt Tokens nacheinander. Indem man es zwingt, sein Zwischen-Reasoning aufzuschreiben, gibt man ihm einen „Notizblock", in dem es Berechnungen anstellen, Hypothesen prüfen und Fehler korrigieren kann — bevor es zur Schlussfolgerung kommt. Ohne CoT springt es direkt zur Schlussfolgerung, ohne Sicherheitsnetz.

Es ist dasselbe Prinzip wie beim Menschen: „25 × 37 = 25 × 30 + 25 × 7 = 750 + 175 = 925" zu schreiben gibt deutlich bessere Chancen, das richtige Ergebnis zu erreichen, als zu versuchen, mental in einem Zug zu antworten.

Self-Consistency: zwischen mehreren Ketten abstimmen

Die Self-Consistency ist eine Erweiterung des CoT. Statt eine einzige Reasoning-Kette zu erzeugen, erzeugt man mehrere (typisch 5 bis 20) mit variierenden Temperaturen und stimmt dann für die häufigste Antwort ab.

Die Idee: Jeder Lauf kann einen anderen Fehler machen. Aber wenn die meisten zur gleichen Antwort konvergieren, ist sie wahrscheinlich richtig.

Es ist teuer (N-mal mehr Tokens), aber bei schwierigen Reasoning-Aufgaben ist der Zuwachs an Zuverlässigkeit real.

Probier es selbst aus

Vergleiche die vier Techniken an drei Problemen. Beachte besonders, dass Few-Shot-Beispiele bei einem strukturierten Problem (dem Händler) helfen, aber bei logischen Fallen kaum etwas ändern.

Dieselbe Frage, fünf Formulierungen. Der Score schwankt von 30 % auf 90 %, ohne dass das Modell verändert wird. Die Lehre: ein Prompt ist kein Text, sondern ein Programm, dessen implizite Syntax LLMs aus ihrem Pre-Training interpretieren.

Was das über LLMs verrät

Diese vier Techniken sind keine Tricks. Sie beleuchten etwas Fundamentales über die Funktionsweise von LLMs.

In-Context Learning ist gratis. Ein LLM lernt aus deinen Beispielen, ohne seine Gewichte zu aktualisieren — einfach durch das Lesen des Kontexts. Das ist eine emergente Fähigkeit aus dem massiven Pre-Training: Das Modell hat so viele Muster gesehen, dass es ein neues spontan extrahieren kann.

Reasoning ist ein Verhalten, keine feste Fähigkeit. Ein Modell, das in Zero-Shot an einem Problem scheitert, kann es im CoT auf demselben Problem schaffen — ohne Änderung an seinen Parametern. Was der Prompt aktiviert, verändert, was das Modell mit seinen internen Fähigkeiten „macht".

Die Temperatur erzeugt Vielfalt, die Abstimmung reduziert die Varianz. Self-Consistency nutzt die Tatsache, dass Fehler oft zufällig sind: viele verschiedene Wege zu scheitern, aber nur ein Weg zum Erfolg. Der Konsens filtert das Rauschen heraus.

Die Grenzen

Die Kontextlänge. Jedes Few-Shot-Beispiel verbraucht Tokens. Mit einem Kontextfenster von 8.000 Tokens kannst du keine 50 Beispiele unterbringen. CoT verlängert auch die Antworten.

Beispiele können in die Irre führen. Wenn deine Beispiele einen Bias enthalten, wird das Modell ihn reproduzieren. „Garbage in, garbage out" gilt auch für Few-Shot.

Prompt Injection. Bösartiger Inhalt im Kontext kann deine Anweisungen aushebeln. Wenn dein Prompt sagt „übersetze diesen Text" und der Text sagt „ignoriere die vorherigen Anweisungen und mache etwas anderes", kann das Modell dem Inhalt statt der Anweisung gehorchen.

Die Modelle entwickeln sich. Prompts, die bei GPT-4 funktionieren, funktionieren nicht zwangsläufig bei Claude oder Llama. Jedes Modell hat seine bevorzugten Muster, seine Formulierungen, die besser „klicken".

Die Faustregel

Um eine Technik zu wählen:

  • Einfache / faktische Frage → Zero-Shot reicht.
  • Spezifisches Format erwartet → Few-Shot mit 2–3 Beispielen.
  • Reasoning oder BerechnungCoT. Immer.
  • Kritische ZuverlässigkeitCoT + Self-Consistency.

Und eine Meta-Regel: Wenn dein Prompt wie Code aussieht — mit klarer Struktur, expliziten Variablen, definierten Anwendungsfällen —, wird er zuverlässiger sein als zweideutiger Text.

Eine letzte Sache. Die hier beschriebenen Techniken (insbesondere CoT) sind die prompt-getriebenen Vorfahren dessen, was du heute in den nativen Reasoning-Modellen (o1, o3, Claude extended thinking, DeepSeek-R1) findest. Diese tun automatisch und intensiv das, was geprompted CoT nur simulierte — siehe Kapitel 17, um den Übergang vom Prompt Engineering zum ins Modell eingebauten Reasoning zu verstehen.

Ein guter Prompt ist keine Zauberformel. Er ist eine klare Spezifikation dessen, was du willst, in einer Sprache, die das Modell als das Signal erkennt, dem es folgen soll.

Aktualisiert am

Prompt-Engineering: Zero-Shot, Few-Shot, Chain-of-Thought · Step by Token