Kapitel 04 · Aufmerksamkeit · 12 min

Aufmerksamkeit ist alles, was du brauchst

Der Mechanismus, der alles verändert. Wie jedes Token alle anderen betrachtet, um den Kontext zu verstehen.

Das Pronomen und der Arzt

Erinnere dich kurz an diesen Satz, den wir schon gesehen haben:

„Der Arzt schickte die Krankenschwester nach Hause, weil sie…"

Für einen Menschen bezieht sich „sie" natürlich auf die Krankenschwester. Für ein LLM ist das nicht offensichtlich: Im Moment, wo es den Token sie verarbeitet, liegt das Wort Krankenschwester acht Positionen zurück. Wie schafft es, die beiden zu verknüpfen?

Das ist die Aufgabe der Attention.

Warum Attention existiert

Vor 2017 waren Sprachmodelle hauptsächlich rekurrent (RNN, LSTM): Sie lasen den Text Token für Token und propagierten einen „verborgenen Zustand", der alles Bisherige zusammenfasste.

Problem: Dieser verborgene Zustand ist ein Flaschenhals. Alles muss durch ihn hindurch. Je länger der Satz wird, desto mehr verwässern alte Informationen. Und das Lernen ist sequenziell — um das 100. Wort zu verarbeiten, müssen die 99 vorherigen verarbeitet worden sein, was Parallelisierung erschwert.

Das Paper Attention Is All You Need (Vaswani et al., 2017) schlug einen Bruch vor:

Keine Rekurrenz mehr. Jeder Token schaut direkt alle anderen an, parallel.

Das ist der Mechanismus, der moderne Modelle möglich macht.

Die Intuition

In jeder Schicht des Modells führt jeder Token drei Operationen durch:

Er stellt dem Rest des Satzes eine Frage (der Query-Vektor).
Jeder andere Token zeigt ein Etikett, das zusammenfasst, was er ist (der Key-Vektor).
Der Token vergleicht seine Frage mit jedem Etikett: Wo es passt, holt er sich ein bisschen Inhalt (der Value-Vektor).

Das Ergebnis: eine neue Repräsentation für jeden Token, die eine gewichtete Summe der anderen ist, wobei die Gewichte aus den Q-K-Übereinstimmungen stammen.

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

Die Formel muss man sich nicht merken — merke dir die Idee. Jeder Token schaut alle anderen an und mischt, was er interessant findet.

Woher kommen Q, K und V eigentlich?

Nicht aus dem Nichts. Für jeden Token nehmen wir seinen Embedding-Vektor x und multiplizieren ihn mit drei während des Trainings gelernten Matrizen:

Q = x · W_Q
K = x · W_K
V = x · W_V

Diese drei Matrizen W_Q, W_K, W_V sind die Parameter der Attention. Sie sind für alle Tokens innerhalb einer Schicht dieselben — das ist es, was das Modell per Gradientenabstieg justiert, damit die richtigen „Fragen" die richtigen „Etiketten" finden.

Der Faktor √d_k in der Formel sorgt dafür, dass die Skalarprodukte bei hoher Dimension nicht explodieren. Ohne ihn werden die Werte vor dem Softmax riesig, der Softmax sättigt und der Gradient stirbt. Technisches Detail, aber notwendig.

Mehrere Fragen gleichzeitig

Ein einziges Fragesystem reicht nicht aus. Ein Token muss möglicherweise sein syntaktisches Subjekt und seine Koreferenz und das Hauptverb gleichzeitig betrachten.

Daher das Multi-Head Attention: Statt eines einzigen Q-K-V-Systems lässt man mehrere parallel laufen (typischerweise 8, 16, 32). Jedes lernt, sich auf eine Art von Beziehung zu spezialisieren. Bei einem trainierten Modell findet man Heads, die sich widmen:

der lokalen Attention (jeder Token schaut sich selbst oder seine unmittelbaren Nachbarn an)
der Subjekt-Verb-Bindung
Koreferenzen (Pronomen zu ihrem Referenten)
Trennzeichen (Interpunktion, Satzanfang/-ende)
Reim oder poetischer Struktur
Dingen, für die wir noch keinen Namen haben

Interagiere

Die untenstehende Visualisierung zeigt anhand zweier Sätze, wie die Attention verschiedener Heads aussehen kann. Die Muster sind stilisiert (die echten Gewichte kommen von einem trainierten Modell), aber jeder Head entspricht einem tatsächlich in aktuellen Modellen beobachteten Verhalten.

Jede Zeile zeigt, wie ein Token alle anderen betrachtet. Manche Heads folgen der Syntax (Subjekt ↔ Verb), andere erfassen die Semantik (Referenzen, Antezedenzien). Keines dieser Muster ist von Hand programmiert — sie entstehen durch das Training.

Drei Dinge zum Ausprobieren:

Bei Die Katze schläft mit dem Head „Subjekt ↔ Verb" schaue auf die Zeile schläft. Das stärkste Gewicht geht zu Katze. Das Verb hat sein Subjekt „gefunden".
Bei Koreferenz mit dem Head „Koreferenz" schaue auf die Zeile es. Das stärkste Gewicht verweist zurück auf Baby. Das ist genau der Mechanismus, der das Pronomenrätsel löst.
Bei jedem Head schaue auf das obere rechte Dreieck: Es ist grau. Das ist die kausale Maske — ein Token kann nur Tokens betrachten, die ihm vorangehen. Das zwingt das Modell zu vorhersagen, nicht zu kopieren.

Kausal oder bidirektional?

Nicht jede Attention ist gleich. Es gibt zwei Regime.

Bidirektional. Jeder Token sieht alle anderen, sowohl rückwärts als auch vorwärts. Das verwenden BERT (Google, 2018) oder die Encoder-Seite von T5. Diese Modelle sind hervorragend darin, einen Satz zu verstehen — Klassifikation, extraktive Frage-Antwort, semantische Suche — aber sie generieren keinen Text Token für Token.

Kausal. Jeder Token sieht nur die vorherigen. Das ist die dreieckige Maske, die wir oben gesehen haben. Diese Beschränkung ist es, was autoregressive Generierung möglich macht: Um das nächste Wort vorherzusagen, muss das Modell allein aus der Vergangenheit arbeiten können.

GPT, Claude, Llama, Gemini, Mistral — alle bekannten LLMs verwenden kausale Attention. Diese Maske macht sie fähig, zu vorhersagen, nicht nur zu beschreiben.

Attention ist teuer

Diese Eleganz hat ihren Preis. Für eine Sequenz der Länge n erfordert die Berechnung der Attention-Matrix O(n²) Operationen. Den Kontext zu verdoppeln vervierfacht die Kosten.

Deshalb waren Kontextfenster bei GPT-2 auf 2.048 Tokens begrenzt, bei GPT-3.5 auf 8.192 Tokens, und es brauchte algorithmische Tricks (FlashAttention, Sliding Window, Sparse Attention), um die heutigen 200.000 Tokens zu erreichen. Wir kommen auf diese Techniken in Kapitel 18 zurück, wo sie an den Speicher des KV-Cache anknüpfen.

Attention ist mächtig; sie ist auch der wichtigste Flaschenhals moderner LLMs.

Was als nächstes kommt

Attention allein ergibt noch kein Sprachmodell. Man muss sie in aufeinanderfolgenden Blöcken stapeln, Feed-Forward-Schichten, Normalisierungen und Residualverbindungen hinzufügen. Das ist die vollständige Transformer-Architektur — das Thema des nächsten Kapitels.

Aktualisiert am 10. Mai 2026