Kapitel 03 · Embeddings · 10 min
Der Raum der Bedeutung
Wörter in einem geometrischen Raum. König − Mann + Frau = Königin, und andere Vektorwunder.
Eine Gleichung, die nicht funktionieren sollte
Betrachte diese Operation:
König − Mann + Frau ≈ Königin
Das ist eine arithmetische Gleichung, wie 5 − 2 + 4 = 7. Nur dass sie über Wörter spricht.
Und sie funktioniert. Nicht weil „König" und „Königin" so programmiert wurden, dass sie sich ähneln. Sondern weil wir jedes Wort in eine Liste von Zahlen umgewandelt haben — einen Vektor — und die Algebra der Bedeutung dort zur gewöhnlichen Algebra wird.
Das ist die kontraintuitivste und zugleich mächtigste Idee der LLMs.
Vom Token zur Position
Im vorherigen Kapitel haben wir gesehen, dass Text zu einer Folge von Token-IDs wird — ganzen Zahlen wie 5234 oder 91. Aber eine bloße Ganzzahl hat keine Struktur. Token 5234 ist weder „nah" noch „weit entfernt" von Token 5235. Sie sind einfach nummeriert.
Damit ein Modell mit Wörtern rechnen kann, braucht es eine reichhaltigere Repräsentation. Die Lösung: Jedem Token wird ein Vektor aus etwa 768, 1024 oder 4096 reellen Zahlen zugeordnet. Das nennt man ein Embedding.
Zu Beginn des Trainings sind diese Vektoren zufällig. Durch das Vorhersagen von Millionen nächster Wörter lernt das Modell schrittweise, sie so anzuordnen, dass bedeutungsähnliche Wörter ähnliche Vektoren bekommen.
Niemand hat diese Regel aufgeschrieben. Sie entsteht aus der Vorhersageaufgabe.
Warum es funktioniert
Denke darüber nach, was es bedeutet, das Wort nach „Der König sprach zu seiner…" gut vorherzusagen. Die guten Antworten sind Tochter, Frau, Mutter, Königin — nicht Motor oder Algorithmus. Ein Modell, das diese Fortsetzungen gut vorhersagt, muss wissen, dass diese Wörter in diesem Kontext austauschbar sind.
Der sparsamste Weg, diese Äquivalenz bei Milliarden von Parametern und Milliarden von Sätzen zu speichern, besteht darin, „Tochter", „Frau", „Mutter", „Königin" in derselben Region des Vektorraums zu gruppieren. Der Gradient schiebt in diese Richtung bei jeder Iteration, ohne dass ein Mensch irgendetwas etikettieren müsste.
Embeddings werden nicht entworfen. Sie sind die geometrische Spur der Vorhersageaufgabe.
Erkunde den Raum
Der untenstehende Raum ist eine Karikatur mit zwei Dimensionen — echte Embeddings haben Hunderte. Aber die wesentlichen Eigenschaften sind vorhanden: semantische Cluster, Nachbarschaft, Vektorarithmetik.
Jeder Punkt ist ein Wort, projiziert in einen Bedeutungsraum. Nachbarn teilen ein Thema — keine Schreibweise. Der Pfeil zeigt die Vektorarithmetik, die König − Mann + Frau = Königin möglich macht.
Drei Dinge zu beachten:
- Die Cluster erscheinen, ohne dass wir sie benannt haben. Bewege die Maus über
Katzeund du siehstHund,Maus,Löwe. Bewege die Maus überFreudeund du siehstLiebe,Angst,Trauer. Die Kategorien existieren nicht in den Daten — sie existieren in der Geometrie. - Manche Richtungen haben eine Bedeutung. Der Vektor von
MannzuFrauist ungefähr derselbe wie der vonKönigzuKönigin, oder vonVaterzuMutter. Diese Regelmäßigkeit lässt die Arithmetik funktionieren. - Abstände sind relativ, nicht absolut. Dass
Katzeden Abstand 0,32 zuHundhat, bedeutet für sich genommen nichts. Was zählt, ist, dass sie näher anHundist als anBrotoderWut.
Die 2D-Illusion
In echten Modellen hat ein Embedding typischerweise zwischen 768 und 4096 Dimensionen. Warum so viele?
Weil man in 2D Kompromisse eingehen muss. Katze muss nah an Hund sein (Haustiere), an Maus (Säugetiere), an Tiger (Feliden), an Vogel (Tier). All diese „Nähen" ziehen in verschiedene Richtungen — und in 2D geraten sie in Konflikt.
Bei 768 Dimensionen kann jede Facette der Bedeutung ihre eigene Richtung haben. Das Wort Katze kann Hund entlang der Achse „Haustier" nahe sein, Tiger entlang der Achse „Felide", Maus entlang der Achse „kleines Säugetier". Der Raum ist groß genug, dass all diese Beziehungen nebeneinander existieren können, ohne zu kollidieren.
Menschen denken, man kann 768 Dimensionen nicht visualisieren. Embeddings verlangen das auch gar nicht: Sie nutzen sie einfach, um ihre Kategorien kollisionsfrei zu ordnen.
Nähe messen: die Cosine Similarity
Wenn wir sagen, dass zwei Wörter im Embedding-Raum „nah" beieinander liegen, wie misst man das konkret? Nicht mit der klassischen euklidischen Distanz. Sondern mit der Cosine Similarity.
Die Idee: Man betrachtet den Winkel zwischen den beiden Vektoren, nicht ihre Länge. Zwei Vektoren, die in dieselbe Richtung zeigen, haben eine Cosine Similarity von 1, unabhängig von ihrem Betrag. Zwei orthogonale Vektoren ergeben 0. Zwei entgegengesetzte Vektoren ergeben −1.
cos(u, v) = (u · v) / (||u|| × ||v||)
Warum gerade dieses Maß? Weil die Norm eines Embeddings (seine Länge) aus Gründen variiert, die nichts mit der Bedeutung zu tun haben — Worthäufigkeit, Tiefe der Schicht. Die Richtung hingegen kodiert die Bedeutung. Die Cosine Similarity isoliert genau das, was zählt.
Es ist auch dieses Maß, das die gesamte moderne semantische Suche antreibt: Vektordatenbanken (Pinecone, pgvector, Chroma…) indexieren Millionen von Vektoren und finden die nächsten Nachbarn einer Anfrage in Sekundenbruchteilen. Wir kommen darauf in Kapitel 10 (RAG) zurück.
Konsequenzen
Diese geometrische Darstellung hat überraschende Auswirkungen:
- Rechtschreibfehler sind robust.
halloundhalohaben sehr ähnliche Embeddings, also „versteht" das Modell sie fast gleich — obwohl sie auf Token-Ebene völlig verschieden sind. - Verzerrungen setzen sich fest. Wenn im Trainingskorpus
Krankenschwesterhäufiger weiblich undArzthäufiger männlich vorkommt, spiegelt die Embedding-Arithmetik das wider. Arzt − Mann + Frau kann Krankenschwester ergeben. Viel Arbeit fließt in die Korrektur solcher Verzerrungen — dazu mehr in Kapitel 8. - Alles wird berechenbar. Sobald Bedeutung zu einem Vektor geworden ist, kann man addieren, projizieren, Winkel messen. Genau das tut der nächste Mechanismus.
Was als nächstes kommt
Dein Wort ist zu einem Vektor geworden. Das Wort daneben auch. Und das davor. Wie entscheidet das Modell aus dieser Folge von Vektoren, dass in „Der Arzt schickte die Krankenschwester nach Hause, weil **sie**…" das Pronomen sie auf die Krankenschwester und nicht auf den Arzt verweist?
Die Antwort folgt im nächsten Kapitel: die Attention, der Mechanismus, der jedem Token erlaubt, alle anderen anzuschauen, bevor er entscheidet, wer er ist.
Aktualisiert am