Ein interaktiver Leitfaden zu LLMs

Step by Token

Verstehen, wie große Sprachmodelle funktionieren – eine interaktive Visualisierung nach der anderen.

Inhaltsverzeichnis

21 / 21 · 189 min
IIIDas Modell im Einsatz
  1. 09

    Was das Modell erinnert

    Das Kontextfenster: perfektes, aber begrenztes Gedächtnis. Warum ChatGPT vergisst und was es kostet.

    8 min
  2. 10

    Deine Dokumente lesen

    Wie ein LLM auf Tausende von Seiten zugreift, ohne sie zu memorieren. Embeddings, semantische Suche, injizierter Kontext.

    9 min
  3. 11

    Vom antwortenden Modell zum handelnden Modell

    Tool-Nutzung, ReAct-Schleife, mehrstufige Aufgaben. Wie ein LLM zu einem Agenten wird, der in der Welt handeln kann.

    10 min
  4. 12

    Die Kunst, mit einem LLM zu sprechen

    Zero-Shot, Few-Shot, Chain-of-Thought, Self-Consistency. Warum die Formulierung eines Prompts das Ergebnis grundlegend verändert.

    8 min
  5. 13

    Warum LLMs erfinden

    Kalibrierung, falsche Gewissheiten, Gegenmaßnahmen. Der strukturelle Mechanismus hinter der häufigsten Kritik — und was sich dagegen tun lässt.

    9 min
IVWeitergehen
  1. 14

    Ein Modell spezialisieren ohne alles neu zu trainieren

    LoRA, QLoRA, SFT. Wie man ein generalistisches Modell an eine bestimmte Domäne anpasst, indem man 0,1% seiner Parameter trainiert.

    9 min
  2. 15

    Wenn das Modell Bilder liest

    Patch-Embedding, ViT, CLIP. Wie ein Text-Transformer multimodal wird, indem er ein Bild als Gitter von Tokens behandelt.

    8 min
  3. 16

    Woher wissen wir, dass ein Modell besser ist?

    MMLU, HumanEval, LMSYS Arena. Warum die Messung der Intelligenz eines LLM schwierig ist — und warum kein einzelner Benchmark ausreicht.

    8 min
  4. 17

    Denken, bevor man antwortet

    Thinking Tokens, erweitertes Schlussfolgern, Denkbudgets. Wie o1/o3-Modelle eine versteckte Gedankenkette generieren, bevor sie antworten.

    9 min
  5. 18

    Warum der 2. Token schneller ist als der 1.

    Der KV-Cache und die autoregressive Generierung. Prefill vs. Decode, TTFT, und warum der Cache alles verändert.

    8 min
  6. 19

    Größer, immer besser?

    Die Skalierungsgesetze von Kaplan und Chinchilla. Warum GPT-3 unterbelastet war und das optimale Verhältnis von 20 Tokens pro Parameter.

    9 min
  7. 20

    Was geht wirklich im Inneren vor?

    Circuits, polysemantische Neuronen, Sparse Autoencoders. Wie Anthropic und DeepMind die Black Box öffnen.

    9 min
  8. 21

    Ein Bild erzeugen, indem man Rauschen entfernt

    Stable Diffusion, DALL-E, Midjourney. Der umgekehrte Entrauschungs-Prozess, die Rolle von CLIP, und warum U-Net den Transformern weicht.

    9 min
Step by Token