Index
Tous les chapitres
De la tokenisation à l'alignement. Chaque chapitre contient au moins une visualisation manipulable.
- 016 min
Fondations
Prédire un mot, encore et encore
Qu'est-ce qu'un modèle de langage ? Pourquoi prédire le mot suivant suffit pour faire émerger l'intelligence.
- 028 min
Tokenisation
Du texte aux tokens
Comment un texte devient des nombres. BPE, sous-mots, et pourquoi les LLMs comptent mal les lettres.
- 0310 min
Embeddings
L'espace du sens
Des mots dans un espace géométrique. Roi − Homme + Femme = Reine, et autres miracles vectoriels.
- 0412 min
Attention
Attention is all you need
Le mécanisme qui change tout. Comment chaque token regarde tous les autres pour comprendre le contexte.
- 0514 min
Architecture
Le Transformer, en entier
Assembler les pièces : multi-head attention, feed-forward, normalisation, connexions résiduelles.
- 0610 min
Entraînement
Comment ça apprend
Loss, gradient descent, backpropagation. Et pourquoi il faut des milliards de paramètres.
- 077 min
Génération
Choisir le mot suivant
Temperature, top-k, top-p. L'art de transformer une distribution de probabilités en texte.
- 089 min
Alignement
Du modèle brut à l'assistant
Fine-tuning, RLHF, constitutional AI. Comment on rend un LLM utile et inoffensif.
- 098 min
Contexte
Ce que le modèle se souvient
La fenêtre de contexte : mémoire parfaite mais bornée. Pourquoi ChatGPT oublie et ce que ça coûte.
- 109 min
RAG
Lire tes documents
Comment un LLM accède à des milliers de pages sans les mémoriser. Embeddings, recherche sémantique, contexte injecté.
- 1110 min
Agents
Du modèle qui répond au modèle qui agit
Tool use, boucle ReAct, tâches multi-étapes. Comment un LLM devient un agent capable d'agir dans le monde.
- 128 min
Prompting
L'art de parler à un LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Pourquoi la formulation d'un prompt change radicalement ce qu'un modèle produit.
- 139 min
Hallucinations
Pourquoi les LLMs inventent
Calibration, certitudes fausses, contre-mesures. Le mécanisme structurel derrière la critique la plus fréquente — et ce qu'on peut y faire.
- 149 min
Fine-tuning
Spécialiser un modèle sans tout réentraîner
LoRA, QLoRA, SFT. Comment adapter un modèle généraliste à un domaine précis en entraînant 0,1 % de ses paramètres.
- 158 min
Multimodalité
Quand le modèle lit des images
Patch embedding, ViT, CLIP. Comment un Transformer texte devient multimodal en traitant une image comme une grille de tokens.
- 168 min
Évaluation
Comment sait-on qu'un modèle est meilleur ?
MMLU, HumanEval, LMSYS Arena. Pourquoi mesurer l'intelligence d'un LLM est difficile — et pourquoi aucun benchmark ne suffit.
- 179 min
Raisonnement
Penser avant de répondre
Thinking tokens, raisonnement étendu, budgets de réflexion. Comment les modèles o1/o3 génèrent une chaîne de pensée cachée avant de répondre.
- 188 min
Inférence
Pourquoi le 2e token est plus rapide que le 1er
Le KV cache et la génération autoregressive. Prefill vs decode, TTFT, et pourquoi le cache change tout.
- 199 min
Scaling
Plus grand, toujours meilleur ?
Les lois d'échelle de Kaplan et Chinchilla. Pourquoi GPT-3 était sous-entraîné, et le ratio optimal de 20 tokens par paramètre.
- 209 min
Interprétabilité
Qu'est-ce qui se passe à l'intérieur ?
Circuits, neurones polysémantiques, Sparse Autoencoders. Comment Anthropic et DeepMind ouvrent la boîte noire.
- 219 min
Diffusion
Générer une image en effaçant du bruit
Stable Diffusion, DALL-E, Midjourney. Le processus inverse de débruitage, le rôle de CLIP, et pourquoi U-Net cède la place aux Transformers.