Index

Tous les chapitres

De la tokenisation à l'alignement. Chaque chapitre contient au moins une visualisation manipulable.

IAnatomie d'un modèle

01
Fondations
Prédire un mot, encore et encore
Qu'est-ce qu'un modèle de langage ? Pourquoi prédire le mot suivant suffit pour faire émerger l'intelligence.
6 min
02
Tokenisation
Du texte aux tokens
Comment un texte devient des nombres. BPE, sous-mots, et pourquoi les LLMs comptent mal les lettres.
8 min
03
Embeddings
L'espace du sens
Des mots dans un espace géométrique. Roi − Homme + Femme = Reine, et autres miracles vectoriels.
10 min
04
Attention
Attention is all you need
Le mécanisme qui change tout. Comment chaque token regarde tous les autres pour comprendre le contexte.
12 min
05
Architecture
Le Transformer, en entier
Assembler les pièces : multi-head attention, feed-forward, normalisation, connexions résiduelles.
14 min

IIEntraîner et aligner

06
Entraînement
Comment ça apprend
Loss, gradient descent, backpropagation. Et pourquoi il faut des milliards de paramètres.
10 min
07
Génération
Choisir le mot suivant
Temperature, top-k, top-p. L'art de transformer une distribution de probabilités en texte.
7 min
08
Alignement
Du modèle brut à l'assistant
Fine-tuning, RLHF, constitutional AI. Comment on rend un LLM utile et inoffensif.
9 min

IIILe modèle en production

09
Contexte
Ce que le modèle se souvient
La fenêtre de contexte : mémoire parfaite mais bornée. Pourquoi ChatGPT oublie et ce que ça coûte.
8 min
10
RAG
Lire tes documents
Comment un LLM accède à des milliers de pages sans les mémoriser. Embeddings, recherche sémantique, contexte injecté.
9 min
11
Agents
Du modèle qui répond au modèle qui agit
Tool use, boucle ReAct, tâches multi-étapes. Comment un LLM devient un agent capable d'agir dans le monde.
10 min
12
Prompting
L'art de parler à un LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Pourquoi la formulation d'un prompt change radicalement ce qu'un modèle produit.
8 min
13
Hallucinations
Pourquoi les LLMs inventent
Calibration, certitudes fausses, contre-mesures. Le mécanisme structurel derrière la critique la plus fréquente — et ce qu'on peut y faire.
9 min

IVAller plus loin

14
Fine-tuning
Spécialiser un modèle sans tout réentraîner
LoRA, QLoRA, SFT. Comment adapter un modèle généraliste à un domaine précis en entraînant 0,1 % de ses paramètres.
9 min
15
Multimodalité
Quand le modèle lit des images
Patch embedding, ViT, CLIP. Comment un Transformer texte devient multimodal en traitant une image comme une grille de tokens.
8 min
16
Évaluation
Comment sait-on qu'un modèle est meilleur ?
MMLU, HumanEval, LMSYS Arena. Pourquoi mesurer l'intelligence d'un LLM est difficile — et pourquoi aucun benchmark ne suffit.
8 min
17
Raisonnement
Penser avant de répondre
Thinking tokens, raisonnement étendu, budgets de réflexion. Comment les modèles o1/o3 génèrent une chaîne de pensée cachée avant de répondre.
9 min
18
Inférence
Pourquoi le 2e token est plus rapide que le 1er
Le KV cache et la génération autoregressive. Prefill vs decode, TTFT, et pourquoi le cache change tout.
8 min
19
Scaling
Plus grand, toujours meilleur ?
Les lois d'échelle de Kaplan et Chinchilla. Pourquoi GPT-3 était sous-entraîné, et le ratio optimal de 20 tokens par paramètre.
9 min
20
Interprétabilité
Qu'est-ce qui se passe à l'intérieur ?
Circuits, neurones polysémantiques, Sparse Autoencoders. Comment Anthropic et DeepMind ouvrent la boîte noire.
9 min
21
Diffusion
Générer une image en effaçant du bruit
Stable Diffusion, DALL-E, Midjourney. Le processus inverse de débruitage, le rôle de CLIP, et pourquoi U-Net cède la place aux Transformers.
9 min

Prédire un mot, encore et encore

Du texte aux tokens

L'espace du sens

Attention is all you need

Le Transformer, en entier

Comment ça apprend

Choisir le mot suivant

Du modèle brut à l'assistant

Ce que le modèle se souvient

Lire tes documents

Du modèle qui répond au modèle qui agit

L'art de parler à un LLM

Pourquoi les LLMs inventent

Spécialiser un modèle sans tout réentraîner

Quand le modèle lit des images

Comment sait-on qu'un modèle est meilleur ?

Penser avant de répondre

Pourquoi le 2e token est plus rapide que le 1er

Plus grand, toujours meilleur ?

Qu'est-ce qui se passe à l'intérieur ?

Générer une image en effaçant du bruit