Chapitre 19 · Scaling · 9 min
Plus grand, toujours meilleur ?
Les lois d'échelle de Kaplan et Chinchilla. Pourquoi GPT-3 était sous-entraîné, et le ratio optimal de 20 tokens par paramètre.
Une intuition trompeuse
Pendant des années, l'industrie de l'IA a vécu sur une croyance simple : un modèle deux fois plus grand est meilleur. GPT-2 (1,5 milliard de paramètres) a été dépassé par GPT-3 (175 milliards). PaLM, Megatron, Gopher — la course aux paramètres semblait sans fin.
Puis, en 2022, une équipe de DeepMind a publié un papier qui a tout changé. Leur thèse : les grands modèles de l'époque étaient massivement sous-entraînés. Pas trop petits — sous-alimentés en données.
Le modèle qui démontrait cette thèse s'appelait Chinchilla.
La loi de Kaplan : la première formulation
En 2020, OpenAI publie un papier de Jared Kaplan et collègues — "Scaling Laws for Neural Language Models" — qui montre quelque chose de remarquable. Sur des dizaines de modèles entraînés à différentes tailles, la perte de validation suit une loi de puissance simple :
L ≈ L∞ + (C₀ / C)^α
Décodage de la formule :
- C — le compute total injecté dans l'entraînement (en FLOPs).
- L — la perte de validation à la fin.
- L∞ — la perte irréductible : la limite en dessous de laquelle on ne peut pas descendre, même avec un compute infini. C'est l'entropie naturelle du langage humain — il y a toujours une part d'imprévisibilité dans le mot suivant.
- C₀ — une constante de normalisation qui dépend de l'architecture.
- α ≈ 0,05 — l'exposant de la loi de puissance.
En clair : doubler le compute réduit la perte d'une quantité prévisible. La loi est étonnamment robuste sur 7 ordres de grandeur.
Kaplan en tire une conclusion qui guidera l'industrie pendant deux ans : étant donné un budget de compute, allouez la majorité à la taille du modèle, peu aux données.
C'est ce qu'OpenAI a fait avec GPT-3. 175 milliards de paramètres, mais « seulement » 300 milliards de tokens d'entraînement.
Chinchilla casse la baraque
En 2022, Hoffmann et al. (DeepMind) refont l'expérience avec une méthodologie différente. Au lieu de fixer la taille du modèle et de varier le compute, ils explorent systématiquement le plan (N, D) à compute constant.
Leur conclusion contredit directement Kaplan : N et D doivent croître à la même vitesse. Pour minimiser la perte étant donné un budget de compute fixe, il faut entraîner un modèle de taille modeste sur beaucoup de données.
Plus précisément, le ratio optimal est :
D ≈ 20 × N
Pour un modèle de 70 milliards de paramètres, l'optimum est de l'ordre de 1,4 trillion de tokens (1 400 milliards). GPT-3 (175 milliards de paramètres, 300 milliards de tokens) avait un ratio de 1,7 — vingt fois moins que l'optimum.
DeepMind l'a prouvé en entraînant Chinchilla : 70 milliards de paramètres, 1,4 trillion de tokens. Plus petit que GPT-3, plus de tokens, et meilleur sur tous les benchmarks.
La carte du compute
Sur le graphe log-log, la perte décroît en loi de puissance avec le compute. Les sliders N (paramètres) et D (tokens) montrent l'iso-compute curve : pour un budget donné, il existe un ratio N/D optimal — environ 20 tokens par paramètre selon Chinchilla.
Bouge le point pour explorer le plan (N, D). La diagonale Chinchilla est la ligne où chaque dollar de compute est dépensé optimalement. Au-dessus, on a entraîné trop longtemps un modèle trop petit ; en-dessous, on a fait l'inverse.
Tu remarqueras quelque chose d'intéressant : LLaMA-3 est très au-dessus de la diagonale. Avec 70 milliards de paramètres entraînés sur 15 trillions de tokens, son ratio est de 214 — dix fois plus que l'optimum Chinchilla.
Pourquoi ? Parce que Meta a optimisé pour autre chose que l'efficacité du compute d'entraînement. Ils ont optimisé pour le coût d'inférence. Un modèle plus petit entraîné plus longtemps coûte plus cher à entraîner (un peu) mais beaucoup moins cher à servir en production. Sur des milliards de requêtes, l'économie est massive.
Au-delà des paramètres : la qualité des données
Les lois d'échelle ne sont pas la fin de l'histoire. Plusieurs limites apparaissent.
La quantité de données disponible est finie. Common Crawl, Wikipedia, GitHub, ArXiv, livres scannés — l'inventaire de données textuelles de qualité sur Internet n'est pas infini. Plusieurs équipes estiment qu'on approche du mur : entraîner un modèle de 1 trillion de paramètres à l'optimum Chinchilla demanderait 20 trillions de tokens, ce qui dépasse largement les corpus publics propres.
La qualité bat la quantité, mais seulement jusqu'à un point. Filtrer un corpus pour ne garder que les données de haute qualité (manuels, livres techniques, code propre) améliore le modèle plus que d'ajouter des données médiocres. Mais le filtrage trop agressif finit par appauvrir la distribution et nuire à la généralisation.
Les capacités émergentes brouillent la courbe. Pour certaines tâches (raisonnement multi-étapes, mathématiques complexes, instructions rares), la performance reste plate jusqu'à un certain seuil de taille — puis monte brutalement. Ces "emergent abilities" sont controversées : certains chercheurs (Schaeffer et al., 2023) montrent qu'elles disparaissent quand on choisit une métrique plus continue. Mais le phénomène pratique reste : les petits modèles ne savent pas faire certaines choses, peu importe le fine-tuning.
La leçon pratique
Si tu entraînes un modèle aujourd'hui, voici ce que les scaling laws te disent :
- Compute fixe ? Vise un ratio D/N proche de 20. C'est l'optimum d'entraînement.
- Tu vas servir le modèle massivement ? Décale le ratio vers le haut. Un modèle plus petit entraîné plus longtemps coûte moins cher à l'inférence — c'est ce que font Meta, Mistral, et de plus en plus d'équipes.
- Tu vises une capacité émergente ? Les petites optimisations ne suffiront pas. Il faut franchir un seuil de taille.
- Tu manques de données ? La qualité, le filtrage, et la diversité comptent plus que la taille brute du corpus.
Les lois d'échelle ne disent pas qu'il faut grossir indéfiniment. Elles disent qu'il y a un ratio juste entre paramètres et données — et qu'on a passé des années à se tromper de côté.
Mis à jour le