Chapitre 13 · Hallucinations · 9 min
Pourquoi les LLMs inventent
Calibration, certitudes fausses, contre-mesures. Le mécanisme structurel derrière la critique la plus fréquente — et ce qu'on peut y faire.
La critique la plus fréquente
Tu poses à un LLM une question sur un sujet pointu. Il te répond avec aplomb : une référence bibliographique, une date, une citation. Tu vérifies. Le livre n'existe pas. La date est fausse. La citation est inventée.
Ce phénomène a un nom officiel — hallucination — et c'est probablement la première chose qu'on reproche aux LLMs. Pas un bug occasionnel : une propriété structurelle. Pour comprendre pourquoi, il faut revenir à la façon dont le modèle a été entraîné.
Trois mécanismes qui se combinent
1. La cross-entropy ne récompense pas l'incertitude. Pendant le pré-entraînement (chapitre 06), l'objectif est de minimiser la log-probabilité du token correct. À aucun moment le modèle n'apprend à dire « je ne sais pas » : il apprend à toujours prédire quelque chose, le plus plausible possible. Si la bonne réponse n'est pas dans ses poids, il produit la chaîne la plus vraisemblable, pas un aveu d'ignorance.
2. Le RLHF récompense la confiance plus que l'honnêteté. Pendant l'alignement (chapitre 08), des humains classent les réponses. En moyenne, ils préfèrent une réponse confiante et bien tournée à un « je ne suis pas sûr ». Le reward model apprend ce biais, et le LLM apprend à avoir l'air sûr — même quand il ne l'est pas.
3. Pas de boucle de vérification interne. Un humain qui invente une citation s'arrête, doute, va vérifier. Un LLM générant token par token n'a pas ce mécanisme. Il avance, sans contrôle externe, et chaque token engendre le suivant dans la même logique de plausibilité.
Une hallucination n'est pas un bug. C'est ce qui se passe quand un système entraîné à toujours produire du texte plausible tombe sur une question dont la réponse n'est pas dans ses poids.
Le problème de calibration
Un modèle bien calibré est un modèle dont la confiance affichée correspond à la probabilité d'être correct. S'il dit « je suis sûr à 80 % », il devrait avoir raison environ 80 % du temps.
Les LLMs bruts (avant RLHF) sont étonnamment bien calibrés sur leurs probabilités internes. Mais l'alignement décalibre le modèle : en récompensant la confiance, on l'éloigne de la vérité statistique de ses propres prédictions.
C'est ce qui explique le mode « hallucinate avec aplomb » : ce n'est pas que le modèle ne sait pas qu'il ne sait pas. C'est que son entraînement l'a poussé à masquer cette incertitude.
Le modèle attribue une probabilité à chacune de ses affirmations. Une affirmation fausse mais cohérente reçoit souvent un score élevé : c'est le mécanisme structurel des hallucinations, pas un bug ponctuel qu'un patch peut corriger.
Joue avec quelques questions. Observe comment la confiance affichée et la probabilité d'être correct ne suivent pas toujours la même courbe. Active + RAG ou + raisonnement étendu pour voir comment les contre-mesures réduisent l'écart.
Quatre familles de contre-mesures
Les hallucinations ne disparaissent pas avec un meilleur alignement. Elles sont structurelles. Pour les réduire en pratique, il faut des leviers systémiques, pas seulement un meilleur modèle.
1. Connecter le modèle à des outils (chapitre 11)
La règle : tout ce qu'un LLM fait mal, on le délègue à un système déterministe. Calculer une dérivée ? Code interpreter. Récupérer un cours de bourse ? API. Vérifier qu'un fichier existe ? File system tool. Le modèle ne tente plus de deviner le résultat — il l'observe.
Effet : les hallucinations sur les domaines couverts par les outils chutent à zéro. Les hallucinations sur les autres domaines restent.
2. RAG (chapitre 10)
Plutôt que de demander au modèle ce qu'il se souvient d'un sujet, on lui donne des sources fiables au moment de répondre. Les hallucinations bibliographiques ou factuelles diminuent fortement, parce que le modèle peut citer ce qu'il lit, pas seulement ce qu'il imagine.
Limite : si les sources sont mauvaises ou mal récupérées, le modèle hallucine sur leur contenu. Et même avec de bonnes sources, il peut sur-extrapoler (« la source dit X, donc forcément Y »).
3. Raisonnement étendu (chapitre 17)
Un modèle qui prend le temps de vérifier son brouillon avant de répondre se trompe moins. Les modèles de raisonnement (o1, o3, Claude extended thinking) génèrent une chaîne de pensée invisible, dans laquelle ils peuvent recalculer, contredire une étape, repartir d'une autre piste.
C'est imparfait — un modèle peut halluciner dans son raisonnement aussi — mais le simple fait de dérouler les étapes attrape une partie significative des erreurs.
4. Fine-tuner explicitement sur l'incertitude
L'angle le plus prometteur côté recherche : entraîner le modèle à abstention. On lui montre des paires (question, réponse) où, quand la probabilité interne est faible, la bonne réponse est « je ne sais pas » ou « je n'ai pas l'information ». Le modèle apprend à reconnaître son propre niveau de confiance, et à le communiquer.
Plusieurs labs travaillent là-dessus (DeepMind, Anthropic). C'est encore loin d'être robuste, mais c'est la seule technique qui s'attaque vraiment à la racine du problème.
Détecter une hallucination en pratique
Quelques heuristiques utiles côté utilisateur :
- Demande des sources. Si le modèle ne peut pas citer ses sources, ou les invente, traite la réponse comme suspecte.
- Vérifie ce qui est précis. Les noms propres, dates, chiffres exacts, citations sont les zones à risque. Le contenu général est souvent OK.
- Reformule la question différemment. Un modèle qui invente donne souvent des réponses cohérentes à la même question reformulée — mais incohérentes à des reformulations très différentes.
- Demande au modèle son niveau de confiance. Imparfait, mais corrélé à la qualité réelle de la réponse, surtout sur les modèles récents.
- Croise avec un autre modèle. Les hallucinations sont rarement les mêmes d'un modèle à l'autre. Une réponse sur laquelle GPT-4 et Claude convergent a beaucoup plus de chances d'être correcte.
Ce qu'il faut retenir
Trois choses.
Une. Les hallucinations ne sont pas un défaut du modèle : c'est la conséquence de son objectif d'entraînement. Aucun fine-tuning superficiel ne les fait disparaître.
Deux. Les contre-mesures qui marchent en production sont systémiques (RAG, outils, raisonnement, abstention). Aucune n'est parfaite isolée ; combinées, elles ramènent le taux d'hallucination à un niveau acceptable pour la plupart des cas.
Trois. Pour l'utilisateur final, la meilleure défense reste de ne pas faire confiance aveuglément, surtout sur les détails précis (sources, dates, chiffres). Un LLM qui te répond avec aplomb n'est pas une preuve qu'il a raison.
Demander à un LLM « es-tu sûr ? » n'est pas une vérification. C'est juste une autre génération de texte plausible.
Mis à jour le