Chapitre 20 · Interprétabilité · 9 min
Qu'est-ce qui se passe à l'intérieur ?
Circuits, neurones polysémantiques, Sparse Autoencoders. Comment Anthropic et DeepMind ouvrent la boîte noire.
Une boîte noire qui marche
Un LLM avec 70 milliards de paramètres est un objet qu'on entraîne, qu'on évalue, qu'on déploie — mais qu'on ne comprend pas vraiment. On sait quels poids il a appris. On sait que ces poids implémentent quelque chose. On ne sait pas quoi.
Pendant longtemps, ça ne semblait pas important. Si ça marche, ça marche. Mais à mesure que les LLMs prennent des décisions à conséquences réelles — code médical, agents autonomes, modération de contenu — la question devient pressante : est-ce qu'on peut ouvrir la boîte ?
C'est l'objet de l'interprétabilité mécaniste. Pas une discipline qui décrit ce que fait un modèle de l'extérieur (ça, c'est le benchmarking), mais une qui cherche à reverser-engineerer les algorithmes implémentés dans les neurones.
Petit vocabulaire pour ce chapitre
Avant de plonger, voici les termes qu'on va croiser. On les développera au fur et à mesure — ce tableau est juste un repère pour ne pas se perdre.
| Terme | En une phrase |
|---|---|
| Feature | Un motif récurrent dans les activations du modèle, qu'on peut souvent associer à un concept humain. |
| Polysémantique | Un neurone qui s'allume sur plusieurs concepts non liés. La règle, dans un LLM. |
| Monosémantique | Une "feature" qui répond à un seul concept identifiable. Le but du jeu. |
| Superposition | Le réseau encode plus de concepts qu'il n'a de neurones, en les empilant. |
| Circuit | Un sous-graphe du réseau qui implémente une fonction précise. |
| SAE (Sparse Autoencoder) | La technique qui décompose les activations en features monosémantiques. |
| Steering | Modifier le comportement du modèle en amplifiant ou supprimant une feature. |
Le problème : neurones polysémantiques
Si tu pouvais ouvrir un Transformer et observer un neurone précis, tu espérerais peut-être trouver « le neurone qui détecte les chiens » ou « le neurone qui sait faire de l'addition ». La réalité est plus désordonnée.
Un neurone d'un LLM est typiquement polysémantique : il s'active sur plusieurs concepts non liés. Le même neurone peut fortement répondre à des mentions de chiens, à des verbes au passé, à des questions ouvertes en français, et à des balises HTML. Pourquoi ? Parce que le réseau a beaucoup plus de concepts à représenter qu'il n'a de neurones — il les superpose.
Cette superposition (Elhage et al., 2022) est une découverte clé. Elle explique pourquoi observer un neurone à la loupe ne donne presque jamais de signal interprétable.
La solution : Sparse Autoencoders
Si les concepts sont superposés dans les neurones, alors la bonne base pour les regarder n'est pas l'espace des neurones — c'est un autre espace, plus grand, où chaque dimension correspondrait à un seul concept.
C'est l'idée des Sparse Autoencoders (SAE). On apprend une projection de l'activation interne du modèle vers un espace beaucoup plus large (souvent 10× ou 100× plus large), avec une contrainte de parcimonie : seules quelques dimensions doivent être actives à la fois. Le réseau est forcé à représenter chaque activation comme une combinaison d'un petit nombre de features interprétables.
Anthropic a publié en 2024 un papier marquant ("Scaling Monosemanticity") qui applique cette technique sur Claude 3 Sonnet. Ils ont extrait des millions de features, dont certaines spectaculaires : une feature pour le concept de pont Golden Gate, une pour les bugs de code, une pour la flatterie, une pour la trahison. Ces features sont monosémantiques — chacune correspond à un concept unique et reconnaissable.
Explore par toi-même
Survole un neurone pour voir ce qui l'active. Beaucoup répondent à des concepts sans rapport apparent — c'est la polysémanticité. Les Sparse Autoencoders décomposent ces activations en features humainement interprétables, base de l'interprétabilité mécaniste.
Choisis une feature et regarde sur quels tokens elle s'allume dans différents passages. Tu remarques que certaines features (comme la négation ou les noms propres) traversent les langues et les contextes — ce sont des concepts robustes que le modèle a abstraits.
Les circuits : algorithmes émergents
Au-delà des features, l'interprétabilité étudie les circuits : des sous-graphes du réseau qui implémentent une fonction précise. Un peu comme on identifierait, dans un microprocesseur, le sous-circuit qui fait l'addition.
L'exemple le plus célèbre est l'induction head, découvert par Anthropic en 2022 (Olsson et al.). C'est un mécanisme qui apparaît typiquement dans les couches intermédiaires d'un Transformer, et qui implémente une règle simple : si le modèle a vu le motif AB plus tôt dans le contexte, et qu'il revoit A maintenant, il prédit B.
C'est une forme primitive d'apprentissage en contexte (in-context learning). Avant ce circuit, le modèle ne sait pas exploiter les répétitions du contexte. Après, il devient brutalement plus performant — et cette transition coïncide avec un saut dans les benchmarks de few-shot.
Plusieurs autres circuits ont été identifiés :
- Induction heads — copie de patterns du contexte
- Bracket completion — fermeture cohérente de parenthèses imbriquées
- Indirect object identification — résolution de "Marie a donné le livre à Paul" → "à elle" se réfère à Marie
- Feature suppression — un head qui éteint une feature dans certains contextes
Chaque circuit est un petit algorithme que le réseau a découvert tout seul pendant l'entraînement.
Pourquoi ça compte pour la sécurité
L'interprétabilité n'est pas qu'une curiosité scientifique. C'est, pour beaucoup de chercheurs, la voie la plus prometteuse pour aligner sérieusement les modèles puissants.
Aujourd'hui, on aligne par RLHF et fine-tuning : on modifie les réponses observables, mais on ne sait pas si le modèle a vraiment internalisé une valeur ou s'il fait simplement semblant en surface. Si on pouvait identifier les features et les circuits responsables, par exemple, du comportement de tromperie, ou du raisonnement moral, on aurait un levier beaucoup plus solide.
Anthropic a montré qu'on peut steerer un modèle directement : en amplifiant artificiellement la feature « pont Golden Gate », ils ont rendu Claude obsédé par ce pont — il l'évoquait à propos de toute question. Démonstration ludique, mais le même mécanisme permettrait, en principe, de supprimer chirurgicalement un comportement dangereux sans dégrader le reste.
Les limites actuelles
L'interprétabilité mécaniste est une discipline jeune. Les difficultés sont nombreuses :
- L'échelle. Un SAE sur Claude 3 a extrait 34 millions de features. Les annoter, les nommer, les comprendre une par une est gigantesque.
- La complétude. On trouve des features. On en rate aussi. Combien de concepts importants nous échappent ?
- La compositionnalité. Comprendre une feature isolée est faisable. Comprendre comment 50 features interagissent pour produire un comportement est beaucoup plus dur.
- La généralisation. Une feature trouvée sur GPT-2 ne se transpose pas mécaniquement sur Claude ou Llama. Chaque modèle est sa propre boîte.
Mais le rythme des publications s'accélère. Anthropic, DeepMind, EleutherAI, OpenAI, Apollo Research, Goodfire, Transluce — des équipes entières se forment autour de ces questions.
Si on veut faire confiance à des modèles toujours plus puissants pour des décisions toujours plus importantes, on aura besoin de mieux que de leur faire passer un examen. On aura besoin de regarder à l'intérieur.
Mis à jour le