Capítulo 20 · Interpretabilidad · 9 min

¿Qué pasa realmente dentro?

Circuitos, neuronas polisemánticas, Sparse Autoencoders. Cómo Anthropic y DeepMind abren la caja negra.

Una caja negra que funciona

Un LLM con 70 mil millones de parametros es un objeto que se entrena, se evalua, se despliega — pero que no entendemos realmente. Sabemos que pesos ha aprendido. Sabemos que esos pesos implementan algo. No sabemos que.

Durante mucho tiempo, eso no parecia importante. Si funciona, funciona. Pero a medida que los LLMs toman decisiones con consecuencias reales — codigo medico, agentes autonomos, moderacion de contenido — la pregunta se vuelve apremiante: podemos abrir la caja?

Ese es el objeto de la interpretabilidad mecanistica. No una disciplina que describe lo que hace un modelo desde fuera (eso es benchmarking), sino una que busca hacer ingenieria inversa de los algoritmos implementados en las neuronas.

Un pequeño vocabulario para este capitulo

Antes de zambullirnos, estos son los terminos que iremos cruzando. Los desarrollaremos sobre la marcha — esta tabla solo es un asidero para no perderse.

TerminoEn una frase
FeatureUn patron recurrente en las activaciones del modelo, que a menudo se puede asociar con un concepto humano.
PolisemanticaUna neurona que se enciende sobre varios conceptos no relacionados. La regla, en un LLM.
MonosemanticaUna "feature" que responde a un solo concepto identificable. El objetivo.
SuperposicionLa red codifica mas conceptos que neuronas tiene, apilandolos.
CircuitoUn subgrafo de la red que implementa una funcion concreta.
SAE (Sparse Autoencoder)La tecnica que descompone las activaciones en features monosemanticas.
SteeringModificar el comportamiento del modelo amplificando o suprimiendo una feature.

El problema: neuronas polisemanticas

Si pudieras abrir un Transformer y observar una neurona concreta, quizas esperarias encontrar "la neurona que detecta perros" o "la neurona que sabe sumar". La realidad es mas desordenada.

Una neurona de un LLM es tipicamente polisemantica: se activa sobre varios conceptos no relacionados. La misma neurona puede responder con fuerza a menciones de perros, a verbos en pasado, a preguntas abiertas en frances, y a etiquetas HTML. Por que? Porque la red tiene muchos mas conceptos que representar que neuronas — los superpone.

Esa superposicion (Elhage et al., 2022) es un descubrimiento clave. Explica por que mirar de cerca a una neurona casi nunca da una señal interpretable.

La solucion: Sparse Autoencoders

Si los conceptos estan superpuestos en las neuronas, entonces la base correcta para mirarlos no es el espacio de las neuronas — es otro espacio, mas grande, donde cada dimension corresponderia a un solo concepto.

Esa es la idea de los Sparse Autoencoders (SAE). Se aprende una proyeccion de la activacion interna del modelo hacia un espacio mucho mas amplio (a menudo 10× o 100× mas grande), con una restriccion de parsimonia: solo unas pocas dimensiones deben estar activas a la vez. La red es forzada a representar cada activacion como una combinacion de un pequeño numero de features interpretables.

Anthropic publico en 2024 un paper marcante ("Scaling Monosemanticity") que aplica esta tecnica a Claude 3 Sonnet. Extrajeron millones de features, algunas espectaculares: una feature para el concepto de puente Golden Gate, una para los bugs de codigo, una para la adulacion, una para la traicion. Esas features son monosemanticas — cada una corresponde a un concepto unico y reconocible.

Explora tu mismo

Pasa el cursor sobre una neurona para ver qué la activa. Muchas responden a conceptos sin relación aparente — eso es polisemanticidad. Los Sparse Autoencoders descomponen estas activaciones en features humanamente interpretables, base de la interpretabilidad mecanística.

Elige una feature y mira sobre que tokens se enciende en distintos pasajes. Notaras que algunas features (como la negacion o los nombres propios) atraviesan idiomas y contextos — son conceptos robustos que el modelo ha abstraido.

Los circuitos: algoritmos emergentes

Mas alla de las features, la interpretabilidad estudia los circuitos: subgrafos de la red que implementan una funcion concreta. Algo asi como identificar, en un microprocesador, el subcircuito que hace la suma.

El ejemplo mas famoso es el induction head, descubierto por Anthropic en 2022 (Olsson et al.). Es un mecanismo que aparece tipicamente en las capas intermedias de un Transformer, y que implementa una regla simple: si el modelo ha visto el patron AB antes en el contexto, y vuelve a ver A ahora, predice B.

Es una forma primitiva de aprendizaje en contexto (in-context learning). Antes de este circuito, el modelo no sabe explotar las repeticiones del contexto. Despues, se vuelve bruscamente mas capaz — y esa transicion coincide con un salto en los benchmarks de few-shot.

Se han identificado varios otros circuitos:

  • Induction heads — copia de patrones del contexto
  • Bracket completion — cierre coherente de parentesis anidados
  • Indirect object identification — resolucion de "Maria le dio el libro a Pablo" → "a ella" se refiere a Maria
  • Feature suppression — un head que apaga una feature en ciertos contextos

Cada circuito es un pequeño algoritmo que la red descubrio por su cuenta durante el entrenamiento.

Por que importa para la seguridad

La interpretabilidad no es solo curiosidad cientifica. Es, para muchos investigadores, la via mas prometedora para alinear seriamente los modelos potentes.

Hoy, alineamos por RLHF y fine-tuning: modificamos las respuestas observables, pero no sabemos si el modelo ha interiorizado realmente un valor o si solo lo simula en la superficie. Si pudieramos identificar las features y los circuitos responsables, por ejemplo, del comportamiento de engaño, o del razonamiento moral, tendriamos una palanca mucho mas solida.

Anthropic ha mostrado que se puede steerear a un modelo directamente: amplificando artificialmente la feature "puente Golden Gate", hicieron que Claude se obsesionara con ese puente — lo evocaba a proposito de cualquier pregunta. Demostracion ludica, pero el mismo mecanismo permitiria, en principio, suprimir quirurgicamente un comportamiento peligroso sin degradar el resto.

Los limites actuales

La interpretabilidad mecanistica es una disciplina joven. Las dificultades son numerosas:

  • La escala. Un SAE sobre Claude 3 ha extraido 34 millones de features. Anotarlas, nombrarlas, entenderlas una por una es gigantesco.
  • La completitud. Encontramos features. Tambien las perdemos. Cuantos conceptos importantes se nos escapan?
  • La composicionalidad. Entender una feature aislada es factible. Entender como 50 features interactuan para producir un comportamiento es mucho mas dificil.
  • La generalizacion. Una feature encontrada en GPT-2 no se traslada mecanicamente a Claude o Llama. Cada modelo es su propia caja.

Pero el ritmo de las publicaciones se acelera. Anthropic, DeepMind, EleutherAI, OpenAI, Apollo Research, Goodfire, Transluce — equipos enteros se forman alrededor de estas preguntas.

Si queremos confiar en modelos cada vez mas potentes para decisiones cada vez mas importantes, vamos a necesitar mas que hacerles pasar un examen. Vamos a necesitar mirar dentro.

Actualizado el

Interpretabilidad mecanística: abrir la caja negra del LLM · Step by Token