Capítulo 20 · Interpretabilidade · 9 min

O que está realmente acontecendo lá dentro?

Circuitos, neurônios polissemânticos, Sparse Autoencoders. Como Anthropic e DeepMind abrem a caixa preta.

Uma caixa-preta que funciona

Um LLM com 70 bilhoes de parametros e um objeto que se treina, se avalia, se implanta — mas que nao se entende de verdade. Sabemos quais pesos ele aprendeu. Sabemos que esses pesos implementam alguma coisa. Nao sabemos o que.

Por muito tempo, isso nao parecia importante. Se funciona, funciona. Mas a medida que os LLMs tomam decisoes com consequencias reais — codigo medico, agentes autonomos, moderacao de conteudo — a pergunta fica urgente: da para abrir a caixa?

E esse o objetivo da interpretabilidade mecanicista. Nao uma disciplina que descreve o que um modelo faz por fora (isso e benchmarking), mas uma que tenta fazer engenharia reversa dos algoritmos implementados nos neuronios.

Pequeno vocabulario para este capitulo

Antes de mergulhar, eis os termos que vao aparecer. Vamos desenvolve-los ao longo do caminho — esta tabela e so um apoio para nao se perder.

TermoEm uma frase
FeatureUm padrao recorrente nas ativacoes do modelo, frequentemente associavel a um conceito humano.
PolissemanticoUm neuronio que dispara em varios conceitos nao relacionados. A norma num LLM.
MonossemanticoUma "feature" que responde a um unico conceito identificavel. O objetivo.
SuperposicaoA rede codifica mais conceitos do que tem neuronios, empilhando-os.
CircuitoUm subgrafo da rede que implementa uma funcao especifica.
SAE (Sparse Autoencoder)A tecnica que decompoe as ativacoes em features monossemanticas.
SteeringModificar o comportamento do modelo amplificando ou suprimindo uma feature.

O problema: neuronios polissemanticos

Se voce pudesse abrir um Transformer e observar um neuronio especifico, talvez esperasse encontrar "o neuronio que detecta cachorros" ou "o neuronio que sabe somar". A realidade e mais bagunçada.

Um neuronio de um LLM costuma ser polissemantico: ele se ativa em varios conceitos nao relacionados. O mesmo neuronio pode disparar forte em mencoes a cachorros, verbos no passado, perguntas abertas em frances e tags HTML. Por que? Porque a rede tem muito mais conceitos para representar do que neuronios — entao ela os superpoe.

Essa superposicao (Elhage et al., 2022) e uma descoberta-chave. Ela explica por que olhar um neuronio na lupa quase nunca da um sinal interpretavel.

A solucao: Sparse Autoencoders

Se os conceitos estao superpostos nos neuronios, entao a base certa para olha-los nao e o espaco dos neuronios — e outro espaco, maior, onde cada dimensao corresponderia a um unico conceito.

E essa a ideia dos Sparse Autoencoders (SAE). Aprendemos uma projecao da ativacao interna do modelo para um espaco muito mais amplo (frequentemente 10× ou 100× maior), com uma restricao de esparsidade: so algumas dimensoes devem estar ativas ao mesmo tempo. A rede e forcada a representar cada ativacao como uma combinacao de um pequeno numero de features interpretaveis.

Em 2024, a Anthropic publicou um paper marcante ("Scaling Monosemanticity") que aplica essa tecnica no Claude 3 Sonnet. Eles extrairam milhoes de features, algumas espetaculares: uma feature para o conceito da ponte Golden Gate, uma para bugs de codigo, uma para bajulacao, uma para traicao. Essas features sao monossemanticas — cada uma corresponde a um conceito unico e reconhecivel.

Explore voce mesmo

Passe o mouse sobre um neurônio para ver o que o ativa. Muitos respondem a conceitos sem relação aparente — é a polissemanticidade. Os Sparse Autoencoders decompõem estas ativações em features interpretáveis pelo humano, base da interpretabilidade mecanística.

Escolha uma feature e veja em quais tokens ela acende em diferentes trechos. Voce nota que algumas features (como a negacao ou os nomes proprios) atravessam linguas e contextos — sao conceitos robustos que o modelo abstraiu.

Os circuitos: algoritmos emergentes

Alem das features, a interpretabilidade estuda os circuitos: subgrafos da rede que implementam uma funcao precisa. Um pouco como se identificaria, num microprocessador, o subcircuito que faz a soma.

O exemplo mais famoso e o induction head, descoberto pela Anthropic em 2022 (Olsson et al.). E um mecanismo que aparece tipicamente nas camadas intermediarias de um Transformer e que implementa uma regra simples: se o modelo viu o padrao AB antes no contexto, e agora ve A de novo, ele preve B.

E uma forma primitiva de aprendizado em contexto (in-context learning). Antes desse circuito, o modelo nao consegue explorar repeticoes do contexto. Depois, ele fica abruptamente mais capaz — e essa transicao coincide com um salto nos benchmarks de few-shot.

Varios outros circuitos foram identificados:

  • Induction heads — copia de padroes do contexto
  • Bracket completion — fechamento coerente de parenteses aninhados
  • Indirect object identification — resolver "Maria deu o livro a Paulo" → "a ela" se refere a Maria
  • Feature suppression — um head que desliga uma feature em certos contextos

Cada circuito e um pequeno algoritmo que a rede descobriu sozinha durante o treinamento.

Por que isso importa para a seguranca

A interpretabilidade nao e so curiosidade cientifica. Para muitos pesquisadores, e a rota mais promissora para alinhar a serio modelos poderosos.

Hoje, alinhamos por RLHF e fine-tuning: modificamos as respostas observaveis, mas nao sabemos se o modelo realmente internalizou um valor ou se esta apenas fingindo na superficie. Se conseguissemos identificar as features e os circuitos responsaveis, por exemplo, pelo comportamento de engano, ou pelo raciocinio moral, teriamos uma alavanca muito mais solida.

A Anthropic mostrou que da para dirigir um modelo diretamente: amplificando artificialmente a feature "ponte Golden Gate", deixaram o Claude obcecado por essa ponte — ele a evocava em qualquer pergunta. Demonstracao ludica, mas o mesmo mecanismo permitiria, em principio, suprimir cirurgicamente um comportamento perigoso sem degradar o resto.

Os limites atuais

A interpretabilidade mecanicista e uma disciplina jovem. As dificuldades sao muitas:

  • A escala. Um SAE no Claude 3 extraiu 34 milhoes de features. Anota-las, nomea-las, entende-las uma a uma e gigantesco.
  • A completude. Encontramos features. Tambem perdemos algumas. Quantos conceitos importantes nos escapam?
  • A composicionalidade. Entender uma feature isolada e factivel. Entender como 50 features interagem para produzir um comportamento e bem mais dificil.
  • A generalizacao. Uma feature encontrada no GPT-2 nao se transpoe mecanicamente para o Claude ou o Llama. Cada modelo e sua propria caixa.

Mas o ritmo das publicacoes esta acelerando. Anthropic, DeepMind, EleutherAI, OpenAI, Apollo Research, Goodfire, Transluce — equipes inteiras estao se formando ao redor dessas perguntas.

Se queremos confiar em modelos cada vez mais poderosos para decisoes cada vez mais importantes, vamos precisar de mais do que faze-los passar num exame. Vamos precisar olhar por dentro.

Atualizado em

Interpretabilidade mecanística: abrir a caixa-preta do LLM · Step by Token