Capítulo 13 · Alucinacoes · 9 min
Por que os LLMs inventam
Calibracao, certezas falsas, contramedidas. O mecanismo estrutural por tras da critica mais frequente — e o que se pode fazer a respeito.
A critica mais frequente
Voce faz uma pergunta a um LLM sobre um tema de nicho. Ele responde com toda confianca: uma referencia bibliografica, uma data, uma citacao. Voce confere. O livro nao existe. A data esta errada. A citacao foi inventada.
Esse fenomeno tem um nome oficial — alucinacao — e e provavelmente a primeira coisa que as pessoas criticam nos LLMs. Nao e um bug ocasional: e uma propriedade estrutural. Para entender por que, e preciso voltar a forma como o modelo foi treinado.
Tres mecanismos que se combinam
1. A cross-entropy nao recompensa a incerteza. Durante o pre-treinamento (capitulo 06), o objetivo e minimizar a log-probabilidade do token correto. Em nenhum momento o modelo aprende a dizer "nao sei": ele aprende a sempre prever alguma coisa, da forma mais plausivel possivel. Se a resposta certa nao esta nos seus pesos, ele produz a sequencia mais verossimil, nao uma confissao de ignorancia.
2. O RLHF recompensa a confianca mais do que a honestidade. Durante o alignment (capitulo 08), humanos classificam as respostas. Em media, eles preferem uma resposta confiante e bem formulada a um "nao tenho certeza". O reward model aprende esse vies, e o LLM aprende a parecer seguro — mesmo quando nao esta.
3. Sem loop de verificacao interno. Um humano que esta inventando uma citacao pausa, duvida, vai conferir. Um LLM gerando token por token nao tem esse mecanismo. Ele avanca, sem controle externo, e cada token gera o seguinte na mesma logica de plausibilidade.
Uma alucinacao nao e um bug. E o que acontece quando um sistema treinado para sempre produzir texto plausivel encontra uma pergunta cuja resposta nao esta em seus pesos.
O problema da calibration
Um modelo bem calibrado e aquele cuja confianca declarada corresponde a probabilidade de estar correto. Se ele diz "tenho 80% de certeza", deveria estar certo cerca de 80% do tempo.
LLMs brutos (antes do RLHF) sao surpreendentemente bem calibrados em suas probabilidades internas. Mas o alignment descalibra o modelo: ao recompensar a confianca, ele afasta o modelo da verdade estatistica de suas proprias predicoes.
E isso que explica o modo "alucinar com aplomb": nao e que o modelo nao saiba que nao sabe. E que o treinamento o levou a mascarar essa incerteza.
O modelo atribui uma probabilidade a cada uma de suas afirmações. Uma afirmação falsa mas coerente costuma receber uma pontuação alta: esse é o mecanismo estrutural das alucinações, não um bug pontual que um patch possa corrigir.
Brinque com algumas perguntas. Observe como a confianca declarada e a probabilidade real de estar correto nem sempre seguem a mesma curva. Ative + RAG ou + raciocinio estendido para ver como as contramedidas reduzem a diferenca.
Quatro familias de contramedidas
As alucinacoes nao desaparecem com mais alignment. Elas sao estruturais. Para reduzi-las na pratica, voce precisa de alavancas sistemicas, nao apenas de um modelo melhor.
1. Conectar o modelo a ferramentas (capitulo 11)
A regra: tudo o que um LLM faz mal, voce delega a um sistema deterministico. Calcular uma derivada? Code interpreter. Pegar uma cotacao da bolsa? API. Verificar se um arquivo existe? File system tool. O modelo nao tenta mais adivinhar o resultado — ele o observa.
Efeito: as alucinacoes nos dominios cobertos pelas ferramentas caem a zero. As alucinacoes nos outros dominios continuam.
2. RAG (capitulo 10)
Em vez de perguntar ao modelo o que ele se lembra sobre um tema, voce fornece fontes confiaveis na hora de responder. Alucinacoes bibliograficas e factuais diminuem fortemente, porque o modelo pode citar o que le, nao apenas o que imagina.
Limite: se as fontes sao ruins ou mal recuperadas, o modelo alucina sobre o conteudo delas. E mesmo com boas fontes, ele pode sobre-extrapolar ("a fonte diz X, entao necessariamente Y").
3. Raciocinio estendido (capitulo 17)
Um modelo que tira tempo para verificar seu rascunho antes de responder erra menos. Os modelos de raciocinio (o1, o3, Claude extended thinking) geram uma chain of thought invisivel, na qual podem recalcular, contradizer uma etapa, partir de outro caminho.
E imperfeito — um modelo pode alucinar dentro do proprio raciocinio — mas o simples ato de desenrolar as etapas captura uma parte significativa dos erros.
4. Fine-tuning explicito sobre incerteza
O angulo mais promissor do lado da pesquisa: treinar o modelo para abstention. Voce mostra a ele pares (pergunta, resposta) onde, quando a probabilidade interna e baixa, a resposta certa e "nao sei" ou "nao tenho essa informacao". O modelo aprende a reconhecer seu proprio nivel de confianca e a comunica-lo.
Varios labs trabalham nisso (DeepMind, Anthropic). Ainda esta longe de ser robusto, mas e a unica tecnica que ataca de fato a raiz do problema.
Detectar uma alucinacao na pratica
Algumas heuristicas uteis do lado do usuario:
- Peca fontes. Se o modelo nao consegue citar suas fontes, ou as inventa, trate a resposta como suspeita.
- Confira o que e especifico. Nomes proprios, datas, numeros exatos, citacoes sao as zonas de risco. O conteudo geral costuma estar OK.
- Reformule a pergunta de forma diferente. Um modelo que esta inventando muitas vezes da respostas coerentes a mesma pergunta reformulada — mas incoerentes a reformulacoes bem diferentes.
- Pergunte ao modelo qual e o nivel de confianca dele. Imperfeito, mas correlacionado com a qualidade real da resposta, especialmente nos modelos recentes.
- Cruze com outro modelo. As alucinacoes raramente sao as mesmas de um modelo para outro. Uma resposta na qual GPT-4 e Claude convergem tem muito mais chances de estar correta.
O que voce precisa lembrar
Tres coisas.
Uma. As alucinacoes nao sao um defeito do modelo: sao a consequencia do seu objetivo de treinamento. Nenhum fine-tuning superficial as faz desaparecer.
Duas. As contramedidas que funcionam em producao sao sistemicas (RAG, ferramentas, raciocinio, abstention). Nenhuma e perfeita isolada; combinadas, elas trazem a taxa de alucinacao a um nivel aceitavel para a maioria dos casos.
Tres. Para o usuario final, a melhor defesa continua sendo nao confiar cegamente, sobretudo em detalhes especificos (fontes, datas, numeros). Um LLM que te responde com aplomb nao e prova de que ele esta certo.
Perguntar a um LLM "voce tem certeza?" nao e uma verificacao. E apenas mais uma geracao de texto plausivel.
Atualizado em