Capítulo 08 · Alinhamento · 9 min
Do modelo bruto ao assistente
Fine-tuning, RLHF, IA constitucional. Como tornar um LLM útil e inofensivo.
Um completador nao e um assistente
Depois do pre-treinamento, o modelo sabe continuar texto. Mas "continuar texto" nao e o mesmo que "ajudar uma pessoa".
Se voce escreve uma pergunta, um modelo bruto pode continuar com outra pergunta, repetir o estilo de um forum, inventar uma resposta insegura ou completar uma instrucao perigosa. Ele ainda nao tem a nocao de conversa util.
Três prompts idênticos, dois modelos: à esquerda o modelo cru, à direita o mesmo após fine-tuning supervisionado e RLHF. O cru continua o texto; o alinhado responde — e recusa pedidos problemáticos.
Instruction tuning
O primeiro passo e o instruction tuning: treinar o modelo com exemplos do tipo:
instrucao → resposta esperada
Em vez de aprender apenas "qual token vem depois", ele aprende que uma instrucao humana normalmente pede uma resposta direta, clara e estruturada.
Nao muda a arquitetura. Muda os dados e, portanto, o comportamento.
RLHF
O RLHF adiciona um sinal humano.
Geramos varias respostas para o mesmo prompt. Pessoas comparam: qual e mais util, honesta, segura? Com essas preferencias, treinamos um modelo de recompensa e depois ajustamos o LLM para produzir respostas que esse modelo prefira.
A ideia nao e tornar o modelo "bom" em sentido filosofico. E dar uma direcao de comportamento: seguir instrucoes, evitar dano, explicar limites.
DPO: PPO, de forma mais simples
O RLHF classico tem um problema pratico: e um pipeline pesado. Um reward model para treinar, um algoritmo de RL (PPO) instavel para ajustar, e um custo enorme de compute.
Em 2023, uma equipe de Stanford propos o DPO (Direct Preference Optimization). A ideia: curto-circuitar completamente o reward model e o RL. Matematicamente, da para derivar uma simples loss supervisionada que otimiza diretamente o LLM para que ele prefira a resposta "vencedora" a "perdedora" em cada par de comparacao.
Concretamente, partindo dos mesmos pares (prompt, resposta_A_melhor_que_resposta_B) que o RLHF usava, o DPO treina o modelo com uma loss em uma unica passagem — como um fine-tuning supervisionado classico. Sem reward model separado, sem PPO, sem instabilidade.
O resultado e quase indistinguivel do PPO-RLHF nos benchmarks, com uma fracao do custo e da complexidade. Desde 2024, DPO e suas variantes (IPO, KTO, ORPO) substituiram em grande parte o PPO classico em Llama, Mistral e muitos modelos open-source. Anthropic e OpenAI ainda usam pipelines mais complexos, mas a diferenca esta diminuindo.
Voce ainda le "RLHF" em todo lugar. Virou um termo generico. Por baixo do capo, e cada vez mais DPO.
Seguranca e recusas
Um assistente alinhado tambem precisa saber dizer nao. Essa parte e delicada:
- recusar instrucoes claramente nocivas
- nao recusar perguntas legitimas por prudencia excessiva
- propor alternativas seguras quando possivel
Uma boa recusa nao e uma parede. E um redirecionamento: "nao posso ajudar com isso, mas se o problema real e X, aqui vai uma opcao segura".
Por que os LLMs alucinam
Essa e provavelmente a critica mais comum aos LLMs: eles inventam fatos com confianca. Uma referencia bibliografica que nao existe, uma citacao que nunca foi dita, um evento distorcido. Por que?
Tres mecanismos se combinam.
1. A cross-entropy nao recompensa a incerteza. Durante o pre-treinamento (capitulo 06), o modelo aprende a minimizar a log-probabilidade do token correto. Em nenhum momento ele aprende a dizer "nao sei" — o objetivo e sempre prever alguma coisa. Se a resposta certa nao esta nos seus parametros, ele produz a sequencia de palavras mais plausivel no faro.
2. O RLHF recompensa a confianca mais do que a honestidade. Quando humanos anotam preferencias, eles tendem em media a preferir uma resposta confiante e bem formulada a um "nao sei, nao tenho certeza". O reward model aprende esse vies, e o LLM aprende a parecer seguro, mesmo quando nao esta.
3. Sem loop de verificacao interno. Um humano que esta inventando algo pausa, duvida, confere. Um LLM gerando token por token nao tem esse mecanismo nativamente — ele avanca, sem controle externo.
E por isso que as alucinacoes nao desaparecem com mais alinhamento. Elas sao estruturais. As contramedidas eficazes sao sistemicas:
- Conectar o modelo a ferramentas (capitulo 11) — calcular em vez de estimar, consultar uma base em vez de memorizar.
- RAG (capitulo 10) — fornecer fontes confiaveis em vez de depender da memoria dos parametros.
- Raciocinio estendido (capitulo 17) — um modelo que tira tempo para pensar alucina menos.
- Fine-tuning explicito sobre incerteza — ensinar o modelo a dizer "nao sei" quando sua probabilidade interna e baixa (pesquisa ativa).
Uma alucinacao nao e um bug do modelo. E o que acontece quando um sistema treinado para sempre produzir texto plausivel encontra uma pergunta cuja resposta nao esta em seus pesos.
Fim da parte II
Voce acabou de atravessar todo o pipeline interno de um LLM moderno, dos bytes brutos do texto ao comportamento alinhado:
- 01 — Prever a proxima palavra, de novo e de novo.
- 02 — Tokenizar o texto.
- 03 — Embutir cada token num espaco de sentido.
- 04 — Deixar os tokens se olharem via atencao.
- 05 — Empilhar blocos Transformer.
- 06 — Treinar por descida de gradiente.
- 07 — Amostrar a proxima palavra.
- 08 — Alinhar nas preferencias humanas.
Nenhum desses mecanismos e misterioso isoladamente. Nenhum, sozinho, basta para explicar o que voce ve quando um LLM resume um artigo cientifico ou escreve um soneto: a inteligencia emerge da sua composicao em grande escala.
O milagre nao esta em uma so das pecas. Esta na cadeia inteira, multiplicada por bilhoes de parametros, treinada sobre trilhoes de tokens.
E agora?
O modelo esta pronto. Sabe prever, raciocinar, seguir instrucoes. Mas entre ele e a experiencia que voce tem quando usa o ChatGPT ou o Claude, ainda existe toda uma infraestrutura: a janela de contexto que define do que ele se lembra, o RAG que lhe da acesso aos seus documentos, os agentes que o conectam a ferramentas.
Esse e o tema da parte III — O modelo em producao.
E mais alem, a parte IV — Indo mais longe entra nos temas de pesquisa atuais: fine-tuning, multimodalidade, raciocinio estendido, leis de escala, interpretabilidade, difusao.
O pipeline esta posto. O resto e tudo o que construimos em cima dele.
Atualizado em