Capítulo 17 · Raciocínio · 9 min

Pensar antes de responder

Tokens de pensamento, raciocínio estendido, orçamentos de reflexão. Como os modelos o1/o3 geram uma cadeia de pensamento oculta antes de responder.

A resposta rapida costuma estar errada

Qual e o ultimo digito de 7¹⁰⁰?

Se voce fizer essa pergunta a um LLM classico, ele provavelmente respondera "7" em uma fracao de segundo. Faz sentido: 7 comeca com 7, 7² = 49, e sem pensar muito poderia parecer que continua sendo 7. A resposta esta errada — e 1.

Mas se voce fizer a mesma pergunta a um modelo de raciocinio como o1, o3 ou DeepSeek-R1, ele hesita. Ele "pensa" por 10, 20, as vezes 60 segundos. E chega na resposta certa.

A diferenca nao esta nos pesos do modelo. Esta no que o modelo tem permissao de fazer antes de responder.

Os thinking tokens

Todo LLM gera tokens, um por vez, da esquerda para a direita. O que distingue os modelos de raciocinio e que eles geram primeiro uma longa sequencia de tokens ocultos — um monologo interno que o usuario nunca ve — antes de produzir a resposta final.

Esses tokens ocultos sao chamados de thinking tokens (ou tokens de reflexao).

O modelo pode escrever qualquer coisa neles: calculos intermediarios, hipoteses que depois descarta, ramos de exploracao abandonados, verificacoes. E um rascunho que ele apaga antes de mostrar o resultado limpo para voce.

Nao e magica. E so espaco extra para trabalhar em um problema dificil.

Experimente voce mesmo

Coloque o orcamento de reflexao em "Nenhum" e clique em "Raciocinar". Observe a resposta instantanea. Depois, mude o orcamento para "Completo" e rode de novo.

Os blocos cinzas são a cadeia de pensamento interna — o modelo levanta hipóteses, verifica, às vezes volta atrás. Esses thinking tokens custam em latência e preço, mas desbloqueiam problemas que o modo direto não resolve.

A diferenca entre os dois nao esta na capacidade do modelo — esta no tempo de calculo na inferencia que ele tem para usar.

Como funciona tecnicamente

Nao e uma arquitetura diferente. E o mesmo Transformer, o mesmo mecanismo de atencao, a mesma geracao autoregressiva.

O que muda e o treinamento e a decodificacao. Durante o fine-tuning, o modelo aprende a produzir tracos de raciocinio uteis — cadeias de pensamento que convergem para a resposta certa. Mostram a ele milhares de problemas com suas solucoes, e ele aprende a construir o caminho intermediario.

Na inferencia, damos a ele um orcamento de tokens de pensamento — um limite para quantos tokens ocultos ele pode gerar. Quanto maior o orcamento, mais ele pode explorar. Alem de um certo orcamento, a qualidade das respostas em tarefas dificeis para de melhorar significativamente.

Um detalhe importante: os thinking tokens sao gerados antes da resposta, no mesmo fluxo de tokens. O modelo nao "pensa" em paralelo — ele pensa em serie, e isso custa tokens como qualquer outra coisa.

Raciocinio estendido vs chain-of-thought

Voce talvez ja tenha visto a tecnica do chain-of-thought (CoT), onde se pede explicitamente ao modelo "pense passo a passo". E diferente, mas relacionado.

Chain-of-Thought (via prompt)Raciocinio estendido (nativo)
Quem disparaO usuario, no promptO proprio modelo
VisibilidadeVisivel na respostaOculto (thinking tokens)
ControleVoce pode guiar as etapasO modelo escolhe seu plano
ExemplosGPT-4 com "let's think step by step"o1, o3, Claude com extended thinking

O CoT via prompt tambem melhora o desempenho — mas o raciocinio nativo vai mais longe, porque o modelo nao e obrigado a escrever um raciocinio legivel. Ele pode explorar caminhos bagunçados, fazer calculos que depois descarta, se contradizer e se corrigir, tudo dentro do espaco oculto.

Quando vale a pena

O raciocinio estendido melhora significativamente o desempenho em:

  • Matematica e logica — provas, problemas combinatorios, aritmetica exata
  • Codigo complexo — debug multi-arquivo, algoritmos nao triviais
  • Raciocinio estruturado — quebra-cabecas, deducoes encadeadas
  • Planejamento — tarefas que exigem definir uma estrategia antes de agir

Em compensacao, para uma pergunta factual simples ("qual e a capital da Franca?"), texto criativo ou traducao, o raciocinio estendido nao acrescenta nada — e custa mais caro.

E tambem uma das contramedidas mais eficazes contra alucinacoes (capitulo 13). Um modelo que tira tempo para verificar seu proprio rascunho pega erros que uma resposta de um so jato teria deixado passar. Nao e magica — ele pode alucinar dentro do raciocinio tambem — mas o simples ato de desenrolar as etapas ja filtra uma parte significativa dos erros factuais.

O custo e o verdadeiro freio. Os thinking tokens sao cobrados como tokens normais. Um modelo o1 que gera 1.000 tokens de pensamento antes de responder com 30 tokens consome na verdade 1.030 tokens. Em milhoes de requisicoes, isso pesa.

Test-time compute scaling

O que os modelos de raciocinio mostraram e que se pode comprar inteligencia na inferencia: quanto mais tokens de pensamento voce aloca, melhores ficam as respostas em tarefas dificeis.

Isso e chamado de test-time compute scaling — em oposicao ao scaling habitual, que aumenta os parametros do modelo durante o treinamento.

A curva e parecida com as scaling laws classicas: dobrar o orcamento de reflexao melhora o desempenho, mas com retornos decrescentes. Em algum ponto, pensar por mais tempo deixa de compensar.

E essa e uma descoberta importante: a inteligencia de um LLM nao e uma constante fixada por seus pesos. Ela tambem depende do compute que damos a ele no momento de responder.

Um modelo que pensa por muito tempo em um problema dificil pode superar um modelo maior que responde rapido. Velocidade nem sempre e uma virtude.

Atualizado em

Modelos de raciocínio: pensar antes de responder · Step by Token