Capítulo 01 · Fundamentos · 6 min

Prever uma palavra de cada vez

O que é um modelo de linguagem? Por que prever a próxima palavra é suficiente para fazer emergir a inteligência.

A grande surpresa

Aqui esta a coisa mais estranha da IA moderna: tudo o que um grande modelo de linguagem faz se apoia em uma unica capacidade — prever a proxima palavra.

Voce da o comeco de uma frase:

"O ceu e azul porque..."

O modelo calcula, entre milhares de palavras que conhece, qual e a mais provavel logo depois. Depois recomeca com essa nova palavra adicionada. E de novo. E de novo. So isso.

Dessa operacao minuscula e mecanica emerge todo o resto: traducao, resumo, codigo, explicacoes de fisica quantica, piadas, poemas.

Por que funciona

Para prever bem a proxima palavra, e preciso entender muita coisa sobre o mundo.

Considere esta frase:

"O medico mandou a enfermeira para casa dela porque ela..."

Para adivinhar o que vem depois, o modelo precisa saber que "ela" provavelmente se refere a enfermeira (e nao ao medico): precisa entender a gramatica, o contexto, talvez ate as convencoes sociais da profissao medica.

Prever palavras significa modelar o mundo que as produziu.

Essa e a ideia central. Obrigar um sistema a prever texto humano em larga escala significa obriga-lo a aprender, indiretamente, como funciona o mundo em que esse texto foi escrito.

Uma distribuicao, nao uma palavra

Quando dizemos "o modelo preve a proxima palavra", e um atalho. Na verdade, a cada passo ele produz uma distribuicao de probabilidade sobre todo o vocabulario: cada token recebe uma pontuacao, e a soma vale 1.

Para gerar texto, depois e preciso escolher um token dessa distribuicao. Aqui as coisas ficam interessantes: o mesmo modelo, com o mesmo prompt, pode produzir textos muito diferentes dependendo da estrategia de amostragem usada.

A cada passo, o modelo propõe uma distribuição sobre todos os tokens do vocabulário. A barra mais alta raramente é o único candidato plausível — é isso que torna a continuação do texto aberta em vez de mecânica.

Tres controles para manipular acima:

Temperatura — divide os logits antes do softmax. Com temperatura baixa (0.1-0.3), a distribuicao se concentra no candidato mais provavel: o modelo fica previsivel, quase deterministico. Com temperatura alta (1.5-2.0), ela se achata: opcoes mais incomuns voltam a ser plausiveis.
Top-k — mantem apenas os k candidatos mais provaveis, eliminando a longa cauda de opcoes raras.
Top-p (nucleus sampling) — mantem o menor conjunto cuja massa acumulada passa de p. E mais esperto que top-k: se um passo tem uma resposta obvia, p pode cortar para um unico candidato. Se o modelo hesita entre 20 opcoes proximas, ele mantem todas.

Teste o prompt Capital. A distribuicao esta tao concentrada em Brasilia que a temperatura quase nao tem efeito: e preciso subir acima de 1.8 para dar chance a outras opcoes. O modelo esta seguro.

Ao contrario, em O ceu no segundo passo, varias continuacoes sao plausiveis ( luz, cor, mar...). E ali que a temperatura muda de verdade o resultado.

O ciclo que faz tudo

Tudo o que um LLM faz cabe neste ciclo:

Ler o contexto (os tokens ja presentes).
Produzir uma distribuicao de probabilidade sobre o proximo token.
Amostrar um token dessa distribuicao.
Adiciona-lo ao contexto. Recomecar.

E mecanico, repetitivo, chato de descrever. Ainda assim, executado bilhoes de vezes em um modelo com centenas de bilhoes de parametros, esse ciclo produz dialogos, demonstracoes, codigo que compila.

O plano do site

O percurso esta organizado em quatro partes, do mais mecanico ao mais acabado.

I. Anatomia de um modelo. Vamos desmontar a maquina. Tokenizacao, embeddings, atencao, Transformer — como o texto vira uma sequencia de vetores que podemos transformar.

II. Treinar e alinhar. Como esses bilhoes de parametros aprendem. Loss, gradiente, amostragem, RLHF — do modelo aleatorio ao assistente util.

III. O modelo em producao. O que acontece quando voce envia um prompt para o ChatGPT ou para o Claude. Janela de contexto, RAG, agentes — a infraestrutura que torna os LLMs uteis no dia a dia.

IV. Indo mais longe. Os temas que ocupam a pesquisa atual. Fine-tuning, multimodalidade, raciocinio estendido, leis de escala, interpretabilidade, difusao — para entender para onde isso vai.

Cada capitulo contem pelo menos uma visualizacao manipulavel. O objetivo nao e fazer voce decorar formulas, mas dar uma intuicao mecanica do que acontece por dentro.

Vamos.

Atualizado em 10 de maio de 2026