Capítulo 01 · Fundamentos · 6 min
Prever uma palavra de cada vez
O que é um modelo de linguagem? Por que prever a próxima palavra é suficiente para fazer emergir a inteligência.
A grande surpresa
Aqui esta a coisa mais estranha da IA moderna: tudo o que um grande modelo de linguagem faz se apoia em uma unica capacidade — prever a proxima palavra.
Voce da o comeco de uma frase:
"O ceu e azul porque..."
O modelo calcula, entre milhares de palavras que conhece, qual e a mais provavel logo depois. Depois recomeca com essa nova palavra adicionada. E de novo. E de novo. So isso.
Dessa operacao minuscula e mecanica emerge todo o resto: traducao, resumo, codigo, explicacoes de fisica quantica, piadas, poemas.
Por que funciona
Para prever bem a proxima palavra, e preciso entender muita coisa sobre o mundo.
Considere esta frase:
"O medico mandou a enfermeira para casa dela porque ela..."
Para adivinhar o que vem depois, o modelo precisa saber que "ela" provavelmente se refere a enfermeira (e nao ao medico): precisa entender a gramatica, o contexto, talvez ate as convencoes sociais da profissao medica.
Prever palavras significa modelar o mundo que as produziu.
Essa e a ideia central. Obrigar um sistema a prever texto humano em larga escala significa obriga-lo a aprender, indiretamente, como funciona o mundo em que esse texto foi escrito.
Uma distribuicao, nao uma palavra
Quando dizemos "o modelo preve a proxima palavra", e um atalho. Na verdade, a cada passo ele produz uma distribuicao de probabilidade sobre todo o vocabulario: cada token recebe uma pontuacao, e a soma vale 1.
Para gerar texto, depois e preciso escolher um token dessa distribuicao. Aqui as coisas ficam interessantes: o mesmo modelo, com o mesmo prompt, pode produzir textos muito diferentes dependendo da estrategia de amostragem usada.
A cada passo, o modelo propõe uma distribuição sobre todos os tokens do vocabulário. A barra mais alta raramente é o único candidato plausível — é isso que torna a continuação do texto aberta em vez de mecânica.
Tres controles para manipular acima:
- Temperatura — divide os logits antes do softmax. Com temperatura baixa (0.1-0.3), a distribuicao se concentra no candidato mais provavel: o modelo fica previsivel, quase deterministico. Com temperatura alta (1.5-2.0), ela se achata: opcoes mais incomuns voltam a ser plausiveis.
- Top-k — mantem apenas os k candidatos mais provaveis, eliminando a longa cauda de opcoes raras.
- Top-p (nucleus sampling) — mantem o menor conjunto cuja massa acumulada passa de p. E mais esperto que top-k: se um passo tem uma resposta obvia, p pode cortar para um unico candidato. Se o modelo hesita entre 20 opcoes proximas, ele mantem todas.
Teste o prompt Capital. A distribuicao esta tao concentrada em Brasilia que a temperatura quase nao tem efeito: e preciso subir acima de 1.8 para dar chance a outras opcoes. O modelo esta seguro.
Ao contrario, em O ceu no segundo passo, varias continuacoes sao plausiveis ( luz, cor, mar...). E ali que a temperatura muda de verdade o resultado.
O ciclo que faz tudo
Tudo o que um LLM faz cabe neste ciclo:
- Ler o contexto (os tokens ja presentes).
- Produzir uma distribuicao de probabilidade sobre o proximo token.
- Amostrar um token dessa distribuicao.
- Adiciona-lo ao contexto. Recomecar.
E mecanico, repetitivo, chato de descrever. Ainda assim, executado bilhoes de vezes em um modelo com centenas de bilhoes de parametros, esse ciclo produz dialogos, demonstracoes, codigo que compila.
O plano do site
O percurso esta organizado em quatro partes, do mais mecanico ao mais acabado.
I. Anatomia de um modelo. Vamos desmontar a maquina. Tokenizacao, embeddings, atencao, Transformer — como o texto vira uma sequencia de vetores que podemos transformar.
II. Treinar e alinhar. Como esses bilhoes de parametros aprendem. Loss, gradiente, amostragem, RLHF — do modelo aleatorio ao assistente util.
III. O modelo em producao. O que acontece quando voce envia um prompt para o ChatGPT ou para o Claude. Janela de contexto, RAG, agentes — a infraestrutura que torna os LLMs uteis no dia a dia.
IV. Indo mais longe. Os temas que ocupam a pesquisa atual. Fine-tuning, multimodalidade, raciocinio estendido, leis de escala, interpretabilidade, difusao — para entender para onde isso vai.
Cada capitulo contem pelo menos uma visualizacao manipulavel. O objetivo nao e fazer voce decorar formulas, mas dar uma intuicao mecanica do que acontece por dentro.
Vamos.
Atualizado em