Índice
Todos os capítulos
Da tokenização ao alinhamento. Cada capítulo inclui pelo menos uma visualização interativa.
- 016 min
Fundamentos
Prever uma palavra de cada vez
O que é um modelo de linguagem? Por que prever a próxima palavra é suficiente para fazer emergir a inteligência.
- 028 min
Tokenização
Do texto aos tokens
Como o texto se torna números. BPE, subpalavras, e por que os LLMs têm dificuldade em contar letras.
- 0310 min
Embeddings
O espaço do significado
Palavras em um espaço geométrico. Rei − Homem + Mulher = Rainha, e outros milagres vetoriais.
- 0412 min
Atenção
Atenção é tudo que você precisa
O mecanismo que muda tudo. Como cada token olha para todos os outros para entender o contexto.
- 0514 min
Arquitetura
O Transformer completo
Montando as peças: atenção multi-cabeça, feed-forward, normalização, conexões residuais.
- 0610 min
Treinamento
Como aprende
Loss, descida de gradiente, backpropagation. E por que são necessários bilhões de parâmetros.
- 077 min
Geração
Escolher a próxima palavra
Temperature, top-k, top-p. A arte de transformar uma distribuição de probabilidade em texto.
- 089 min
Alinhamento
Do modelo bruto ao assistente
Fine-tuning, RLHF, IA constitucional. Como tornar um LLM útil e inofensivo.
- 098 min
Contexto
O que o modelo lembra
A janela de contexto: memória perfeita mas limitada. Por que o ChatGPT esquece e o que isso custa.
- 109 min
RAG
Ler seus documentos
Como um LLM acessa milhares de páginas sem memorizá-las. Embeddings, busca semântica, contexto injetado.
- 1110 min
Agentes
Do modelo que responde ao modelo que age
Tool use, ciclo ReAct, tarefas multi-etapa. Como um LLM se torna um agente capaz de agir no mundo.
- 128 min
Prompting
A arte de falar com um LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Por que a formulação do prompt muda radicalmente o que um modelo produz.
- 139 min
Alucinacoes
Por que os LLMs inventam
Calibracao, certezas falsas, contramedidas. O mecanismo estrutural por tras da critica mais frequente — e o que se pode fazer a respeito.
- 149 min
Fine-tuning
Especializar um modelo sem retreinar tudo
LoRA, QLoRA, SFT. Como adaptar um modelo generalista a um domínio específico treinando 0,1% dos seus parâmetros.
- 158 min
Multimodalidade
Quando o modelo lê imagens
Patch embedding, ViT, CLIP. Como um Transformer de texto se torna multimodal tratando uma imagem como uma grade de tokens.
- 168 min
Avaliação
Como sabemos que um modelo é melhor?
MMLU, HumanEval, LMSYS Arena. Por que medir a inteligência de um LLM é difícil — e por que nenhum benchmark é suficiente.
- 179 min
Raciocínio
Pensar antes de responder
Tokens de pensamento, raciocínio estendido, orçamentos de reflexão. Como os modelos o1/o3 geram uma cadeia de pensamento oculta antes de responder.
- 188 min
Inferência
Por que o 2º token é mais rápido que o 1º
O KV cache e a geração autorregressiva. Prefill vs decode, TTFT, e por que o cache muda tudo.
- 199 min
Escala
Maior é sempre melhor?
As leis de escala de Kaplan e Chinchilla. Por que GPT-3 estava subtreinado, e a razão ótima de 20 tokens por parâmetro.
- 209 min
Interpretabilidade
O que está realmente acontecendo lá dentro?
Circuitos, neurônios polissemânticos, Sparse Autoencoders. Como Anthropic e DeepMind abrem a caixa preta.
- 219 min
Difusão
Gerar uma imagem apagando o ruído
Stable Diffusion, DALL-E, Midjourney. O processo inverso de denoising, o papel do CLIP, e por que U-Net cede lugar aos Transformers.