Um guia interativo sobre LLMs

Step by Token

Entender como os grandes modelos de linguagem funcionam, uma visualização interativa de cada vez.

Sumário

21 / 21 · 189 min
IVIndo mais longe
  1. 14

    Especializar um modelo sem retreinar tudo

    LoRA, QLoRA, SFT. Como adaptar um modelo generalista a um domínio específico treinando 0,1% dos seus parâmetros.

    9 min
  2. 15

    Quando o modelo lê imagens

    Patch embedding, ViT, CLIP. Como um Transformer de texto se torna multimodal tratando uma imagem como uma grade de tokens.

    8 min
  3. 16

    Como sabemos que um modelo é melhor?

    MMLU, HumanEval, LMSYS Arena. Por que medir a inteligência de um LLM é difícil — e por que nenhum benchmark é suficiente.

    8 min
  4. 17

    Pensar antes de responder

    Tokens de pensamento, raciocínio estendido, orçamentos de reflexão. Como os modelos o1/o3 geram uma cadeia de pensamento oculta antes de responder.

    9 min
  5. 18

    Por que o 2º token é mais rápido que o 1º

    O KV cache e a geração autorregressiva. Prefill vs decode, TTFT, e por que o cache muda tudo.

    8 min
  6. 19

    Maior é sempre melhor?

    As leis de escala de Kaplan e Chinchilla. Por que GPT-3 estava subtreinado, e a razão ótima de 20 tokens por parâmetro.

    9 min
  7. 20

    O que está realmente acontecendo lá dentro?

    Circuitos, neurônios polissemânticos, Sparse Autoencoders. Como Anthropic e DeepMind abrem a caixa preta.

    9 min
  8. 21

    Gerar uma imagem apagando o ruído

    Stable Diffusion, DALL-E, Midjourney. O processo inverso de denoising, o papel do CLIP, e por que U-Net cede lugar aos Transformers.

    9 min
Step by Token