Una guida interattiva agli LLM

Step by Token

Capire come funzionano i grandi modelli linguistici, una visualizzazione interattiva alla volta.

Indice

21 / 21 · 189 min
IVAndare oltre
  1. 14

    Specializzare un modello senza riaddestrare tutto

    LoRA, QLoRA, SFT. Come adattare un modello generalista a un dominio specifico addestrando lo 0,1% dei suoi parametri.

    9 min
  2. 15

    Quando il modello legge le immagini

    Patch embedding, ViT, CLIP. Come un Transformer di testo diventa multimodale trattando un'immagine come una griglia di token.

    8 min
  3. 16

    Come sappiamo che un modello è migliore?

    MMLU, HumanEval, LMSYS Arena. Perché misurare l'intelligenza di un LLM è difficile — e perché nessun benchmark è sufficiente.

    8 min
  4. 17

    Pensare prima di rispondere

    Token di pensiero, ragionamento esteso, budget di riflessione. Come i modelli o1/o3 generano una catena di pensiero nascosta prima di rispondere.

    9 min
  5. 18

    Perché il 2° token è più veloce del 1°

    La KV cache e la generazione autoregressiva. Prefill vs decode, TTFT, e perché la cache cambia tutto.

    8 min
  6. 19

    Più grande è sempre meglio?

    Le leggi di scala di Kaplan e Chinchilla. Perché GPT-3 era sotto-addestrato, e il rapporto ottimo di 20 token per parametro.

    9 min
  7. 20

    Cosa succede davvero dentro?

    Circuiti, neuroni polisemantici, Sparse Autoencoders. Come Anthropic e DeepMind aprono la scatola nera.

    9 min
  8. 21

    Generare un'immagine cancellando il rumore

    Stable Diffusion, DALL-E, Midjourney. Il processo inverso di denoising, il ruolo di CLIP, e perché U-Net cede il passo ai Transformer.

    9 min
Step by Token