Indice
Tutti i capitoli
Dalla tokenizzazione all'allineamento. Ogni capitolo include almeno una visualizzazione interattiva.
- 016 min
Fondamenti
Predire una parola alla volta
Cos'è un modello linguistico? Perché predire la parola successiva è sufficiente per far emergere l'intelligenza.
- 028 min
Tokenizzazione
Dal testo ai token
Come il testo diventa numeri. BPE, sottoparole, e perché gli LLM faticano a contare le lettere.
- 0310 min
Embeddings
Lo spazio del significato
Parole in uno spazio geometrico. Re − Uomo + Donna = Regina, e altri miracoli vettoriali.
- 0412 min
Attenzione
L'attenzione è tutto ciò che ti serve
Il meccanismo che cambia tutto. Come ogni token guarda tutti gli altri per capire il contesto.
- 0514 min
Architettura
Il Transformer completo
Assemblare i pezzi: attenzione multi-testa, feed-forward, normalizzazione, connessioni residuali.
- 0610 min
Addestramento
Come impara
Loss, discesa del gradiente, backpropagation. E perché servono miliardi di parametri.
- 077 min
Generazione
Scegliere la parola successiva
Temperature, top-k, top-p. L'arte di trasformare una distribuzione di probabilità in testo.
- 089 min
Allineamento
Dal modello grezzo all'assistente
Fine-tuning, RLHF, IA costituzionale. Come rendere un LLM utile e innocuo.
- 098 min
Contesto
Cosa ricorda il modello
La finestra di contesto: memoria perfetta ma limitata. Perché ChatGPT dimentica e quanto costa.
- 109 min
RAG
Leggere i tuoi documenti
Come un LLM accede a migliaia di pagine senza memorizzarle. Embeddings, ricerca semantica, contesto iniettato.
- 1110 min
Agenti
Dal modello che risponde al modello che agisce
Tool use, ciclo ReAct, compiti multi-step. Come un LLM diventa un agente capace di agire nel mondo.
- 128 min
Prompting
L'arte di parlare con un LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Perché la formulazione di un prompt cambia radicalmente ciò che un modello produce.
- 139 min
Allucinazioni
Perche gli LLM inventano
Calibrazione, certezze false, contromisure. Il meccanismo strutturale dietro la critica piu frequente — e cosa si puo fare al riguardo.
- 149 min
Fine-tuning
Specializzare un modello senza riaddestrare tutto
LoRA, QLoRA, SFT. Come adattare un modello generalista a un dominio specifico addestrando lo 0,1% dei suoi parametri.
- 158 min
Multimodalità
Quando il modello legge le immagini
Patch embedding, ViT, CLIP. Come un Transformer di testo diventa multimodale trattando un'immagine come una griglia di token.
- 168 min
Valutazione
Come sappiamo che un modello è migliore?
MMLU, HumanEval, LMSYS Arena. Perché misurare l'intelligenza di un LLM è difficile — e perché nessun benchmark è sufficiente.
- 179 min
Ragionamento
Pensare prima di rispondere
Token di pensiero, ragionamento esteso, budget di riflessione. Come i modelli o1/o3 generano una catena di pensiero nascosta prima di rispondere.
- 188 min
Inferenza
Perché il 2° token è più veloce del 1°
La KV cache e la generazione autoregressiva. Prefill vs decode, TTFT, e perché la cache cambia tutto.
- 199 min
Scaling
Più grande è sempre meglio?
Le leggi di scala di Kaplan e Chinchilla. Perché GPT-3 era sotto-addestrato, e il rapporto ottimo di 20 token per parametro.
- 209 min
Interpretabilità
Cosa succede davvero dentro?
Circuiti, neuroni polisemantici, Sparse Autoencoders. Come Anthropic e DeepMind aprono la scatola nera.
- 219 min
Diffusione
Generare un'immagine cancellando il rumore
Stable Diffusion, DALL-E, Midjourney. Il processo inverso di denoising, il ruolo di CLIP, e perché U-Net cede il passo ai Transformer.