Capitolo 08 · Allineamento · 9 min
Dal modello grezzo all'assistente
Fine-tuning, RLHF, IA costituzionale. Come rendere un LLM utile e innocuo.
Il modello grezzo non e un assistente
Alla fine del pre-addestramento, il tuo LLM sa una cosa e una sola: continuare testo in modo plausibile. E utile, persino magico. Ma non e un assistente.
Chiedi a un modello grezzo "Come fare dei biscotti?" e ci sono buone probabilita che continui cosi:
"Come fare dei biscotti? Come fare dei dolci? Come fare una torta? La ricetta dei biscotti e una ricetta che richiede biscotti, zucchero…"
Non perche sia stupido. Perche ha visto, nel suo corpus, molte pagine in cui una domanda e seguita da altre domande o da rumore. Fa il suo lavoro: predire cio che segue statisticamente, non cio che sarebbe utile.
Per passare dal completatore all'assistente, allineiamo il modello.
Tre prompt identici, due modelli: a sinistra il modello grezzo, a destra lo stesso dopo fine-tuning supervisionato e RLHF. Il grezzo continua il testo; quello allineato risponde — e rifiuta le richieste problematiche.
Tre passaggi successivi
L'allineamento moderno avviene in piu fasi impilate sopra il pre-addestramento.
1. Instruction tuning (SFT)
Si riaddestra il modello (in modalita supervisionata classica) su un dataset di coppie istruzione → risposta ideale, scritte da umani. Bastano alcune decine di migliaia di coppie. E cio che insegna al modello:
- a seguire istruzioni invece di completarle
- a rispettare il formato richiesto (lista, paragrafo, codice…)
- a produrre una risposta completa invece di divagare
E il passaggio che trasforma gpt-3 in gpt-3.5-instruct. La differenza e spettacolare: il modello finalmente comincia a rispondere.
2. RLHF (Reinforcement Learning from Human Feedback)
Il solo SFT non basta. Insegna uno stile di risposta, ma non distingue finemente tra una risposta "media" e una "eccellente".
Da qui il RLHF, in tre sotto-passaggi:
a) Il modello genera piu risposte possibili allo stesso prompt. b) Un umano le classifica (A > B > C). c) Si addestra un reward model che imita le preferenze umane, poi si ottimizza l'LLM tramite reinforcement learning per massimizzare questa reward.
Il risultato: un modello che non si limita a rispondere, ma risponde come gli umani preferiscono che i modelli rispondano. Piu cortese, piu strutturato, meno arrogante, piu utile.
2bis. DPO: PPO, in versione piu semplice
Il RLHF cosi come l'abbiamo appena descritto si basa su un algoritmo di RL (PPO) pesante da addestrare: un reward model separato, instabilita numerica, costo di calcolo enorme.
Nel 2023, un team di Stanford propone DPO (Direct Preference Optimization). L'idea: cortocircuitare il reward model e l'RL. Si puo, matematicamente, derivare una semplice loss supervisionata che ottimizza direttamente l'LLM affinche preferisca la risposta "vincente" a quella "perdente" su ogni coppia di confronti.
Concretamente, a partire dalle stesse coppie (prompt, risposta_A_migliore_di_B) che usava il RLHF classico, DPO addestra il modello in un solo passaggio — come un fine-tuning supervisionato ordinario. Nessun reward model a parte, nessun PPO, nessuna instabilita.
Il risultato e quasi indistinguibile da PPO-RLHF sui benchmark, a una frazione del costo. Dal 2024, DPO e le sue varianti (IPO, KTO, ORPO) hanno ampiamente sostituito il PPO classico in Llama, Mistral, e nella maggior parte dei lab open-source. Anthropic e OpenAI usano ancora pipeline piu complesse, ma il divario si sta chiudendo.
Leggi ancora "RLHF" ovunque. E diventato un termine generico. Sotto il cofano, e sempre piu DPO.
3. RLAIF / Constitutional AI
Una variante: invece di umani, si usa un altro modello (spesso lo stesso) per fornire feedback secondo una costituzione scritta — un insieme di principi ("non dare istruzioni illegali", "non inventare fonti", "spiega il ragionamento quando e utile"…). Questo si chiama Constitutional AI.
Vantaggi: scalabile (gli umani sono costosi e lenti), riproducibile (la costituzione e esplicita), modificabile (si possono aggiustare i principi senza riannotare tutto).
E il procedimento usato da Anthropic per Claude, e adottato da molti altri lab da allora.
Cosa l'allineamento non fa
Alcuni miti da chiarire.
L'allineamento non cambia le conoscenze del modello. Se il modello grezzo non sa che Napoleone e morto a Sant'Elena, il RLHF non glielo insegnera. Il RLHF cambia il modo in cui il modello esprime cio che sa, non l'estensione di cio che sa.
L'allineamento non e una censura semplice. Rifiutare di dare istruzioni per costruire una bomba non e una parola chiave in una lista nera: e una politica appresa che generalizza a formulazioni indirette e giustifica il rifiuto.
L'allineamento non e perfetto. I jailbreaks (prompt che aggirano il RLHF) esistono ancora. I bias del corpus persistono in parte. Le allucinazioni esistono ancora, perche a volte il modello riceve piu ricompensa per sembrare sicuro che per ammettere di non sapere.
L'allineamento ha un costo. Su alcuni compiti tecnici, un modello allineato e meno bravo di un modello di base: rifiuta rischi, aggiunge disclaimer, diventa prudente oltre il ragionevole. E cio che chiamiamo alignment tax.
Perche gli LLM allucinano
E probabilmente la critica piu frequente fatta agli LLM: inventano fatti con sicurezza. Un riferimento bibliografico che non esiste, una citazione mai pronunciata, un evento distorto. Perche?
Tre meccanismi si combinano.
1. La cross-entropy non premia l'incertezza. Durante il pre-addestramento (capitolo 06), il modello impara a minimizzare la log-probabilita del token corretto. In nessun momento impara a dire « non lo so » — l'obiettivo e sempre predire qualcosa. Se la risposta giusta non e nei suoi parametri, produce la stringa piu plausibile a naso.
2. Il RLHF premia la sicurezza piu dell'onesta. Quando degli umani annotano preferenze, in media preferiscono una risposta sicura e ben formulata a un « non sono sicuro, non lo so ». Il reward model apprende questo bias, e l'LLM impara a sembrare sicuro, anche quando non lo e.
3. Nessun ciclo di verifica interna. Un umano che inventa si ferma, dubita, verifica. Un LLM che genera token per token non ha nativamente questo meccanismo — avanza, senza controllo esterno.
E per questo che le allucinazioni non spariscono con un allineamento piu spinto. Sono strutturali. Le contromisure efficaci sono sistemiche:
- Connettere il modello a strumenti (capitolo 11) — calcolare invece di stimare, interrogare un database invece di memorizzare.
- RAG (capitolo 10) — fornire fonti affidabili invece di affidarsi alla memoria dei parametri.
- Ragionamento esteso (capitolo 17) — un modello che si prende il tempo di riflettere allucina meno.
- Fine-tuning esplicito sull'incertezza — insegnare al modello a dire « non lo so » quando la sua probabilita interna e bassa (ricerca attiva).
Un'allucinazione non e un bug del modello. E cio che succede quando un sistema addestrato a produrre sempre testo plausibile incontra una domanda la cui risposta non e nei suoi pesi.
La domanda aperta
L'allineamento risolve un problema immediato: rendere un LLM utile e globalmente ragionevole. Non esaurisce la questione di fondo, talvolta chiamata alignment with a capital A:
Come garantire che un sistema molto piu capace di un umano agisca nell'interesse dell'umanita?
Oggi allineiamo tramite feedback umano, perche gli umani restano i migliori giudici. Quando i modelli diventeranno migliori degli umani nei compiti su cui vogliamo giudicarli, questa leva non bastera piu. E un problema aperto, e l'oggetto di un intero ramo di ricerca.
Fine della parte II
Hai appena attraversato tutto il pipeline interno di un LLM moderno, dai byte grezzi del testo al comportamento allineato:
- 01 — Predire la parola successiva, ancora e ancora.
- 02 — Tokenizzare il testo.
- 03 — Inserire ogni token in uno spazio di significato.
- 04 — Lasciare che i token si guardino tramite l'attenzione.
- 05 — Impilare blocchi Transformer.
- 06 — Addestrare con discesa del gradiente.
- 07 — Campionare la prossima parola.
- 08 — Allineare sulle preferenze umane.
Nessuno di questi meccanismi e misterioso preso da solo. Nessuno, da solo, basta a spiegare cio che vedi quando un LLM riassume un paper scientifico o scrive un sonetto: l'intelligenza emerge dalla loro composizione su larga scala.
Il miracolo non e in uno solo dei pezzi. E nella catena intera, moltiplicata per miliardi di parametri e addestrata su migliaia di miliardi di token.
E adesso?
Il modello e pronto. Sa predire, ragionare, seguire istruzioni. Ma tra lui e l'esperienza che hai quando usi ChatGPT o Claude c'e ancora tutta un'infrastruttura: la finestra di contesto che definisce cosa ricorda, il RAG che gli da accesso ai tuoi documenti, gli agenti che lo connettono a degli strumenti.
E l'argomento della parte III — Il modello in produzione.
E oltre, la parte IV — Andare oltre entra nei temi di ricerca attuali: fine-tuning, multimodalita, ragionamento esteso, leggi di scaling, interpretabilita, diffusione.
Il pipeline e posato. Il resto e tutto cio che ci costruiamo sopra.
Aggiornato il