Índice
Todos los capítulos
De la tokenización al alineamiento. Cada capítulo incluye al menos una visualización interactiva.
- 016 min
Fundamentos
Predecir una palabra a la vez
¿Qué es un modelo de lenguaje? Por qué predecir la siguiente palabra es suficiente para hacer emerger la inteligencia.
- 028 min
Tokenización
Del texto a los tokens
Cómo el texto se convierte en números. BPE, subpalabras, y por qué los LLMs tienen dificultades para contar letras.
- 0310 min
Embeddings
El espacio del significado
Palabras en un espacio geométrico. Rey − Hombre + Mujer = Reina, y otros milagros vectoriales.
- 0412 min
Atención
La atención es todo lo que necesitas
El mecanismo que lo cambia todo. Cómo cada token mira a todos los demás para entender el contexto.
- 0514 min
Arquitectura
El Transformer completo
Ensamblando las piezas: atención multi-cabeza, feed-forward, normalización, conexiones residuales.
- 0610 min
Entrenamiento
Cómo aprende
Loss, descenso de gradiente, backpropagation. Y por qué se necesitan miles de millones de parámetros.
- 077 min
Generación
Elegir la siguiente palabra
Temperature, top-k, top-p. El arte de convertir una distribución de probabilidades en texto.
- 089 min
Alineamiento
Del modelo bruto al asistente
Fine-tuning, RLHF, IA constitucional. Cómo hacer que un LLM sea útil e inofensivo.
- 098 min
Contexto
Lo que el modelo recuerda
La ventana de contexto: memoria perfecta pero acotada. Por qué ChatGPT olvida y qué cuesta.
- 109 min
RAG
Leer tus documentos
Cómo un LLM accede a miles de páginas sin memorizarlas. Embeddings, búsqueda semántica, contexto inyectado.
- 1110 min
Agentes
Del modelo que responde al modelo que actúa
Tool use, bucle ReAct, tareas multi-paso. Cómo un LLM se convierte en un agente capaz de actuar en el mundo.
- 128 min
Prompting
El arte de hablar con un LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Por qué la formulación del prompt cambia radicalmente lo que produce un modelo.
- 139 min
Alucinaciones
Por que los LLMs inventan
Calibracion, certezas falsas, contramedidas. El mecanismo estructural detras de la critica mas frecuente — y que se puede hacer al respecto.
- 149 min
Fine-tuning
Especializar un modelo sin reentrenar todo
LoRA, QLoRA, SFT. Cómo adaptar un modelo generalista a un dominio específico entrenando el 0,1% de sus parámetros.
- 158 min
Multimodalidad
Cuando el modelo lee imágenes
Patch embedding, ViT, CLIP. Cómo un Transformer de texto se vuelve multimodal tratando una imagen como una cuadrícula de tokens.
- 168 min
Evaluación
¿Cómo sabemos que un modelo es mejor?
MMLU, HumanEval, LMSYS Arena. Por qué medir la inteligencia de un LLM es difícil — y por qué ningún benchmark es suficiente.
- 179 min
Razonamiento
Pensar antes de responder
Tokens de pensamiento, razonamiento extendido, presupuestos de reflexión. Cómo los modelos o1/o3 generan una cadena de pensamiento oculta antes de responder.
- 188 min
Inferencia
Por qué el 2.º token es más rápido que el 1.º
El KV cache y la generación autorregresiva. Prefill vs decode, TTFT, y por qué el cache lo cambia todo.
- 199 min
Escalado
¿Más grande siempre es mejor?
Las leyes de escala de Kaplan y Chinchilla. Por qué GPT-3 estaba subentrenado y la proporción óptima de 20 tokens por parámetro.
- 209 min
Interpretabilidad
¿Qué pasa realmente dentro?
Circuitos, neuronas polisemánticas, Sparse Autoencoders. Cómo Anthropic y DeepMind abren la caja negra.
- 219 min
Difusión
Generar una imagen borrando el ruido
Stable Diffusion, DALL-E, Midjourney. El proceso inverso de denoising, el papel de CLIP, y por qué U-Net cede el paso a los Transformers.