Capítulo 19 · Escalado · 9 min

¿Más grande siempre es mejor?

Las leyes de escala de Kaplan y Chinchilla. Por qué GPT-3 estaba subentrenado y la proporción óptima de 20 tokens por parámetro.

Una intuicion engañosa

Durante años, la industria de la IA vivio sobre una creencia simple: un modelo el doble de grande es mejor. GPT-2 (1,5 mil millones de parametros) fue eclipsado por GPT-3 (175 mil millones). PaLM, Megatron, Gopher — la carrera por los parametros parecia no tener fin.

Despues, en 2022, un equipo de DeepMind publico un paper que lo cambio todo. Su tesis: los grandes modelos de la epoca estaban masivamente subentrenados. No demasiado pequeños — mal alimentados de datos.

El modelo que demostraba esa tesis se llamaba Chinchilla.

La ley de Kaplan: la primera formulacion

En 2020, OpenAI publica un paper de Jared Kaplan y colegas — "Scaling Laws for Neural Language Models" — que muestra algo notable. Sobre decenas de modelos entrenados a distintos tamaños, la perdida de validacion sigue una ley de potencia simple:

L ≈ L∞ + (C₀ / C)^α

Decodificando la formula:

  • C — el computo total invertido en el entrenamiento (en FLOPs).
  • L — la perdida de validacion final.
  • L∞ — la perdida irreducible: el suelo por debajo del cual no se puede bajar, ni siquiera con computo infinito. Es la entropia natural del lenguaje humano — siempre hay una parte de imprevisibilidad en la siguiente palabra.
  • C₀ — una constante de normalizacion que depende de la arquitectura.
  • α ≈ 0,05 — el exponente de la ley de potencia.

En claro: doblar el computo reduce la perdida en una cantidad predecible. La ley es asombrosamente robusta sobre 7 ordenes de magnitud.

Kaplan saca de ahi una conclusion que guiara a la industria durante dos años: dado un presupuesto de computo, asignen la mayoria al tamaño del modelo, poco a los datos.

Eso es lo que hizo OpenAI con GPT-3. 175 mil millones de parametros, pero "solo" 300 mil millones de tokens de entrenamiento.

Chinchilla rompe el molde

En 2022, Hoffmann et al. (DeepMind) rehacen el experimento con una metodologia distinta. En vez de fijar el tamaño del modelo y variar el computo, exploran sistematicamente el plano (N, D) a computo constante.

Su conclusion contradice directamente a Kaplan: N y D deben crecer al mismo ritmo. Para minimizar la perdida con un presupuesto de computo fijo, hay que entrenar un modelo de tamaño modesto sobre muchos datos.

Mas precisamente, el ratio optimo es:

D ≈ 20 × N

Para un modelo de 70 mil millones de parametros, el optimo es del orden de 1,4 billones de tokens. GPT-3 (175 mil millones de parametros, 300 mil millones de tokens) tenia un ratio de 1,7 — veinte veces por debajo del optimo.

DeepMind lo demostro entrenando Chinchilla: 70 mil millones de parametros, 1,4 billones de tokens. Mas pequeño que GPT-3, mas tokens, y mejor en todos los benchmarks.

El mapa del computo

En la gráfica log-log, la loss decrece como una ley de potencia con el compute. Los sliders N (parámetros) y D (tokens) muestran la iso-compute curve: para un presupuesto dado, existe una proporción N/D óptima — alrededor de 20 tokens por parámetro según Chinchilla.

Mueve el punto para explorar el plano (N, D). La diagonal Chinchilla es la linea donde cada dolar de computo se gasta de forma optima. Por encima, has entrenado demasiado tiempo un modelo demasiado pequeño; por debajo, lo contrario.

Notaras algo interesante: LLaMA-3 esta muy por encima de la diagonal. Con 70 mil millones de parametros entrenados sobre 15 billones de tokens, su ratio es de 214 — diez veces por encima del optimo Chinchilla.

Por que? Porque Meta optimizo para algo distinto a la eficiencia del computo de entrenamiento. Optimizo para el coste de inferencia. Un modelo mas pequeño entrenado mas tiempo cuesta mas entrenarlo (un poco) pero mucho menos servirlo en produccion. Sobre miles de millones de peticiones, el ahorro es masivo.

Mas alla de los parametros: la calidad de los datos

Las scaling laws no son el final de la historia. Aparecen varios limites.

La cantidad de datos disponible es finita. Common Crawl, Wikipedia, GitHub, ArXiv, libros escaneados — el inventario de datos textuales de calidad en internet no es infinito. Varios equipos estiman que nos acercamos al muro: entrenar un modelo de 1 billon de parametros al optimo Chinchilla requeriria 20 billones de tokens, lo que supera ampliamente los corpus publicos limpios.

La calidad gana a la cantidad, pero solo hasta cierto punto. Filtrar un corpus para conservar solo datos de alta calidad (manuales, libros tecnicos, codigo limpio) mejora el modelo mas que añadir datos mediocres. Pero un filtrado demasiado agresivo termina por empobrecer la distribucion y dañar la generalizacion.

Las capacidades emergentes enturbian la curva. Para ciertas tareas (razonamiento multi-paso, matematicas complejas, instrucciones raras), el rendimiento se mantiene plano hasta cierto umbral de tamaño — y despues sube bruscamente. Esas "emergent abilities" son controvertidas: algunos investigadores (Schaeffer et al., 2023) muestran que desaparecen cuando se elige una metrica mas continua. Pero el fenomeno practico permanece: los modelos pequeños simplemente no pueden hacer ciertas cosas, por mucho fine-tuning que se les aplique.

La leccion practica

Si entrenas un modelo hoy, esto es lo que las scaling laws te dicen:

  • Computo fijo? Apunta a un ratio D/N cercano a 20. Es el optimo de entrenamiento.
  • Vas a servir el modelo a gran escala? Desplaza el ratio hacia arriba. Un modelo mas pequeño entrenado mas tiempo es mas barato en inferencia — es lo que hacen Meta, Mistral, y cada vez mas equipos.
  • Apuntas a una capacidad emergente? Las pequeñas optimizaciones no bastaran. Hay que cruzar un umbral de tamaño.
  • Te faltan datos? La calidad, el filtrado y la diversidad importan mas que el tamaño bruto del corpus.

Las scaling laws no dicen que haya que crecer indefinidamente. Dicen que hay un ratio justo entre parametros y datos — y que pasamos años equivocandonos de lado.

Actualizado el

Leyes de escala: Kaplan, Chinchilla y la proporción óptima · Step by Token