Capítulo 16 · Evaluación · 8 min

¿Cómo sabemos que un modelo es mejor?

MMLU, HumanEval, LMSYS Arena. Por qué medir la inteligencia de un LLM es difícil — y por qué ningún benchmark es suficiente.

Medir un modelo es medir un comportamiento

No existe una unica nota que diga si un LLM es "bueno". Un modelo puede ser excelente en codigo, mediano en matematicas, rapido pero menos fiable, creativo pero impreciso.

Evaluar significa elegir que comportamiento queremos medir.

Cada eje es un benchmark. Los modelos tienen perfiles diferentes — fuerte en código, débil en razonamiento largo, o al revés. Ningún radar da el veredicto final: hay que cruzar benchmarks objetivos y preferencias humanas para juzgar un LLM.

Benchmarks

Un benchmark es un conjunto de tareas con una metrica. MMLU mide conocimiento academico, HumanEval mide codigo, GSM8K mide razonamiento aritmetico, Arena mide preferencias humanas.

En HumanEval la metrica estandar es pass@k: se generan k propuestas por problema (a menudo k=1 o k=10) y se cuenta como exito si al menos una pasa los tests. pass@1 mide fiabilidad, pass@10 capacidad bruta.

Cada benchmark ilumina una parte del modelo. Ninguno cubre todo.

Contaminacion

Si un benchmark esta en internet, puede aparecer en los datos de entrenamiento. Entonces el modelo puede haber visto las respuestas antes de la prueba.

Por eso las evaluaciones modernas intentan usar conjuntos privados, tareas nuevas o comparaciones humanas ciegas.

Evaluacion por tareas reales

Los benchmarks academicos clasicos se saturan. Por eso aparecen otros centrados en tareas reales:

  • SWE-Bench — bugs reales de GitHub a corregir en codebases existentes. El modelo recibe un repo, una descripcion de bug, y debe producir un patch que pase los tests. Mucho mas duro que HumanEval.
  • GAIA — preguntas multi-etapa que requieren razonamiento, busqueda web, manipulacion de archivos. Mide la capacidad agentica.
  • GPQA (Graduate-Level Google-Proof QA) — preguntas de fisica, quimica, biologia a nivel doctoral, diseñadas para que no se puedan responder con una busqueda en Google. Distingue los modelos que razonan de los que recuperan.
  • ARC-AGI — puzzles visuales abstractos, diseñados para medir el razonamiento general sobre conceptos nuevos. Ningun modelo paso un umbral humano antes de finales de 2024.
  • Humanity's Last Exam — preguntas a nivel del mejor investigador del mundo, en dominios donde los benchmarks clasicos estan saturados.

Evaluar tu caso real

Para un producto, los benchmarks publicos no bastan. Hay que construir una evaluacion propia:

  • prompts representativos
  • respuestas esperadas o criterios de calidad
  • casos limite
  • medicion de latencia y coste
  • revision humana de muestras

La pregunta importante no es "cual modelo gana en general?", sino "cual falla menos en mi uso concreto?".

Lo que debes recordar

Un LLM no es magia. Es una maquina que:

  1. corta texto en tokens
  2. transforma tokens en vectores
  3. usa atencion para mezclar contexto
  4. apila bloques Transformer
  5. aprende prediciendo el siguiente token
  6. genera muestreando una distribucion
  7. se alinea, se equipa, se evalua

Si entiendes ese ciclo, puedes razonar sobre sus capacidades y sus limites sin caer ni en el mito ni en el cinismo.

Actualizado el

Evaluar un LLM: MMLU, HumanEval, LMSYS Arena · Step by Token