Capítulo 16 · Avaliação · 8 min

Como sabemos que um modelo é melhor?

MMLU, HumanEval, LMSYS Arena. Por que medir a inteligência de um LLM é difícil — e por que nenhum benchmark é suficiente.

Medir um modelo e medir um comportamento

Nao existe uma unica nota que diga se um LLM e "bom". Um modelo pode ser excelente em codigo, medio em matematica, rapido mas menos confiavel, criativo mas impreciso.

Avaliar significa escolher que comportamento queremos medir.

Cada eixo é um benchmark. Modelos têm perfis diferentes — fortes em código, fracos em raciocínio longo, ou o contrário. Nenhum radar dá o veredito final: é preciso cruzar benchmarks objetivos e preferências humanas para julgar um LLM.

Benchmarks

Um benchmark e um conjunto de tarefas com uma metrica. MMLU mede conhecimento academico, HumanEval mede codigo, GSM8K mede raciocinio aritmetico, Arena mede preferencias humanas.

Cada benchmark ilumina uma parte do modelo. Nenhum cobre tudo.

No HumanEval, a metrica padrao e o pass@k: geramos k propostas por problema (frequentemente k=1 ou k=10) e contamos um sucesso quando pelo menos uma passa nos testes. pass@1 mede a confiabilidade, pass@10 a capacidade bruta.

Avaliacao por tarefas reais

Para alem dos benchmarks classicos, varios benchmarks tentam medir capacidades em situacoes mais proximas do uso real:

  • SWE-Bench — bugs reais do GitHub para corrigir em codebases existentes. O modelo recebe um repositorio, uma descricao de bug, e precisa produzir um patch que passa nos testes. Muito mais dificil que HumanEval.
  • GAIA — perguntas multi-etapas que exigem raciocinio, busca na web, manipulacao de arquivos. Mede capacidade agentica.
  • GPQA (Graduate-Level Google-Proof QA) — perguntas de fisica, quimica e biologia em nivel de doutorado, projetadas para que nao se possa responder via busca no Google. Distingue modelos que raciocinam dos que recuperam.
  • ARC-AGI — quebra-cabecas visuais abstratos, projetados para medir raciocinio geral sobre conceitos novos. Nenhum modelo havia passado um limiar humano antes do final de 2024.
  • Humanity's Last Exam — perguntas no nivel dos melhores pesquisadores do mundo, em dominios onde benchmarks classicos estao saturados.

Contaminacao

Se um benchmark esta na internet, ele pode aparecer nos dados de treinamento. Entao o modelo pode ter visto as respostas antes do teste.

Por isso avaliacoes modernas tentam usar conjuntos privados, tarefas novas ou comparacoes humanas cegas.

Avaliar seu caso real

Para um produto, benchmarks publicos nao bastam. E preciso construir uma avaliacao propria:

  • prompts representativos
  • respostas esperadas ou criterios de qualidade
  • casos limite
  • medicao de latencia e custo
  • revisao humana de amostras

A pergunta importante nao e "qual modelo ganha em geral?", mas "qual falha menos no meu uso concreto?".

O que lembrar

Um LLM nao e magia. E uma maquina que:

  1. corta texto em tokens
  2. transforma tokens em vetores
  3. usa atencao para misturar contexto
  4. empilha blocos Transformer
  5. aprende prevendo o proximo token
  6. gera amostrando uma distribuicao
  7. e alinhado, equipado, avaliado

Se voce entende esse ciclo, consegue raciocinar sobre suas capacidades e limites sem cair nem no mito nem no cinismo.

Atualizado em

Avaliar um LLM: MMLU, HumanEval, LMSYS Arena · Step by Token