Capítulo 13 · Alucinaciones · 9 min

Por que los LLMs inventan

Calibracion, certezas falsas, contramedidas. El mecanismo estructural detras de la critica mas frecuente — y que se puede hacer al respecto.

La critica mas frecuente

Le haces a un LLM una pregunta sobre un tema puntual. Te responde con aplomo: una referencia bibliografica, una fecha, una cita. Verificas. El libro no existe. La fecha es falsa. La cita es inventada.

Este fenomeno tiene un nombre oficial — hallucination — y probablemente es lo primero que se le reprocha a los LLMs. No un bug ocasional: una propiedad estructural. Para entender por que, hay que volver a la forma en que el modelo fue entrenado.

Tres mecanismos que se combinan

1. La cross-entropy no recompensa la incertidumbre. Durante el pre-entrenamiento (capitulo 06), el objetivo es minimizar la log-probabilidad del token correcto. En ningun momento el modelo aprende a decir "no se": aprende a predecir siempre algo, lo mas plausible posible. Si la respuesta correcta no esta en sus pesos, produce la cadena mas verosimil, no una admision de ignorancia.

2. El RLHF recompensa la confianza mas que la honestidad. Durante el alineamiento (capitulo 08), humanos clasifican las respuestas. En promedio, prefieren una respuesta confiada y bien formulada a un "no estoy seguro". El reward model aprende ese sesgo, y el LLM aprende a parecer seguro — incluso cuando no lo esta.

3. Sin bucle de verificacion interna. Un humano que inventa una cita se detiene, duda, va a verificar. Un LLM que genera token a token no tiene ese mecanismo. Avanza, sin control externo, y cada token engendra el siguiente bajo la misma logica de plausibilidad.

Una alucinacion no es un bug. Es lo que pasa cuando un sistema entrenado para siempre producir texto plausible se topa con una pregunta cuya respuesta no esta en sus pesos.

El problema de calibration

Un modelo bien calibrado es aquel cuya confianza expresada coincide con la probabilidad de estar en lo correcto. Si dice "estoy seguro al 80%", deberia tener razon aproximadamente el 80% de las veces.

Los LLMs en bruto (antes del RLHF) estan sorprendentemente bien calibrados sobre sus probabilidades internas. Pero el alineamiento descalibra el modelo: al recompensar la confianza, lo aleja de la verdad estadistica de sus propias predicciones.

Eso explica el modo "alucina con aplomo": no es que el modelo no sepa que no sabe. Es que su entrenamiento lo empujo a enmascarar esa incertidumbre.

El modelo asigna una probabilidad a cada una de sus afirmaciones. Una afirmación falsa pero coherente recibe a menudo un score alto: ese es el mecanismo estructural de las alucinaciones, no un bug puntual que un parche pueda corregir.

Juega con algunas preguntas. Observa como la confianza expresada y la probabilidad real de estar en lo correcto no siempre siguen la misma curva. Activa + RAG o + razonamiento extendido para ver como las contramedidas reducen la brecha.

Cuatro familias de contramedidas

Las alucinaciones no desaparecen con un mejor alineamiento. Son estructurales. Para reducirlas en la practica, hacen falta palancas sistemicas, no solo un mejor modelo.

1. Conectar el modelo a herramientas (capitulo 11)

La regla: todo lo que un LLM hace mal, lo delegamos a un sistema deterministico. Calcular una derivada? Code interpreter. Recuperar una cotizacion bursatil? API. Verificar que un archivo existe? File system tool. El modelo ya no intenta adivinar el resultado — lo observa.

Efecto: las alucinaciones sobre los dominios cubiertos por las herramientas caen a cero. Las alucinaciones sobre los demas dominios se mantienen.

2. RAG (capitulo 10)

En vez de preguntarle al modelo lo que recuerda sobre un tema, le damos fuentes fiables en el momento de responder. Las alucinaciones bibliograficas o factuales disminuyen mucho, porque el modelo puede citar lo que lee, no solo lo que imagina.

Limite: si las fuentes son malas o estan mal recuperadas, el modelo alucina sobre su contenido. E incluso con buenas fuentes, puede sobre-extrapolar ("la fuente dice X, asi que forzosamente Y").

3. Razonamiento extendido (capitulo 17)

Un modelo que se toma el tiempo de verificar su borrador antes de responder se equivoca menos. Los modelos de razonamiento (o1, o3, Claude extended thinking) generan una cadena de pensamiento invisible, en la que pueden recalcular, contradecir un paso, partir de otra pista.

Es imperfecto — un modelo puede alucinar dentro de su razonamiento tambien — pero el simple hecho de desplegar los pasos atrapa una parte significativa de los errores.

4. Fine-tuning explicito sobre la incertidumbre

El angulo mas prometedor del lado de la investigacion: entrenar al modelo para la abstention. Se le muestran pares (pregunta, respuesta) donde, cuando la probabilidad interna es baja, la respuesta correcta es "no se" o "no tengo esa informacion". El modelo aprende a reconocer su propio nivel de confianza, y a comunicarlo.

Varios labs trabajan en esto (DeepMind, Anthropic). Aun esta lejos de ser robusto, pero es la unica tecnica que ataca de verdad la raiz del problema.

Detectar una alucinacion en la practica

Algunas heuristicas utiles del lado del usuario:

  • Pide fuentes. Si el modelo no puede citar sus fuentes, o las inventa, trata la respuesta como sospechosa.
  • Verifica lo que es preciso. Los nombres propios, fechas, cifras exactas, citas son las zonas de riesgo. El contenido general suele estar OK.
  • Reformula la pregunta de otra manera. Un modelo que inventa suele dar respuestas coherentes a la misma pregunta reformulada — pero incoherentes a reformulaciones muy diferentes.
  • Preguntale al modelo su nivel de confianza. Imperfecto, pero correlacionado con la calidad real de la respuesta, sobre todo en los modelos recientes.
  • Cruza con otro modelo. Las alucinaciones rara vez son las mismas de un modelo a otro. Una respuesta sobre la que GPT-4 y Claude convergen tiene muchas mas probabilidades de ser correcta.

Lo que hay que retener

Tres cosas.

Una. Las alucinaciones no son un defecto del modelo: son la consecuencia de su objetivo de entrenamiento. Ningun fine-tuning superficial las hace desaparecer.

Dos. Las contramedidas que funcionan en produccion son sistemicas (RAG, herramientas, razonamiento, abstention). Ninguna es perfecta aislada; combinadas, llevan la tasa de alucinacion a un nivel aceptable para la mayoria de los casos.

Tres. Para el usuario final, la mejor defensa sigue siendo no confiar a ciegas, sobre todo en los detalles precisos (fuentes, fechas, cifras). Un LLM que te responde con aplomo no es prueba de que tenga razon.

Preguntarle a un LLM "estas seguro?" no es una verificacion. Es solo otra generacion de texto plausible.

Actualizado el

Por qué los LLMs alucinan (y cómo mitigarlo) · Step by Token