Saltar al contenido
🔵 Practitioner

Cómo leer un benchmark de LLM sin ser engañado

Los benchmarks de LLM se volvieron marketing. Cinco preguntas para hacer antes de creer en cualquier claim de 'modelo X superó modelo Y'.

Todo lanzamiento viene con slide de “supera GPT-X en N benchmarks”. Esos slides son marketing. No significan cero — pero significan menos de lo que el vendedor quiere.

Cinco preguntas para hacer antes de creer.

Pregunta 1 · ¿Qué benchmark, y mide qué?

MMLU mide conocimiento de currículo académico inglés. HumanEval mide Python básico. GSM8K mide matemática de escuela. Cada uno cubre una franja estrecha.

“Supera GPT-5 en MMLU en 2 puntos” → significa marginalmente mejor en conocimiento factual en inglés. No significa “modelo mejor”.

Para tu caso específico (atención al cliente, clasificación de factura, análisis jurídico), MMLU dice casi nada. Pregunta: ¿qué benchmark cubre mi tarea?

Pregunta 2 · ¿El modelo entrenó en el benchmark?

Contamination check. Muchos benchmarks se filtran al corpus de entrenamiento y el modelo “memoriza” las respuestas. Cuando ves “100% en benchmark X”, sospecha — puede haber aprendido el test.

Anthropic, Google, OpenAI publican contamination reports. Búscalos. Si no hay, sospecha.

Señal: modelos nuevos con score altísimo en benchmarks antiguos (4+ años) — probablemente contaminados.

Pregunta 3 · Varianza y setup

Resultados de LLM varían por seed, prompt format y temperatura. “62.3%” puede ser ±2% entre runs. Comparación que muestra ganancia de 1 punto puede ser ruido.

Pregunta: ¿cuántas runs? ¿qué desvío estándar? ¿qué prompt format? ¿en qué temperatura? Si la respuesta es “corrimos una vez”, el número no es confiable.

Pregunta 4 · Cherry-picking de tareas

Benchmark compuesto tiene 30 subtareas. El vendor elige los 8 donde está al frente, ignora los 22 donde empata o pierde. Marketing legítimo, pero distorsiona.

Para benchmark agregado (MMLU, MMLU-Pro, BIG-bench), toma el score global. Para benchmark por categoría, exige la tabla completa.

Pregunta 5 · Reproducibilidad

¿El paper publica prompt usado, parámetros, código de evaluación? ¿Puedes (o terceros) correr y llegar al mismo número? Si la respuesta es “confía en mí”, el número no es peer-reviewed.

Para benchmark interno del vendor sin reproducción pública, trata como marketing — útil como señal direccional, no como verdad.

La regla práctica

En 2026, el gap entre los top 3 modelos de cada vendor (Claude Opus, GPT-5, Gemini Ultra) en benchmarks padrón es pequeño — casi siempre 0-5 puntos. Decidir compra por benchmark no vale el esfuerzo.

Usa benchmark para:

  • Eliminar modelos claramente atrás (10+ puntos abajo del top).
  • Identificar especialidad (“este modelo es fuerte en código, débil en razonamiento multimodal”).

No uses benchmark para:

  • “Modelo X mejor que modelo Y” basado en 1-3 puntos de ventaja.
  • Estimar performance en TU caso de uso (que probablemente no está en el benchmark).

La alternativa: eval interno

Para decisión real, monta un eval interno: 50-100 ejemplos de tu caso de uso, corre 3-5 modelos, mide calidad humana. Cuesta un día de trabajo. Da orden de magnitud más signal que cualquier benchmark público.

Cómo montar eval interno es tema para post propio — queda en el cluster AI Engineering cuando publiquemos.

Cómo profundizar

Para la perspectiva de comparativo práctico en vez de benchmark, lee Claude vs Copilot vs Gemini para empresa.