Cómo leer un benchmark de LLM sin ser engañado
Los benchmarks de LLM se volvieron marketing. Cinco preguntas para hacer antes de creer en cualquier claim de 'modelo X superó modelo Y'.
Todo lanzamiento viene con slide de “supera GPT-X en N benchmarks”. Esos slides son marketing. No significan cero — pero significan menos de lo que el vendedor quiere.
Cinco preguntas para hacer antes de creer.
Pregunta 1 · ¿Qué benchmark, y mide qué?
MMLU mide conocimiento de currículo académico inglés. HumanEval mide Python básico. GSM8K mide matemática de escuela. Cada uno cubre una franja estrecha.
“Supera GPT-5 en MMLU en 2 puntos” → significa marginalmente mejor en conocimiento factual en inglés. No significa “modelo mejor”.
Para tu caso específico (atención al cliente, clasificación de factura, análisis jurídico), MMLU dice casi nada. Pregunta: ¿qué benchmark cubre mi tarea?
Pregunta 2 · ¿El modelo entrenó en el benchmark?
Contamination check. Muchos benchmarks se filtran al corpus de entrenamiento y el modelo “memoriza” las respuestas. Cuando ves “100% en benchmark X”, sospecha — puede haber aprendido el test.
Anthropic, Google, OpenAI publican contamination reports. Búscalos. Si no hay, sospecha.
Señal: modelos nuevos con score altísimo en benchmarks antiguos (4+ años) — probablemente contaminados.
Pregunta 3 · Varianza y setup
Resultados de LLM varían por seed, prompt format y temperatura. “62.3%” puede ser ±2% entre runs. Comparación que muestra ganancia de 1 punto puede ser ruido.
Pregunta: ¿cuántas runs? ¿qué desvío estándar? ¿qué prompt format? ¿en qué temperatura? Si la respuesta es “corrimos una vez”, el número no es confiable.
Pregunta 4 · Cherry-picking de tareas
Benchmark compuesto tiene 30 subtareas. El vendor elige los 8 donde está al frente, ignora los 22 donde empata o pierde. Marketing legítimo, pero distorsiona.
Para benchmark agregado (MMLU, MMLU-Pro, BIG-bench), toma el score global. Para benchmark por categoría, exige la tabla completa.
Pregunta 5 · Reproducibilidad
¿El paper publica prompt usado, parámetros, código de evaluación? ¿Puedes (o terceros) correr y llegar al mismo número? Si la respuesta es “confía en mí”, el número no es peer-reviewed.
Para benchmark interno del vendor sin reproducción pública, trata como marketing — útil como señal direccional, no como verdad.
La regla práctica
En 2026, el gap entre los top 3 modelos de cada vendor (Claude Opus, GPT-5, Gemini Ultra) en benchmarks padrón es pequeño — casi siempre 0-5 puntos. Decidir compra por benchmark no vale el esfuerzo.
Usa benchmark para:
- Eliminar modelos claramente atrás (10+ puntos abajo del top).
- Identificar especialidad (“este modelo es fuerte en código, débil en razonamiento multimodal”).
No uses benchmark para:
- “Modelo X mejor que modelo Y” basado en 1-3 puntos de ventaja.
- Estimar performance en TU caso de uso (que probablemente no está en el benchmark).
La alternativa: eval interno
Para decisión real, monta un eval interno: 50-100 ejemplos de tu caso de uso, corre 3-5 modelos, mide calidad humana. Cuesta un día de trabajo. Da orden de magnitud más signal que cualquier benchmark público.
Cómo montar eval interno es tema para post propio — queda en el cluster AI Engineering cuando publiquemos.
Cómo profundizar
Para la perspectiva de comparativo práctico en vez de benchmark, lee Claude vs Copilot vs Gemini para empresa.