Como ler um benchmark de LLM sem se enganar
Benchmarks de LLM viraram marketing. Cinco perguntas para fazer antes de acreditar em qualquer claim de 'modelo X superou modelo Y'.
Todo lançamento vem com slide de “supera GPT-X em N benchmarks”. Esses slides são marketing. Não significam zero — mas significam menos do que vendedor quer.
Cinco perguntas para fazer antes de acreditar.
Pergunta 1 · Qual benchmark, e ele mede o quê?
MMLU mede conhecimento de currículo acadêmico inglês. HumanEval mede Python básico. GSM8K mede matemática de escola. Cada um cobre uma fatia estreita.
“Supera GPT-5 em MMLU em 2 pontos” → significa marginalmente melhor em conhecimento factual em inglês. Não significa “modelo melhor”.
Para o seu caso específico (atendimento ao cliente em PT-BR, classificação de NF-e, análise jurídica), MMLU diz quase nada. Pergunte: que benchmark cobre minha task?
Pergunta 2 · O modelo treinou no benchmark?
Contamination check. Muitos benchmarks vazam para o corpus de treinamento e o modelo “decora” as respostas. Quando você vê “100% em benchmark X”, desconfie — pode ter aprendido o teste.
Anthropic, Google, OpenAI publicam contamination reports. Procure. Se não tem, suspeite.
Sinal: modelos novos com score altíssimo em benchmarks antigos (4+ anos) — provavelmente contaminados.
Pergunta 3 · Variância e setup
Resultados de LLM variam por seed, prompt format, e temperatura. “62.3%” pode ser ±2% entre runs. Comparação que mostra ganho de 1 ponto pode ser ruído.
Pergunte: quantas runs? Qual desvio padrão? Qual prompt format? Em qual temperatura? Se a resposta é “rodamos uma vez”, o número não é confiável.
Pergunta 4 · Cherry-picking de tasks
Benchmark composto tem 30 subtasks. O vendor escolhe os 8 onde está na frente, ignora os 22 onde empata ou perde. Marketing legítimo, mas distorce.
Para benchmark agregado (MMLU, MMLU-Pro, BIG-bench), pegue o score global. Para benchmark por categoria, exija a tabela completa.
Pergunta 5 · Reproduzibilidade
O paper publica prompt usado, parâmetros, código de avaliação? Você (ou terceiro) consegue rodar e chegar no mesmo número? Se a resposta é “confia em mim”, o número não é peer-reviewed.
Para benchmark interno do vendor sem reprodução pública, trate como marketing — útil como sinal direcional, não como verdade.
A regra prática
Em 2026, o gap entre top 3 modelos de cada vendor (Claude Opus, GPT-5, Gemini Ultra) em benchmarks padrão é pequeno — quase sempre 0-5 pontos. Decidir compra por benchmark não vale o esforço.
Use benchmark para:
- Eliminar modelos claramente atrás (10+ pontos abaixo do top).
- Identificar especialidade (“este modelo é forte em código, fraco em raciocínio multimodal”).
Não use benchmark para:
- “Modelo X melhor que modelo Y” baseado em 1-3 pontos de vantagem.
- Estimar performance no SEU caso de uso (que provavelmente não está no benchmark).
A alternativa: eval interno
Para decisão real, monte um eval interno: 50-100 exemplos do seu caso de uso, rode 3-5 modelos, meça qualidade humana. Custa um dia de trabalho. Dá ordem de grandeza mais signal do que qualquer benchmark público.
Como montar eval interno é tema para post próprio — fica no cluster AI Engineering quando publicarmos.
Como aprofundar
Para a perspectiva de comparativo prático em vez de benchmark, leia Claude vs Copilot vs Gemini para empresa brasileira.