Pular para o conteúdo
🔵 Practitioner

Como ler um benchmark de LLM sem se enganar

Benchmarks de LLM viraram marketing. Cinco perguntas para fazer antes de acreditar em qualquer claim de 'modelo X superou modelo Y'.

Todo lançamento vem com slide de “supera GPT-X em N benchmarks”. Esses slides são marketing. Não significam zero — mas significam menos do que vendedor quer.

Cinco perguntas para fazer antes de acreditar.

Pergunta 1 · Qual benchmark, e ele mede o quê?

MMLU mede conhecimento de currículo acadêmico inglês. HumanEval mede Python básico. GSM8K mede matemática de escola. Cada um cobre uma fatia estreita.

“Supera GPT-5 em MMLU em 2 pontos” → significa marginalmente melhor em conhecimento factual em inglês. Não significa “modelo melhor”.

Para o seu caso específico (atendimento ao cliente em PT-BR, classificação de NF-e, análise jurídica), MMLU diz quase nada. Pergunte: que benchmark cobre minha task?

Pergunta 2 · O modelo treinou no benchmark?

Contamination check. Muitos benchmarks vazam para o corpus de treinamento e o modelo “decora” as respostas. Quando você vê “100% em benchmark X”, desconfie — pode ter aprendido o teste.

Anthropic, Google, OpenAI publicam contamination reports. Procure. Se não tem, suspeite.

Sinal: modelos novos com score altíssimo em benchmarks antigos (4+ anos) — provavelmente contaminados.

Pergunta 3 · Variância e setup

Resultados de LLM variam por seed, prompt format, e temperatura. “62.3%” pode ser ±2% entre runs. Comparação que mostra ganho de 1 ponto pode ser ruído.

Pergunte: quantas runs? Qual desvio padrão? Qual prompt format? Em qual temperatura? Se a resposta é “rodamos uma vez”, o número não é confiável.

Pergunta 4 · Cherry-picking de tasks

Benchmark composto tem 30 subtasks. O vendor escolhe os 8 onde está na frente, ignora os 22 onde empata ou perde. Marketing legítimo, mas distorce.

Para benchmark agregado (MMLU, MMLU-Pro, BIG-bench), pegue o score global. Para benchmark por categoria, exija a tabela completa.

Pergunta 5 · Reproduzibilidade

O paper publica prompt usado, parâmetros, código de avaliação? Você (ou terceiro) consegue rodar e chegar no mesmo número? Se a resposta é “confia em mim”, o número não é peer-reviewed.

Para benchmark interno do vendor sem reprodução pública, trate como marketing — útil como sinal direcional, não como verdade.

A regra prática

Em 2026, o gap entre top 3 modelos de cada vendor (Claude Opus, GPT-5, Gemini Ultra) em benchmarks padrão é pequeno — quase sempre 0-5 pontos. Decidir compra por benchmark não vale o esforço.

Use benchmark para:

  • Eliminar modelos claramente atrás (10+ pontos abaixo do top).
  • Identificar especialidade (“este modelo é forte em código, fraco em raciocínio multimodal”).

Não use benchmark para:

  • “Modelo X melhor que modelo Y” baseado em 1-3 pontos de vantagem.
  • Estimar performance no SEU caso de uso (que provavelmente não está no benchmark).

A alternativa: eval interno

Para decisão real, monte um eval interno: 50-100 exemplos do seu caso de uso, rode 3-5 modelos, meça qualidade humana. Custa um dia de trabalho. Dá ordem de grandeza mais signal do que qualquer benchmark público.

Como montar eval interno é tema para post próprio — fica no cluster AI Engineering quando publicarmos.

Como aprofundar

Para a perspectiva de comparativo prático em vez de benchmark, leia Claude vs Copilot vs Gemini para empresa brasileira.