Pular para o conteúdo
🟠 Builder

LLMs no seu próprio servidor: quando faz sentido e quando não

Self-hosted Llama, Qwen, DeepSeek em servidor on-prem. Análise honesta de custo, latência, qualidade e total cost of ownership vs. API pública. Quando vale, quando vira passivo.

A pergunta de 2026

Em workshops e consultorias, três perguntas se repetem:

  1. “Podemos rodar IA dentro da nossa rede sem mandar dado para fora?”
  2. “Quanto custaria substituir OpenAI/Anthropic pelas nossas próprias máquinas?”
  3. “Se Llama 4/Qwen 3 são bons, por que ainda pagamos API pública?”

Respostas curtas, antes do detalhe:

  1. Sim, mas…
  2. Mais do que você espera.
  3. Porque você está pagando 80% por confiabilidade, 20% pelo modelo.

Este artigo abre o “mas” e o “mais do que você espera”.

Quando self-hosted faz sentido

Caso 1: compliance regulatório duro

Se o setor exige que dado pessoal/saúde/financeiro/militar NUNCA saia do perímetro da empresa, self-hosted é a única opção em alguns casos. Exemplos:

  • Hospitais com dado de paciente.
  • Bancos com dado de transação tier 1.
  • Defesa nacional, infraestrutura crítica.
  • Escritórios jurídicos em mandato sigiloso.

Mesmo aqui, note: Anthropic, OpenAI, Google e AWS oferecem em 2026 opções de tenant dedicado em região BR com data residency garantida. Antes de declarar “precisamos self-host”, verifique se um tenant dedicado já resolve seu requisito jurídico.

Caso 2: volume massivo + caso de uso estável

Se você roda milhões de inferências/mês em um caso de uso estável (ex: classificação de tickets, sumarização padronizada de chamadas, extração de campos de NF-e), o custo unitário em escala se inverte:

  • API pública: custo por token, escala linear. R$ 30k/mês fica R$ 300k/mês em 10x volume.
  • Self-hosted em GPU dedicada: custo fixo de servidor + energia. R$ 30k/mês permanece R$ 30k/mês em 10x volume (até saturar a GPU).

Break-even típico em 2026 para um modelo classe Llama 3 70B inteiro: ~5-15 milhões de tokens/dia processados consistentemente. Abaixo disso, API ainda é mais barata.

Caso 3: latência rede impossível

Aplicação que precisa de < 100ms first-token mesmo com 200 usuários simultâneos pode justificar GPU dedicada. Mas em 2026, latency de provedores chegou perto disso — verifique antes de pular para conclusão.

Caso 4: research que exige fine-tune frequente

Para times que treinam modelos custom semanalmente (raro fora de big tech), self-hosted é parte da rotina. Praticamente nenhuma SMB brasileira está nesse cenário.

Quando self-hosted NÃO faz sentido (a maioria dos casos)

Anti-caso 1: “queremos economizar”

Math básico para 2026:

  • GPU classe A100 40GB comprada nova: USD 10-15k.
  • GPU classe A100 alugada na cloud: USD 1.5-3/h. Em uso 24/7 = USD 1100-2200/mês.
  • Servidor com 4x A100 + power + cooling + colocation em datacenter BR: USD 4-8k/mês fixos.
  • Equipe para manter: 1 engenheiro com expertise GPU (raro no BR, USD 5-10k/mês quando encontra).

Total mensal para self-host produção: USD 9-18k mínimo.

Para igualar isso em consumo de API pública (Claude Sonnet, GPT-4.1, Gemini 2.5):

  • USD 9-18k = USD 9-18k de tokens
  • Sonnet 4.x: ~USD 3/M tokens input + ~USD 15/M tokens output
  • Considerando mix típico de 70% input / 30% output: ~USD 6.6/M tokens médio
  • USD 9k = ~1.4 bilhões de tokens/mês

Sua empresa processa 1.4 bilhões de tokens/mês? Provavelmente não. API é mais barata para 95% das empresas.

Anti-caso 2: “queremos privacidade”

“Privacidade” como motivação isolada raramente justifica self-host em 2026. Anthropic, OpenAI, Google têm Data Processing Addendums em conformidade com LGPD/GDPR. Cloud em região BR (AWS São Paulo, Azure SP) é elegível para a maioria dos casos.

Quando NÃO basta: setor regulado com obrigação contratual explícita de não trânsito.

Anti-caso 3: “queremos a versão mais recente”

Self-host significa congelar o modelo. Você roda Llama 3.3 70B. Quando sai Llama 5, você refaz o setup. Modelos pequenos open-weight rodam atrás dos closed-source proprietários por 6-18 meses.

Se sua aplicação depende da capabilidade da fronteira, API é onde a fronteira está.

Anti-caso 4: “queremos personalidade própria”

Você quer um modelo que “fala como a empresa”. Não precisa de self-host para isso. Precisa de:

  • System prompt bem desenhado
  • Few-shot examples
  • Eventualmente fine-tune via API (OpenAI, Anthropic, Google oferecem fine-tune as a service)

Self-host para personalidade é matar mosquito com bazooka.

Stack open-weight realista 2026

Se você decidiu (com fundamento) que self-host faz sentido, eis a stack atual:

Modelos

  • Llama 4 70B-405B (Meta) — boa qualidade geral, EN > PT.
  • Qwen 3 / DeepSeek V3 — fortes em código e matemática, PT decente.
  • Phi-3.5 (Microsoft) — modelo pequeno (3-14B) eficiente. Bom para tarefas estruturadas.
  • Mistral / Mixtral — europeu, eficiência boa.

Para PT-BR específico, considere fine-tune em corpus brasileiro (Maritaca AI tem versões PT bem treinadas).

Runtime de inferência

  • vLLM — padrão de mercado para servir LLM em escala. Multi-GPU, batching, tensor parallelism.
  • Ollama — bom para dev local + POCs, não recomendado em produção tier 1.
  • TGI (Text Generation Inference, da HuggingFace) — alternativa robusta.
  • TensorRT-LLM (NVIDIA) — performance máxima em GPU NVIDIA, complexidade alta.

Orchestração

  • vLLM + Kubernetes + GPU autoscaler — padrão enterprise.
  • Ray Serve — alternativa para times que já usam Ray.
  • Modal / Replicate — managed self-host, intermédio entre API pública e on-prem puro.

Observabilidade

  • Logs de prompt + response em SQL/SQLite (mesmo padrão de runtime governance no harness).
  • Métricas: tokens/s, latência p50/p95/p99, GPU utilization, OOM rate.
  • Alerting via Prometheus + Grafana ou similar.

O pattern híbrido (recomendado)

Para 80% das empresas que pensam que querem self-host, o pattern ótimo é híbrido:

  • API pública para casos genéricos (drafting, summarization, classificação geral).
  • Self-hosted modelo pequeno para tarefa específica de alto volume com dado sensível (ex: extração de PII em logs internos).
  • Pre-processing local para mascarar dado sensível ANTES de mandar para API pública (PII redaction com modelo small local + chamada para Claude/GPT do resto).

Esse pattern híbrido captura 80% do benefício de self-host (privacidade no que importa) com 20% do custo + complexidade.

FAQ

Quanto tempo para subir um POC self-host? Com Ollama em laptop ou servidor pequeno: 1 dia. Para produção real com vLLM + Kubernetes: 2-6 semanas de engineering dedicado.

Servidores brasileiros suportam? Sim. Datacenters tier 3+ em São Paulo, Rio, Fortaleza têm capacidade. Custo de energia + cooling no BR é maior que EUA — pesa no TCO.

Conseguimos comprar A100/H100 no BR? Estoque limitado e preço premium vs. importação direta. Para volume baixo (1-4 GPUs), revenda local. Para volume alto, importação via parceiro especializado é mais barato.

Vale Anthropic Claude self-host? Anthropic não oferece weights open. Nem OpenAI. Self-host é exclusivamente território de modelos open-weight.

E modelos brasileiros (Maritaca, Sabiá)? Sabiá tem versões competitivas em PT-BR. Vale considerar para casos PT-only com escala média.

Próximos passos

  • Aplique a matriz de decisão acima ao seu caso. Se você não está em um dos 4 cenários “quando faz sentido”, provavelmente não faz.
  • OpenClaw é um gateway multi-canal open-source de terceiros que adotamos internamente para WhatsApp/Telegram/Instagram/Discord — vale avaliar se você tem requisitos multi-canal.
  • Newsletter SkilLab AI — deep dive em engineering aplicado toda quinta. Inscreva-se abaixo.

Leia também