LLMs no seu próprio servidor: quando faz sentido e quando não
Self-hosted Llama, Qwen, DeepSeek em servidor on-prem. Análise honesta de custo, latência, qualidade e total cost of ownership vs. API pública. Quando vale, quando vira passivo.
A pergunta de 2026
Em workshops e consultorias, três perguntas se repetem:
- “Podemos rodar IA dentro da nossa rede sem mandar dado para fora?”
- “Quanto custaria substituir OpenAI/Anthropic pelas nossas próprias máquinas?”
- “Se Llama 4/Qwen 3 são bons, por que ainda pagamos API pública?”
Respostas curtas, antes do detalhe:
- Sim, mas…
- Mais do que você espera.
- Porque você está pagando 80% por confiabilidade, 20% pelo modelo.
Este artigo abre o “mas” e o “mais do que você espera”.
Quando self-hosted faz sentido
Caso 1: compliance regulatório duro
Se o setor exige que dado pessoal/saúde/financeiro/militar NUNCA saia do perímetro da empresa, self-hosted é a única opção em alguns casos. Exemplos:
- Hospitais com dado de paciente.
- Bancos com dado de transação tier 1.
- Defesa nacional, infraestrutura crítica.
- Escritórios jurídicos em mandato sigiloso.
Mesmo aqui, note: Anthropic, OpenAI, Google e AWS oferecem em 2026 opções de tenant dedicado em região BR com data residency garantida. Antes de declarar “precisamos self-host”, verifique se um tenant dedicado já resolve seu requisito jurídico.
Caso 2: volume massivo + caso de uso estável
Se você roda milhões de inferências/mês em um caso de uso estável (ex: classificação de tickets, sumarização padronizada de chamadas, extração de campos de NF-e), o custo unitário em escala se inverte:
- API pública: custo por token, escala linear. R$ 30k/mês fica R$ 300k/mês em 10x volume.
- Self-hosted em GPU dedicada: custo fixo de servidor + energia. R$ 30k/mês permanece R$ 30k/mês em 10x volume (até saturar a GPU).
Break-even típico em 2026 para um modelo classe Llama 3 70B inteiro: ~5-15 milhões de tokens/dia processados consistentemente. Abaixo disso, API ainda é mais barata.
Caso 3: latência rede impossível
Aplicação que precisa de < 100ms first-token mesmo com 200 usuários simultâneos pode justificar GPU dedicada. Mas em 2026, latency de provedores chegou perto disso — verifique antes de pular para conclusão.
Caso 4: research que exige fine-tune frequente
Para times que treinam modelos custom semanalmente (raro fora de big tech), self-hosted é parte da rotina. Praticamente nenhuma SMB brasileira está nesse cenário.
Quando self-hosted NÃO faz sentido (a maioria dos casos)
Anti-caso 1: “queremos economizar”
Math básico para 2026:
- GPU classe A100 40GB comprada nova: USD 10-15k.
- GPU classe A100 alugada na cloud: USD 1.5-3/h. Em uso 24/7 = USD 1100-2200/mês.
- Servidor com 4x A100 + power + cooling + colocation em datacenter BR: USD 4-8k/mês fixos.
- Equipe para manter: 1 engenheiro com expertise GPU (raro no BR, USD 5-10k/mês quando encontra).
Total mensal para self-host produção: USD 9-18k mínimo.
Para igualar isso em consumo de API pública (Claude Sonnet, GPT-4.1, Gemini 2.5):
- USD 9-18k = USD 9-18k de tokens
- Sonnet 4.x: ~USD 3/M tokens input + ~USD 15/M tokens output
- Considerando mix típico de 70% input / 30% output: ~USD 6.6/M tokens médio
- USD 9k = ~1.4 bilhões de tokens/mês
Sua empresa processa 1.4 bilhões de tokens/mês? Provavelmente não. API é mais barata para 95% das empresas.
Anti-caso 2: “queremos privacidade”
“Privacidade” como motivação isolada raramente justifica self-host em 2026. Anthropic, OpenAI, Google têm Data Processing Addendums em conformidade com LGPD/GDPR. Cloud em região BR (AWS São Paulo, Azure SP) é elegível para a maioria dos casos.
Quando NÃO basta: setor regulado com obrigação contratual explícita de não trânsito.
Anti-caso 3: “queremos a versão mais recente”
Self-host significa congelar o modelo. Você roda Llama 3.3 70B. Quando sai Llama 5, você refaz o setup. Modelos pequenos open-weight rodam atrás dos closed-source proprietários por 6-18 meses.
Se sua aplicação depende da capabilidade da fronteira, API é onde a fronteira está.
Anti-caso 4: “queremos personalidade própria”
Você quer um modelo que “fala como a empresa”. Não precisa de self-host para isso. Precisa de:
- System prompt bem desenhado
- Few-shot examples
- Eventualmente fine-tune via API (OpenAI, Anthropic, Google oferecem fine-tune as a service)
Self-host para personalidade é matar mosquito com bazooka.
Stack open-weight realista 2026
Se você decidiu (com fundamento) que self-host faz sentido, eis a stack atual:
Modelos
- Llama 4 70B-405B (Meta) — boa qualidade geral, EN > PT.
- Qwen 3 / DeepSeek V3 — fortes em código e matemática, PT decente.
- Phi-3.5 (Microsoft) — modelo pequeno (3-14B) eficiente. Bom para tarefas estruturadas.
- Mistral / Mixtral — europeu, eficiência boa.
Para PT-BR específico, considere fine-tune em corpus brasileiro (Maritaca AI tem versões PT bem treinadas).
Runtime de inferência
- vLLM — padrão de mercado para servir LLM em escala. Multi-GPU, batching, tensor parallelism.
- Ollama — bom para dev local + POCs, não recomendado em produção tier 1.
- TGI (Text Generation Inference, da HuggingFace) — alternativa robusta.
- TensorRT-LLM (NVIDIA) — performance máxima em GPU NVIDIA, complexidade alta.
Orchestração
- vLLM + Kubernetes + GPU autoscaler — padrão enterprise.
- Ray Serve — alternativa para times que já usam Ray.
- Modal / Replicate — managed self-host, intermédio entre API pública e on-prem puro.
Observabilidade
- Logs de prompt + response em SQL/SQLite (mesmo padrão de runtime governance no harness).
- Métricas: tokens/s, latência p50/p95/p99, GPU utilization, OOM rate.
- Alerting via Prometheus + Grafana ou similar.
O pattern híbrido (recomendado)
Para 80% das empresas que pensam que querem self-host, o pattern ótimo é híbrido:
- API pública para casos genéricos (drafting, summarization, classificação geral).
- Self-hosted modelo pequeno para tarefa específica de alto volume com dado sensível (ex: extração de PII em logs internos).
- Pre-processing local para mascarar dado sensível ANTES de mandar para API pública (PII redaction com modelo small local + chamada para Claude/GPT do resto).
Esse pattern híbrido captura 80% do benefício de self-host (privacidade no que importa) com 20% do custo + complexidade.
FAQ
Quanto tempo para subir um POC self-host? Com Ollama em laptop ou servidor pequeno: 1 dia. Para produção real com vLLM + Kubernetes: 2-6 semanas de engineering dedicado.
Servidores brasileiros suportam? Sim. Datacenters tier 3+ em São Paulo, Rio, Fortaleza têm capacidade. Custo de energia + cooling no BR é maior que EUA — pesa no TCO.
Conseguimos comprar A100/H100 no BR? Estoque limitado e preço premium vs. importação direta. Para volume baixo (1-4 GPUs), revenda local. Para volume alto, importação via parceiro especializado é mais barato.
Vale Anthropic Claude self-host? Anthropic não oferece weights open. Nem OpenAI. Self-host é exclusivamente território de modelos open-weight.
E modelos brasileiros (Maritaca, Sabiá)? Sabiá tem versões competitivas em PT-BR. Vale considerar para casos PT-only com escala média.
Próximos passos
- Aplique a matriz de decisão acima ao seu caso. Se você não está em um dos 4 cenários “quando faz sentido”, provavelmente não faz.
- OpenClaw é um gateway multi-canal open-source de terceiros que adotamos internamente para WhatsApp/Telegram/Instagram/Discord — vale avaliar se você tem requisitos multi-canal.
- Newsletter SkilLab AI — deep dive em engineering aplicado toda quinta. Inscreva-se abaixo.
Leia também
-
Harness Stack — 9 camadas de governança em runtime, aplicável a qualquer LLM (API ou self-host)
-
IA para negócios: a única matriz de decisão que você precisa — quando delegar