LLMs en tu propio servidor: cuándo tiene sentido y cuándo no
Llama, Qwen, DeepSeek self-hosted on-prem. Análisis honesto de costo, latencia, calidad y total cost of ownership vs API pública. Cuándo vale, cuándo se vuelve pasivo.
La pregunta de 2026
En workshops y consultorías, tres preguntas se repiten:
- “¿Podemos correr IA dentro de nuestra red sin mandar dato afuera?”
- “¿Cuánto costaría reemplazar OpenAI/Anthropic con nuestras propias máquinas?”
- “Si Llama 4/Qwen 3 son buenos, ¿por qué seguimos pagando API pública?”
Respuestas cortas, antes del detalle:
- Sí, pero…
- Más de lo que esperás.
- Porque estás pagando 80% por confiabilidad, 20% por el modelo.
Este artículo abre el “pero” y el “más de lo que esperás”.
Cuándo self-hosted tiene sentido
Caso 1: compliance regulatorio duro
Si el sector exige que el dato personal/salud/financiero/militar NUNCA salga del perímetro de la empresa, self-hosted es la única opción en algunos casos. Ejemplos:
- Hospitales con datos de paciente.
- Bancos con dato de transacción tier 1.
- Defensa nacional, infraestructura crítica.
- Estudios jurídicos en mandato secreto.
Incluso acá, nota: Anthropic, OpenAI, Google y AWS ofrecen en 2026 opciones de tenant dedicado en regiones específicas con data residency garantizada. Antes de declarar “necesitamos self-host”, verificá si un tenant dedicado ya resuelve tu requisito legal.
Caso 2: volumen masivo + caso de uso estable
Si corrés millones de inferencias/mes en un caso de uso estable (ej: clasificación de tickets, sumarización standardizada de llamadas, extracción de campos de factura), el costo unitario a escala se invierte:
- API pública: costo por token, escala lineal. USD 6k/mes se vuelve USD 60k/mes a 10× volumen.
- Self-hosted en GPU dedicada: costo fijo de servidor + energía. USD 6k/mes sigue siendo USD 6k/mes a 10× volumen (hasta saturar la GPU).
Break-even típico en 2026 para un modelo clase Llama 3 70B entero: ~5-15 millones de tokens/día procesados consistentemente. Debajo de eso, la API todavía es más barata.
Caso 3: latencia de red imposible
Aplicación que necesita < 100ms first-token incluso con 200 usuarios simultáneos puede justificar GPU dedicada. Pero en 2026, las latencias de providers se acercaron a eso — verificá antes de saltar a la conclusión.
Caso 4: research que exige fine-tune frecuente
Para equipos que entrenan modelos custom semanalmente (raro fuera de Big Tech), self-hosted es parte de la rutina. Prácticamente ninguna empresa mid-market está en ese escenario.
Cuándo self-hosted NO tiene sentido (la mayoría)
Anti-caso 1: “queremos ahorrar”
Math básico para 2026:
- GPU clase A100 40GB nueva: USD 10-15k.
- GPU clase A100 alquilada en cloud: USD 1.5-3/h. En uso 24/7 = USD 1,100-2,200/mes.
- Servidor con 4× A100 + power + cooling + colocation: USD 4-8k/mes fijos.
- Equipo para mantener: 1 ingeniero con expertise GPU (raro globalmente, USD 5-10k/mes cuando se encuentra).
Total mensual para self-host producción: USD 9-18k mínimo.
Para igualar eso en consumo de API pública (Claude Sonnet, GPT-4.1, Gemini 2.5):
- USD 9-18k = USD 9-18k de tokens
- Sonnet 4.x: ~USD 3/M tokens input + ~USD 15/M tokens output
- Considerando mix típico de 70% input / 30% output: ~USD 6.6/M tokens promedio
- USD 9k = ~1.4 mil millones de tokens/mes
¿Tu empresa procesa 1.4 mil millones de tokens/mes? Probablemente no. La API es más barata para el 95% de las empresas.
Anti-caso 2: “queremos privacidad”
“Privacidad” como motivación aislada raramente justifica self-host en 2026. Anthropic, OpenAI, Google tienen Data Processing Addendums conformes con LGPD/GDPR. Cloud en región adecuada (AWS São Paulo, AWS Frankfurt, Azure East US) es elegible para la mayoría de los casos.
Cuándo NO alcanza: sector regulado con obligación contractual explícita de no tránsito.
Anti-caso 3: “queremos la versión más reciente”
Self-host significa congelar el modelo. Corrés Llama 3.3 70B. Cuando sale Llama 5, rehacés el setup. Los modelos open-weight pequeños corren atrás de los closed-source proprietarios por 6-18 meses.
Si tu aplicación depende de capability de frontera, la API es donde está la frontera.
Anti-caso 4: “queremos personalidad propia”
Querés un modelo que “habla como la empresa”. No necesitás self-host para eso. Necesitás:
- System prompt bien diseñado
- Few-shot examples
- Eventualmente fine-tune vía API (OpenAI, Anthropic, Google ofrecen fine-tune as a service)
Self-host para personalidad es matar un mosquito con una bazooka.
Stack open-weight realista 2026
Si decidiste (con fundamento) que self-host tiene sentido, acá la stack actual:
Modelos
- Llama 4 70B-405B (Meta) — buena calidad general, EN > no-EN.
- Qwen 3 / DeepSeek V3 — fuertes en código y matemática, multilingüe decente.
- Phi-3.5 (Microsoft) — modelo pequeño (3-14B) eficiente. Bueno para tareas estructuradas.
- Mistral / Mixtral — europeo, buena eficiencia.
Para casos no-inglés específicos, considerá fine-tune en corpus local (Maritaca AI tiene versiones PT bien entrenadas; equivalentes existen para ES, FR, AR).
Runtime de inferencia
- vLLM — standard de mercado para servir LLM a escala. Multi-GPU, batching, tensor parallelism.
- Ollama — bueno para dev local + POCs, no recomendado en producción tier 1.
- TGI (Text Generation Inference, de HuggingFace) — alternativa robusta.
- TensorRT-LLM (NVIDIA) — performance máxima en GPU NVIDIA, complejidad alta.
Orquestación
- vLLM + Kubernetes + GPU autoscaler — standard enterprise.
- Ray Serve — alternativa para equipos que ya usan Ray.
- Modal / Replicate — managed self-host, intermedio entre API pública y on-prem puro.
Observabilidad
- Logs de prompt + response en SQL/SQLite (mismo patrón de la stack que describimos en HES).
- Métricas: tokens/s, latencia p50/p95/p99, GPU utilization, OOM rate.
- Alerting vía Prometheus + Grafana o similar.
El patrón híbrido (recomendado)
Para 80% de las empresas que piensan que quieren self-host, el patrón óptimo es híbrido:
- API pública para casos genéricos (drafting, summarization, clasificación general).
- Self-hosted modelo pequeño para tarea específica de alto volumen con dato sensible (ej: extracción de PII en logs internos).
- Pre-processing local para enmascarar dato sensible ANTES de mandar a API pública (PII redaction con modelo small local + llamada a Claude/GPT del resto).
Ese patrón híbrido captura 80% del beneficio de self-host (privacidad en lo que importa) con 20% del costo + complejidad.
FAQ
¿Cuánto tiempo para subir un POC self-host? Con Ollama en laptop o servidor pequeño: 1 día. Para producción real con vLLM + Kubernetes: 2-6 semanas de engineering dedicado.
¿Los servidores locales soportan? Sí. Datacenters tier 3+ en mercados principales (São Paulo, Frankfurt, Dublin, Singapore, Mumbai) tienen capacidad. El costo de energía + cooling varía — péselo en el TCO.
¿Conseguimos comprar A100/H100 localmente? Stock limitado y precio premium vs importación directa en muchos mercados. Para volumen bajo (1-4 GPUs), reventa local. Para volumen alto, importación vía partner especializado es más barato.
¿Vale Anthropic Claude self-host? Anthropic no ofrece weights open. Tampoco OpenAI. Self-host es exclusivamente territorio de modelos open-weight.
¿Y modelos regionales (Maritaca, Sabiá, Aya)? Tienen versiones competitivas en su idioma objetivo. Vale considerar para casos lengua-específica con escala media.
Próximos pasos
- Aplicá la matriz de decisión arriba a tu caso. Si no estás en uno de los 4 escenarios “cuándo tiene sentido”, probablemente no.
- OpenClaw es un gateway multi-canal open-source de terceros que adoptamos internamente para WhatsApp/Telegram/Instagram/Discord — vale la pena evaluarlo si tenés requisitos multi-canal.
- Newsletter SkilLab AI — deep dive en engineering aplicado todos los jueves. Inscribite abajo.
Lee también
-
Harness Stack — 9 capas de governanza en runtime, aplicable a cualquier LLM (API o self-host).
-
IA para negocios: la única matriz de decisión que necesitás — cuándo delegar.
Por Ivan Prado · SkilLab AI · Mayo de 2026. Traducido y adaptado del original PT-BR.