🟠 Builder

LLMs en tu propio servidor: cuándo tiene sentido y cuándo no

Llama, Qwen, DeepSeek self-hosted on-prem. Análisis honesto de costo, latencia, calidad y total cost of ownership vs API pública. Cuándo vale, cuándo se vuelve pasivo.

15 de mayo de 2026 · 12 min · ai-engineering

La pregunta de 2026

En workshops y consultorías, tres preguntas se repiten:

“¿Podemos correr IA dentro de nuestra red sin mandar dato afuera?”
“¿Cuánto costaría reemplazar OpenAI/Anthropic con nuestras propias máquinas?”
“Si Llama 4/Qwen 3 son buenos, ¿por qué seguimos pagando API pública?”

Respuestas cortas, antes del detalle:

Sí, pero…
Más de lo que esperás.
Porque estás pagando 80% por confiabilidad, 20% por el modelo.

Este artículo abre el “pero” y el “más de lo que esperás”.

Cuándo self-hosted tiene sentido

Caso 1: compliance regulatorio duro

Si el sector exige que el dato personal/salud/financiero/militar NUNCA salga del perímetro de la empresa, self-hosted es la única opción en algunos casos. Ejemplos:

Hospitales con datos de paciente.
Bancos con dato de transacción tier 1.
Defensa nacional, infraestructura crítica.
Estudios jurídicos en mandato secreto.

Incluso acá, nota: Anthropic, OpenAI, Google y AWS ofrecen en 2026 opciones de tenant dedicado en regiones específicas con data residency garantizada. Antes de declarar “necesitamos self-host”, verificá si un tenant dedicado ya resuelve tu requisito legal.

Caso 2: volumen masivo + caso de uso estable

Si corrés millones de inferencias/mes en un caso de uso estable (ej: clasificación de tickets, sumarización standardizada de llamadas, extracción de campos de factura), el costo unitario a escala se invierte:

API pública: costo por token, escala lineal. USD 6k/mes se vuelve USD 60k/mes a 10× volumen.
Self-hosted en GPU dedicada: costo fijo de servidor + energía. USD 6k/mes sigue siendo USD 6k/mes a 10× volumen (hasta saturar la GPU).

Break-even típico en 2026 para un modelo clase Llama 3 70B entero: ~5-15 millones de tokens/día procesados consistentemente. Debajo de eso, la API todavía es más barata.

Caso 3: latencia de red imposible

Aplicación que necesita < 100ms first-token incluso con 200 usuarios simultáneos puede justificar GPU dedicada. Pero en 2026, las latencias de providers se acercaron a eso — verificá antes de saltar a la conclusión.

Caso 4: research que exige fine-tune frecuente

Para equipos que entrenan modelos custom semanalmente (raro fuera de Big Tech), self-hosted es parte de la rutina. Prácticamente ninguna empresa mid-market está en ese escenario.

Cuándo self-hosted NO tiene sentido (la mayoría)

Anti-caso 1: “queremos ahorrar”

Math básico para 2026:

GPU clase A100 40GB nueva: USD 10-15k.
GPU clase A100 alquilada en cloud: USD 1.5-3/h. En uso 24/7 = USD 1,100-2,200/mes.
Servidor con 4× A100 + power + cooling + colocation: USD 4-8k/mes fijos.
Equipo para mantener: 1 ingeniero con expertise GPU (raro globalmente, USD 5-10k/mes cuando se encuentra).

Total mensual para self-host producción: USD 9-18k mínimo.

Para igualar eso en consumo de API pública (Claude Sonnet, GPT-4.1, Gemini 2.5):

USD 9-18k = USD 9-18k de tokens
Sonnet 4.x: ~USD 3/M tokens input + ~USD 15/M tokens output
Considerando mix típico de 70% input / 30% output: ~USD 6.6/M tokens promedio
USD 9k = ~1.4 mil millones de tokens/mes

¿Tu empresa procesa 1.4 mil millones de tokens/mes? Probablemente no. La API es más barata para el 95% de las empresas.

Anti-caso 2: “queremos privacidad”

“Privacidad” como motivación aislada raramente justifica self-host en 2026. Anthropic, OpenAI, Google tienen Data Processing Addendums conformes con LGPD/GDPR. Cloud en región adecuada (AWS São Paulo, AWS Frankfurt, Azure East US) es elegible para la mayoría de los casos.

Cuándo NO alcanza: sector regulado con obligación contractual explícita de no tránsito.

Anti-caso 3: “queremos la versión más reciente”

Self-host significa congelar el modelo. Corrés Llama 3.3 70B. Cuando sale Llama 5, rehacés el setup. Los modelos open-weight pequeños corren atrás de los closed-source proprietarios por 6-18 meses.

Si tu aplicación depende de capability de frontera, la API es donde está la frontera.

Anti-caso 4: “queremos personalidad propia”

Querés un modelo que “habla como la empresa”. No necesitás self-host para eso. Necesitás:

System prompt bien diseñado
Few-shot examples
Eventualmente fine-tune vía API (OpenAI, Anthropic, Google ofrecen fine-tune as a service)

Self-host para personalidad es matar un mosquito con una bazooka.

Stack open-weight realista 2026

Si decidiste (con fundamento) que self-host tiene sentido, acá la stack actual:

Modelos

Llama 4 70B-405B (Meta) — buena calidad general, EN > no-EN.
Qwen 3 / DeepSeek V3 — fuertes en código y matemática, multilingüe decente.
Phi-3.5 (Microsoft) — modelo pequeño (3-14B) eficiente. Bueno para tareas estructuradas.
Mistral / Mixtral — europeo, buena eficiencia.

Para casos no-inglés específicos, considerá fine-tune en corpus local (Maritaca AI tiene versiones PT bien entrenadas; equivalentes existen para ES, FR, AR).

Runtime de inferencia

vLLM — standard de mercado para servir LLM a escala. Multi-GPU, batching, tensor parallelism.
Ollama — bueno para dev local + POCs, no recomendado en producción tier 1.
TGI (Text Generation Inference, de HuggingFace) — alternativa robusta.
TensorRT-LLM (NVIDIA) — performance máxima en GPU NVIDIA, complejidad alta.

Orquestación

vLLM + Kubernetes + GPU autoscaler — standard enterprise.
Ray Serve — alternativa para equipos que ya usan Ray.
Modal / Replicate — managed self-host, intermedio entre API pública y on-prem puro.

Observabilidad

Logs de prompt + response en SQL/SQLite (mismo patrón de la stack que describimos en HES).
Métricas: tokens/s, latencia p50/p95/p99, GPU utilization, OOM rate.
Alerting vía Prometheus + Grafana o similar.

El patrón híbrido (recomendado)

Para 80% de las empresas que piensan que quieren self-host, el patrón óptimo es híbrido:

API pública para casos genéricos (drafting, summarization, clasificación general).
Self-hosted modelo pequeño para tarea específica de alto volumen con dato sensible (ej: extracción de PII en logs internos).
Pre-processing local para enmascarar dato sensible ANTES de mandar a API pública (PII redaction con modelo small local + llamada a Claude/GPT del resto).

Ese patrón híbrido captura 80% del beneficio de self-host (privacidad en lo que importa) con 20% del costo + complejidad.

FAQ

¿Cuánto tiempo para subir un POC self-host? Con Ollama en laptop o servidor pequeño: 1 día. Para producción real con vLLM + Kubernetes: 2-6 semanas de engineering dedicado.

¿Los servidores locales soportan? Sí. Datacenters tier 3+ en mercados principales (São Paulo, Frankfurt, Dublin, Singapore, Mumbai) tienen capacidad. El costo de energía + cooling varía — péselo en el TCO.

¿Conseguimos comprar A100/H100 localmente? Stock limitado y precio premium vs importación directa en muchos mercados. Para volumen bajo (1-4 GPUs), reventa local. Para volumen alto, importación vía partner especializado es más barato.

¿Vale Anthropic Claude self-host? Anthropic no ofrece weights open. Tampoco OpenAI. Self-host es exclusivamente territorio de modelos open-weight.

¿Y modelos regionales (Maritaca, Sabiá, Aya)? Tienen versiones competitivas en su idioma objetivo. Vale considerar para casos lengua-específica con escala media.

Próximos pasos

Aplicá la matriz de decisión arriba a tu caso. Si no estás en uno de los 4 escenarios “cuándo tiene sentido”, probablemente no.
OpenClaw es un gateway multi-canal open-source de terceros que adoptamos internamente para WhatsApp/Telegram/Instagram/Discord — vale la pena evaluarlo si tenés requisitos multi-canal.
Newsletter SkilLab AI — deep dive en engineering aplicado todos los jueves. Inscribite abajo.