AI Research Watch — edición 1 (mayo 2026): lo que cambió que importa
Primera edición de la columna AI Research Watch — 4 desarrollos de investigación en IA del último mes con TL;DR técnico e implicación práctica para builder.
Columna mensual cubriendo desarrollos de investigación en IA con lectura para builder. No es newsletter de hype — es curación de lo que cambia la práctica de quien construye con IA.
Esta primera edición cubre mayo de 2026.
1 · Long-context reliability estabilizando
Lo que cambió: papers y benchmarks de 2026 muestran que modelos frontier (Claude Opus 4.7, Gemini 2.5 Pro 1M, GPT-5 long-context) alcanzaron “needle-in-haystack” >95% hasta 500K tokens. En 2024, el techo práctico era ~150K con degradación visible.
Por qué importa para builder: RAG pesado se vuelve viable. Puedes volcar 300K tokens de docs en el contexto y el modelo realmente lee. En 2024, era preciso chunk + re-rank refinado; en 2026, “context dumping” se volvió pattern viable para dominios cerrados.
Limitación: costo. 500K tokens de contexto a $3/M es $1.50 por llamada. Para volumen alto, aún compensa RAG.
Acción: para POC y BizDev, considera usar full-context en vez de RAG. Para producción en volumen, mantén RAG.
2 · Agent governance benchmarks emergiendo
Lo que cambió: Anthropic + comunidad publicaron “AgentBench v2”, primer benchmark serio sobre robustez de agentes en producción. Foca en prompt injection, tool misuse, hallucination en tool calls.
Por qué importa: hasta 2025, métrica de agente era “task completion”. En 2026, “task completion bajo ataque adversarial” se volvió métrica de mérito. Vendors empiezan a publicar scores en esa dimensión.
Implicación: puedes (y debes) empezar a preguntar “¿cuál el score de tu agente en AgentBench v2 o equivalente?” a vendors de plataforma agentic.
3 · MCP se volvió estándar de facto
Lo que cambió: OpenAI, Google, y decenas de vendors implementan MCP para tool exposure en mayo 2026. Lo que era “estándar Anthropic experimental” en 2024 se volvió de facto interop layer.
Por qué importa: puedes escribir MCP server una vez y consumir desde cualquier modelo. Se acabó la era de “tool wrapper a medida por vendor”.
Acción: nuevos servers, escribe MCP. Servers existentes, migrar conforme touch.
4 · Distillation por LoRA reduciendo costo de SLM
Lo que cambió: técnicas de distillation con adaptadores LoRA alcanzaron parity razonable (>90% calidad de Sonnet para tasks específicas) con modelos 100× menores en 2026. Mistral Medium 2026 y Phi 4 son ejemplos públicos.
Por qué importa: para tasks recurrentes en volumen (clasificación de factura, triage de email, scoring), SLM finalizado por LoRA cuesta fracción del frontier model en latencia y $/token.
Acción: para tu flujo de mayor volumen, considera SLM finalizado por LoRA. No para flujos de complejidad alta — frontier aún lidera.
Cadencia de la columna
Mensual. Siempre día 15. Cubre el mes anterior. Curación con sesgo para “cambia la práctica de quien construye”.
Filtros usados:
- ¿El paper tuvo replicación o implementación pública? Si no, ignora.
- ¿El cambio es robusto o demo en condiciones optimistas? Vetar demos.
- ¿Implicación concreta para builder existe? Si no, no vale aparecer aquí.
Dónde profundizar
Cluster AI Research Watch acumula la serie mensual. Para safety-focused papers, cluster Agent Safety trae más profundidad.