🔴 Research

AI Research Watch — edición 2 (junio 2026): la seguridad de agente se vuelve clase de CVE

Cinco desarrollos de mayo 2026 que importan para builder: prompt injection llega como CVE, EU AI Act aplaza high-risk a 2027, los SDK de agente se consolidan, SWE-bench Verified pierde credibilidad, Anthropic lanza un tier de modelo solo para socios.

15 de junio de 2026 · 12 min · ai-research-watch

Mayo de 2026 fue un mes de wake-up calls — dos en seguridad, uno regulatorio, uno de herramientas y uno de mercado. Prompt injection dejó de ser categoría de paper para volverse CVE con impacto a nivel host. La Unión Europea aplazó el Anexo III pero adelantó la transparency. Los tres grandes vendors cerraron sus historias de SDK de agente. Y el benchmark más citado para coding cayó en público. Esta edición cubre los cinco ítems con el filtro de siempre: lo que cambia la práctica de quien construye.

Esta edición 2 cubre mayo de 2026.

1 · Prompt injection se volvió clase de RCE — Microsoft disclosure (7 mayo)

Lo que cambió: Microsoft Security divulgó el 7 de mayo una clase nueva de vulnerabilidad en frameworks de agente, con dos CVEs concretos: CVE-2026-25592 y CVE-2026-26030, ambos en Semantic Kernel .NET SDK en versiones anteriores a 1.71.0 (Microsoft Security Blog, 7 mayo 2026). Contenido recuperado de un documento externo vía RAG fluye directo a una tool call y bypassa todos los guardrails que corren a nivel de prompt — el resultado es remote code execution en el host del agente. En el mismo trimestre OWASP confirmó prompt injection como LLM01 por tercer año consecutivo, y la comunidad reportó vulnerabilidades equivalentes en Copilot Studio (CVE-2026-21520) y ms-agent de ModelScope (CVE-2026-2256).

Por qué importa para builder: hasta ahora “prompt injection” era discusión de blog post. En mayo 2026 se volvió ítem de auditoría que tu equipo de seguridad va a pedir, con CVE para citar y patch para aplicar. Cualquier agente que combina retrieval + tool calling cayó en la superficie de ataque. Ya no es “si”, es “cuál es tu plan”.

Limitación: el patch de Microsoft cierra la puerta de Semantic Kernel, pero la clase de vulnerabilidad es arquitectural — existe en CrewAI, LangGraph, AutoGen, y cualquier stack propio que mezcle los dos ingredientes. Un patch único no resuelve.

Acción: hoy, auditá tu stack. Toda llamada de tool después de retrieval necesita allowlist explícita de argumentos + sandbox para comandos shell + límite de privilegio del proceso agente. Si tenés agente en producción y no podés responder esas tres preguntas en 5 minutos, pausá antes del próximo deploy.

2 · EU AI Act Omnibus aplaza Anexo III, adelanta transparency (7 mayo)

Lo que cambió: el mismo 7 de mayo, órganos legislativos europeos cerraron acuerdo político sobre enmiendas al AI Act — el “AI Act Omnibus” (Latham & Watkins, mayo 2026). Dos efectos para cualquier empresa no-EU que vende a o opera dentro de la UE: Anexo III (sistemas de alto riesgo) fue aplazado del 2 ago 2026 al 2 dic 2027 — 16 meses extras de runway. Pero Article 50 (obligaciones de transparency, incluyendo el ban a nudifiers y la marca obligatoria en contenido sintético) fue adelantado al 2 dic 2026, acortando el runway para quien genera imagen, voz o video.

Por qué importa para builder: dos calendarios distintos ahora. Si estás en high-risk Anexo III (RH, scoring, biometría, reclutamiento), respirás hasta dic 2027 — pero empezá a documentar audit trail desde ya, no en el último mes. Si generás contenido sintético para cualquier fin (marketing, educación, comunicación interna), tenés 6 meses para resolver watermarking + disclosure obligatorio.

Limitación: el Omnibus todavía tiene que pasar por el Parlamento Europeo y el Consejo con texto final. El cronograma político puede atrasarse. Lo seguro: Anexo III no arranca en ago 2026; transparency endurece en dic 2026.

Acción: revisá tu timeline interno de clasificación de riesgo AI Act este mes. Empresas LATAM/US/APAC sirviendo a la UE necesitan mapear qué sistemas caen en Anexo III versus Article 50, porque los plazos divergieron. Para contenido sintético, decidí ahora si vas a usar C2PA, watermark propio o ambos — y quién es dueño de esa pipeline.

3 · SDK de agente se consolidó — 3 vendors major + interop (mar–mayo)

Lo que cambió: entre marzo y mayo de 2026 los tres principales vendors cerraron sus historias de SDK de agente. OpenAI lanzó el Agents SDK en marzo, Google introdujo ADK en abril, y Anthropic publicó su Agent SDK junto con Claude 4.6 (gurusup, mayo 2026). Más: MCP se volvió standard de facto para tool exposure y A2A (Agent-to-Agent) emergió como standard para comunicación multi-agente. En open-source, LangGraph pasó a CrewAI en GitHub stars en el Q1 — CrewAI se volvió referencia para “fácil para business workflow”, LangGraph para “control granular de ejecución con checkpoint y human-in-the-loop”.

Por qué importa para builder: greenfield ahora tiene 5 caminos serios (3 vendor SDKs + 2 open-source frameworks) y dos standards de interop (MCP + A2A). Lo que elegís en las próximas 8 semanas traba arquitectura por 18 meses — cambiar después cuesta caro porque cada SDK tiene su modelo de state, su API de tool y su lifecycle de session.

Limitación: los vendor SDKs todavía tienen gravedad más fuerte hacia el modelo del mismo vendor. OpenAI Agents SDK está optimizado para GPT, Google ADK para Gemini, Anthropic Agent SDK para Claude. Multi-modelo es posible pero friction-loaded. MCP/A2A reducen esa fricción pero no la eliminan.

Acción: si tenés más de un modelo en producción, mantené CrewAI o LangGraph como capa de orquestación + MCP como tool transport. Si sos single-vendor por contrato (Anthropic Partner, Microsoft Copilot), aceptá la gravedad del SDK del vendor y ganá latencia + features. Decisión de horizonte largo, vale una tarde de planificación.

4 · SWE-bench Verified perdió credibilidad — primer mes sin vendor reportando (mayo)

Lo que cambió: el 23 de febrero de 2026, el equipo Frontier Evals de OpenAI dejó de reportar scores en SWE-bench Verified (OpenAI, feb 2026). Razón: auditoría interna de 138 problemas que o3 no resolvía consistentemente en 64 runs independientes mostró que 59.4% de los casos tenían flaws en el test o en la descripción. Peor: GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview consiguieron reproducir los gold patches verbatim solo con el task ID como prompt — señal clara de contaminación de training. Mayo de 2026 fue el primer mes entero en que ningún vendor major reportó Verified — todos migraron a SWE-bench Pro (held-out + GPL-licensed para resistir contaminación).

Por qué importa para builder: si usaste Verified para elegir vendor de coding agent o para defender elección de modelo internamente, esos scores envejecieron. El gap de 27 puntos entre el tope del Verified (81%) y el tope del Pro (54%) es la medida de cuánta señal perdió el benchmark. Más general: cualquier benchmark que extraiga tareas de repos open-source públicos post-jun 2024 tiene riesgo alto de contaminación para frontier models.

Limitación: SWE-bench Pro tampoco es perfecto — GPL discourages commercial training pero no lo impide; el held-out set va a filtrarse con el tiempo. El ciclo “nuevo benchmark → contaminación → nuevo benchmark” es estructural.

Acción: pará de citar SWE-bench Verified en pitch o en decisión interna. Migrá a SWE-bench Pro o armá eval interno en código privado (tu propio repo, problemas reales, gold patches que nadie entrenó). Para evals propios: regla de pulgar es “si el problema existe en commit público de más de 18 meses, asumí que está contaminado”.

5 · Anthropic Project Glasswing — tier de modelo solo para socios (12 mayo)

Lo que cambió: Anthropic lanzó Project Glasswing el 12 de mayo — acceso a Claude Mythos Preview restringido a 12 launch partners (AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks + Anthropic) y expandido a 40+ organizaciones adicionales que mantienen infraestructura crítica (Anthropic, mayo 2026). Mythos Preview fue usado para encontrar miles de zero-days críticos en sistemas operativos y browsers, incluyendo una vulnerabilidad en OpenBSD que existía hacía 27 años. Pricing: $25/$125 por millón de tokens input/output — premium. Anthropic explicita que no planea general availability de este modelo: la meta declarada es “permitir deploy seguro de modelos clase Mythos a escala” después.

Por qué importa para builder: Glasswing es el primer ejemplo concreto de tier de modelo gated por trust, no por capability ni por precio. El patrón: capability suficientemente peligrosa (vuln hunting a escala industrial) solo va para partners que pasan due diligence. Si lo replican OpenAI/Google en los próximos 12–18 meses (Anthropic estima 6–18m para que la capability prolifere), vas a tener un market de modelos de dos tiers: GA para todos + restricted para infrastructure critical. Quien está en supply chain de software va a querer estar del lado defensor antes que herramienta equivalente aparezca en el underground.

Limitación: no podés testear Mythos hoy. Evaluaciones públicas van a ser indirectas — a través de los disclosures que hacen partners (ya tenemos la OpenBSD 27-year-old vuln; vendrán más). Para builder que no está en una de las 52+ orgs, el ítem es estratégico, no táctico.

Acción: si tu empresa mantiene software crítico (OS, browser, runtime, banking core, gobierno), aplicá al programa. Para todos los demás: documentá públicamente tu postura sobre disclosure responsable de vulns ahora — en 12–18 meses, herramientas similares van a estar en el mercado, y quien no tiene proceso pasa a ser blanco.

Tema del mes

Mayo de 2026 endureció el agente de producción. Dos de los cinco ítems son puramente de seguridad (prompt injection como CVE class, Glasswing como nueva estructura de defensa); uno es regulatorio (AI Act Omnibus); uno es de herramientas (SDKs); uno es de higiene de evals (SWE-bench Pro). El denominador común: builder que estaba cómodo en abril operando agente “experimental” tuvo que repensar postura en mayo. Esperá más de esto — no menos.

Cadencia de la columna

Mensual. Siempre día 15. Cubre el mes anterior. Curación con sesgo hacia “cambia la práctica de quien construye”.

Filtros aplicados a esta edición:

¿Hay replicación o implementación pública?
¿El efecto es robusto, no demo optimista?
¿Hay implicación concreta para builder?
¿Es industry-shifting, no incremental?

Dónde profundizar

El cluster AI Research Watch acumula la serie mensual.
Para los 2 ítems de seguridad (prompt injection, Glasswing), el cluster Agent Safety trae fundamentación técnica.
Para el ítem de SDK, Multi-agent Orchestration Patterns cubre el tradeoff entre los frameworks.
Para el ítem regulatorio, LGPD e IA en la rutina del gestor cubre el paralelo brasileño — útil como referencia de postura de compliance.

Volvé a la edición 1 para el historial de la columna.