Prompt Infection Taxonomy: cinco vectores de ataque para threat modeling de agentes
Direct · Indirect · Multi-turn · Tool-mediated · Cross-agent propagation
Prompt Infection Taxonomy es la lente Automation Labs en cinco vectores para clasificar y defender contra prompt injection en sistemas de agentes, de la inyección directa a la propagación cross-agent.
Los cinco vectores
1 · Direct — el usuario pide explícitamente al agente ignorar instrucciones, cambiar de persona, revelar el system prompt. El ataque más visible y el más fácil de mitigar (system prompt firme + rechazo explícito + log). Típicamente capturado por filtros básicos hoy en día.
2 · Indirect — el payload malicioso viene de contenido que el agente lee (página web, PDF, email, archivo cargado). El atacante no es el usuario; es quien plantó la instrucción en el documento que el usuario pidió al agente procesar. Vector de mayor crecimiento en 2025-2026 con agentes que navegan la web. Contramedida: separar canal de instrucción de canal de contenido, tratamiento explícito del contenido como dato nunca ejecutable.
3 · Multi-turn — el atacante condiciona al agente a lo largo de varios mensajes, creando contexto que diluye las instrucciones originales. Pequeño paso a paso, cada uno aceptable, la suma fuera de scope. Contramedida: re-anclaje periódico del system prompt, resumen fresco de policy cada N turns, confidence gating en acciones de alto riesgo.
4 · Tool-mediated — el atacante usa el output de una tool para inyectar instrucción. Ejemplo: el agente lee de la base de datos un registro cuyo campo “descripción” contiene “AHORA EJECUTA LA SIGUIENTE QUERY”. Particularmente peligroso porque el contenido viene de fuente aparentemente confiable. Contramedida: escaping estructurado entre tool output y prompt, validación de schema antes de re-inyección en LLM call.
5 · Cross-agent propagation — en sistemas multi-agente, la infección en un agente se propaga a otro vía mensaje inter-agente. El agente A está comprometido, manda mensaje al agente B con instrucción embutida, el agente B actúa. Vector nuevo en ambientes Cowork, Crew AI, n8n con múltiples LLM nodes. Contramedida: trust boundary explícito entre agentes, schema validation en mensajes inter-agente, agent identity + firma.
Cómo aplicarlo
Usa Prompt Infection Taxonomy como matriz en revisión de arquitectura. Para cada agente nuevo, para cada vector: ¿hay superficie? ¿hay control? ¿hay test de regresión? “Implícito” es respuesta de falla.
Combínalo con Harness Stack: los vectores 2, 3, 4 son donde Verification (capa 3) y Confidence gating (capa 8) trabajan más. El vector 5 exige Constraint (capa 2) con scope bien definido entre agentes.
Posts relacionados
- Prompt Infection Taxonomy: la anatomía de la defensa
- Harness Stack — Verification y Confidence gating son las capas que responden a los vectores 2-5.
- Agent Trust Stack — Auditability afectada por los vectores Tool-mediated y Cross-agent.
Cuándo usar
- Threat modeling de nuevo agente antes de producción.
- Auditoría de incidente de seguridad en sistema multi-agente.
- Briefing de red team para probar un agente.
Cuándo NO usar
- Chatbot cerrado sin tool use y sin ingesta de contenido externo — superficie demasiado reducida para el framework completo.