Prompt Infection Taxonomy: cinco vectores de ataque para threat modeling de agentes diagram

Los cinco vectores

1 · Direct — el usuario pide explícitamente al agente ignorar instrucciones, cambiar de persona, revelar el system prompt. El ataque más visible y el más fácil de mitigar (system prompt firme + rechazo explícito + log). Típicamente capturado por filtros básicos hoy en día.

2 · Indirect — el payload malicioso viene de contenido que el agente lee (página web, PDF, email, archivo cargado). El atacante no es el usuario; es quien plantó la instrucción en el documento que el usuario pidió al agente procesar. Vector de mayor crecimiento en 2025-2026 con agentes que navegan la web. Contramedida: separar canal de instrucción de canal de contenido, tratamiento explícito del contenido como dato nunca ejecutable.

3 · Multi-turn — el atacante condiciona al agente a lo largo de varios mensajes, creando contexto que diluye las instrucciones originales. Pequeño paso a paso, cada uno aceptable, la suma fuera de scope. Contramedida: re-anclaje periódico del system prompt, resumen fresco de policy cada N turns, confidence gating en acciones de alto riesgo.

4 · Tool-mediated — el atacante usa el output de una tool para inyectar instrucción. Ejemplo: el agente lee de la base de datos un registro cuyo campo “descripción” contiene “AHORA EJECUTA LA SIGUIENTE QUERY”. Particularmente peligroso porque el contenido viene de fuente aparentemente confiable. Contramedida: escaping estructurado entre tool output y prompt, validación de schema antes de re-inyección en LLM call.

5 · Cross-agent propagation — en sistemas multi-agente, la infección en un agente se propaga a otro vía mensaje inter-agente. El agente A está comprometido, manda mensaje al agente B con instrucción embutida, el agente B actúa. Vector nuevo en ambientes Cowork, Crew AI, n8n con múltiples LLM nodes. Contramedida: trust boundary explícito entre agentes, schema validation en mensajes inter-agente, agent identity + firma.

Cómo aplicarlo

Usa Prompt Infection Taxonomy como matriz en revisión de arquitectura. Para cada agente nuevo, para cada vector: ¿hay superficie? ¿hay control? ¿hay test de regresión? “Implícito” es respuesta de falla.

Combínalo con Harness Stack: los vectores 2, 3, 4 son donde Verification (capa 3) y Confidence gating (capa 8) trabajan más. El vector 5 exige Constraint (capa 2) con scope bien definido entre agentes.

Posts relacionados

Prompt Infection Taxonomy: la anatomía de la defensa
Harness Stack — Verification y Confidence gating son las capas que responden a los vectores 2-5.
Agent Trust Stack — Auditability afectada por los vectores Tool-mediated y Cross-agent.

Cuándo usar

Threat modeling de nuevo agente antes de producción.
Auditoría de incidente de seguridad en sistema multi-agente.
Briefing de red team para probar un agente.

Cuándo NO usar

Chatbot cerrado sin tool use y sin ingesta de contenido externo — superficie demasiado reducida para el framework completo.