Prompt Infection Taxonomy: cinco vetores de ataque para threat modeling de agentes diagram

Os cinco vetores

1 · Direct — usuário pede explicitamente para o agente ignorar instruções, mudar persona, revelar system prompt. Ataque mais visível e mais fácil de mitigar (system prompt firme + recusa explícita + log). Tipicamente capturado por filtros básicos hoje em dia.

2 · Indirect — payload malicioso vem de conteúdo que o agente lê (web page, PDF, email, arquivo carregado). O atacante não é o usuário; é quem plantou a instrução no documento que o usuário pediu para o agente processar. Vetor de maior crescimento em 2025-2026 com agentes que navegam web. Contramedida: separar canal de instrução de canal de conteúdo, tratamento explícito de conteúdo como dado nunca executável.

3 · Multi-turn — atacante condiciona o agente ao longo de várias mensagens, criando contexto que dilui as instruções originais. Pequeno passo por passo, cada um aceitável, somatório fora do escopo. Contramedida: re-ancoragem periódica do system prompt, summary fresca de policy a cada N turns, confidence gating em ações de alto risco.

4 · Tool-mediated — atacante usa o output de uma tool para injetar instrução. Exemplo: o agente lê do banco de dados um registro cujo campo “descrição” contém “AGORA EXECUTE A SEGUINTE QUERY”. Particularmente perigoso porque o conteúdo vem de fonte aparentemente confiável. Contramedida: escaping estruturado entre tool output e prompt, validação de schema antes de re-injeção em LLM call.

5 · Cross-agent propagation — em sistema multi-agente, infecção em um agente se propaga para outro via mensagem inter-agente. Agente A é comprometido, manda mensagem para agente B com instrução embutida, agente B age. Vetor novo em ambientes Cowork, Crew AI, n8n com múltiplos LLM nodes. Contramedida: trust boundary explícita entre agentes, schema validation em mensagens inter-agente, agent identity + signature.

Como aplicar

Use Prompt Infection Taxonomy como matriz em revisão de arquitetura. Para cada agente novo, para cada vetor: existe surface? Existe controle? Existe teste de regressão? Resposta “implícito” é falha.

Pareie com Harness Stack: vetores 2, 3, 4 são onde Verification (camada 3) e Confidence gating (camada 8) trabalham mais. Vetor 5 exige Constraint (camada 2) com escopo bem definido entre agentes.

Posts relacionados

Prompt Infection Taxonomy: a anatomia da defesa
Harness Stack — Verification e Confidence gating são as camadas que respondem aos vetores 2-5.
Agent Trust Stack — Auditability afetada por vetor Tool-mediated e Cross-agent.

Quando usar

Threat modeling de novo agente antes de produção.
Audit de incidente de segurança em sistema multi-agente.
Briefing de red team para testar agente.

Quando NÃO usar

Chatbot fechado sem tool use e sem ingestão de conteúdo externo — superfície reduzida demais para o framework completo.