Pular para o conteúdo
🟠 Builder

Harness Stack: as nove camadas que cercam um prompt em produção

Context · Constraint · Verification · Feedback · Advisor · Emotion · Durable pause · Confidence gating · Failure corpus

Harness Stack é o framework Automation Labs de nove camadas que separam um prompt funcional em demo de um agente confiável em produção, derivado do Harness Evolution System (HES).

Harness Stack: as nove camadas que cercam um prompt em produção diagram

As nove camadas

1 · Context. O que o agente vê antes de gerar a resposta. Inclui system prompt, RAG, memória persistente, estado de ferramenta. Context engineering é a disciplina de decidir o que entra e o que fica de fora. Camada onde a maioria dos agentes “estranhos” estão quebrados.

2 · Constraint. O que o agente pode e não pode fazer. Tool allowlist, scope de permissão, rate limit, time budget. Constraints são a maior alavanca de segurança operacional. Agente sem constraint clara é demo, não produto.

3 · Verification. Como o sistema sabe se o output do agente está correto, antes de aplicar o efeito. Schema validation, dry-run, sandbox execution, regex assert. Sem verification, erro do agente sai direto para o mundo real.

4 · Feedback. Como o agente recebe sinal sobre o output: aceito, rejeitado, editado, ignorado. O sinal volta para refinamento de prompt, de prompt template, ou de policy. Sem feedback, o agente não evolui.

5 · Advisor. Segunda opinião sob carga — outro modelo (ou outro agente, ou regra estática) consultado quando confidence cai, stakes sobem, ou cadeia ficou longa demais. Advisor não substitui o agente; ele troca de cadeira em momentos de risco.

6 · Emotion. Sinais de fricção do usuário capturados como dado de governança: retentativas seguidas, mensagens curtas e tensas, abandono. Não é “agente reconhece sentimento”; é o sistema reconhecer que algo está errado e abrir verificação extra.

7 · Durable pause. Para ações irreversíveis (commit em prod, envio de email em massa, transferência bancária), o agente para e pede confirmação humana com janela de timeout durable. Falta dessa camada é causa raiz de 80% dos incidentes de agente em produção.

8 · Confidence gating. O agente declara confiança antes de declarar resposta. Quando confidence cai abaixo de threshold, escalonar para Advisor ou para humano. Confidence calibrada é mais valiosa do que precisão pura.

9 · Failure corpus. Repositório versionado de todas as falhas observadas em produção: o que entrou, o que saiu, por que estava errado, qual camada falhou. Failure corpus alimenta as outras 8 camadas continuamente. Sem corpus, o sistema esquece os erros e os repete.

Como aplicar

Use Harness Stack como checklist de audit: para cada camada, o agente atendido tem implementação explícita? Resposta “implícito no prompt” é falha. Cada camada deve ser código, configuração, ou política nominal — não esperança.

A ordem de implementação importa. Construir primeiro 1-3 (Context, Constraint, Verification); depois 7-8 (Durable pause, Confidence gating); depois 9 (Failure corpus). Camadas 4-6 (Feedback, Advisor, Emotion) entram depois que o agente está rodando.

Use cases que aplicam Harness Stack

  • Harness Evolution System (HES) — sistema próprio que evolui automaticamente as nove camadas via análise de traces.
  • OpenClaw — gateway multi-canal que aplica camadas 2 (Constraint) e 9 (Failure corpus) no nível de gateway.

Posts relacionados

Quando usar

  • Agente de IA em produção (não demo, não POC) que toma ação no mundo real.
  • Audit de incidente de agente: identificar qual camada falhou.
  • Briefing para AI engineer construir novo agente em stack n8n/Cowork/OpenClaw.

Quando NÃO usar

  • Prototipagem rápida ou demo descartável — overhead injustificado.
  • Agente puramente conversacional sem tool use — algumas camadas (Verification, Failure corpus) não se aplicam.