🟢 Foundation

Glossário AI: 40 termos essenciais que importam em 2026

Glossário curado de 40 termos de IA usados em conversas corporativas e técnicas em 2026 — definição curta, exemplo de uso, pegadinhas comuns.

15 de maio de 2026 · 12 min · ai-foundations

Glossário de bolso para conversas técnicas e corporativas em 2026. Definição curta, exemplo de uso, e quando aplicável a pegadinha de quem está vendendo errado.

Modelos e fundação

LLM (Large Language Model) — modelo que prevê próxima palavra a partir de contexto. Claude, GPT, Gemini, Llama são LLMs. Pegadinha: “modelo” não significa “produto”. Claude é o modelo; Claude.ai é o produto.

SLM (Small Language Model) — LLM menor, focal, mais barato, mais rápido. Roda local ou em hardware modesto. Útil para tasks específicas onde o LLM grande é overkill.

Frontier model — o modelo mais capaz do laboratório no momento. Claude Opus, GPT-5, Gemini Ultra. Usado em tasks de fronteira, caro por token.

Foundation model — o modelo base antes de fine-tuning. Todo Claude começa como foundation model treinado pela Anthropic.

Multimodal — processa mais de uma modalidade (texto + imagem + áudio + vídeo). Padrão em 2026 nos modelos top.

Context window — quantos tokens cabem em uma interação. 200K (Claude Sonnet), 1M (Opus 1M, Gemini Pro). Maior ≠ melhor para todas as tasks.

Prompt e geração

Prompt — a instrução. “Resuma em 3 bullets” é prompt.

System prompt — instruções persistentes que definem persona, regras, tom. Diferente do user prompt (a pergunta atual).

Prompt engineering — disciplina de redigir prompts para extrair output confiável. Não é “mágica” — é redação técnica.

Context engineering — desenho do que entra na janela de contexto: RAG, memória, exemplos, tools. Onde os ganhos de qualidade reais vivem em 2026.

Hallucination (alucinação) — invenção confiante de fato. Não é bug. É como o modelo funciona.

Temperature — parâmetro 0-1 que controla criatividade. 0 = determinístico, 1 = criativo. Production agents geralmente usam 0.0-0.3.

Top-p / Top-k — parâmetros de sampling. Quase ninguém ajusta. Temperature dá conta.

Agentes e orquestração

Agent (agente) — LLM + tools + loop. Executa, não só responde.

Multi-agent — sistema com múltiplos agentes especializados orquestrados. Útil quando a task tem fases distintas (researcher + writer + reviewer).

Tool use — chamadas a funções externas pelo modelo. Web search, code execution, API calls.

Tool calling — o protocolo específico. Padrão em modelos modernos.

MCP (Model Context Protocol) — padrão Anthropic para conectar tools a modelos. Em 2026 vira de facto padrão entre vendors.

ReAct — padrão de raciocínio (Reason + Act). O agente pensa, age, observa, repete.

Autonomy level — quanto o agente decide sozinho vs pede confirmação. Definido pelo Agent Trust Stack.

Treinamento e adaptação

Pre-training — fase inicial cara onde o modelo lê internet. Empresa cliente não faz.

Fine-tuning — re-treino em dados específicos. Caro. Em 2026, RAG resolve 80% dos casos antes de precisar.

RLHF (Reinforcement Learning from Human Feedback) — humanos rankeiam respostas, modelo aprende preferência. Por que Claude é educado.

RLAIF — RLHF mas com IA fazendo o ranking. Mais barato, escala melhor.

Distillation — modelo grande “ensina” modelo pequeno. Como SLMs nascem.

LoRA / QLoRA — fine-tuning leve. Não muda o modelo inteiro, só uma camada.

Recuperação e memória

RAG (Retrieval-Augmented Generation) — LLM + base de conhecimento sua. O modelo busca antes de responder.

Embedding — vetor numérico que representa significado. Base de busca semântica.

Vector database — banco que indexa embeddings. Pinecone, Cloudflare Vectorize, pgvector.

Semantic search — busca por significado, não palavra-chave.

Memory (em agente) — armazenamento entre sessões. Pode ser ephemeral (1 sessão), short-term (24h), long-term (sempre).

Segurança e governança

Prompt injection — atacante manipula prompt para mudar comportamento. Vetor #1 de risco em 2026. Ver Prompt Infection Taxonomy.

Jailbreak — variante de prompt injection focada em fazer o modelo violar suas próprias regras.

Harness — código que envolve o prompt em produção. Ver Harness Stack.

Guardrails — checks antes/depois do output do modelo. Schema validation, content filter.

Durable pause — agente pausa em ação irreversível esperando humano. Camada 7 do Harness Stack.

Confidence gating — agente declara confiança antes de agir. Camada 8 do Harness Stack.

Failure corpus — repositório versionado de falhas observadas. Alimenta o sistema de melhoria contínua.

Performance e custo

Token — unidade de cobrança. ~0,75 palavra inglês, ~0,5 palavra português.

Latency (latência) — tempo entre prompt e primeira resposta. Crítica em UX conversacional.

Throughput — tokens por segundo. Crítica em batch processing.

Streaming — receber resposta token a token enquanto gera. Padrão em UX moderno.

Cache — reaproveitar contexto entre chamadas. Reduz custo brutalmente quando aplicado certo.

Eval (avaliação) — testar se o modelo/agente faz o que deveria. Diferente de “isso funciona?” — é estatístico, mede deriva.

O que isso destrava

Com vocabulário, você consegue ler propostas, avaliar fornecedores, brifar AI engineer com clareza, e identificar quando alguém está te vendendo Lego como Ferrari. O glossário evolui — em 6 meses metade desses termos vai estar mais nuanceada, e termos novos vão aparecer.

Próximo passo: leia Quando IA não é a resposta — o complemento honesto deste guia.