Glossário AI: 40 termos essenciais que importam em 2026
Glossário curado de 40 termos de IA usados em conversas corporativas e técnicas em 2026 — definição curta, exemplo de uso, pegadinhas comuns.
Glossário de bolso para conversas técnicas e corporativas em 2026. Definição curta, exemplo de uso, e quando aplicável a pegadinha de quem está vendendo errado.
Modelos e fundação
LLM (Large Language Model) — modelo que prevê próxima palavra a partir de contexto. Claude, GPT, Gemini, Llama são LLMs. Pegadinha: “modelo” não significa “produto”. Claude é o modelo; Claude.ai é o produto.
SLM (Small Language Model) — LLM menor, focal, mais barato, mais rápido. Roda local ou em hardware modesto. Útil para tasks específicas onde o LLM grande é overkill.
Frontier model — o modelo mais capaz do laboratório no momento. Claude Opus, GPT-5, Gemini Ultra. Usado em tasks de fronteira, caro por token.
Foundation model — o modelo base antes de fine-tuning. Todo Claude começa como foundation model treinado pela Anthropic.
Multimodal — processa mais de uma modalidade (texto + imagem + áudio + vídeo). Padrão em 2026 nos modelos top.
Context window — quantos tokens cabem em uma interação. 200K (Claude Sonnet), 1M (Opus 1M, Gemini Pro). Maior ≠ melhor para todas as tasks.
Prompt e geração
Prompt — a instrução. “Resuma em 3 bullets” é prompt.
System prompt — instruções persistentes que definem persona, regras, tom. Diferente do user prompt (a pergunta atual).
Prompt engineering — disciplina de redigir prompts para extrair output confiável. Não é “mágica” — é redação técnica.
Context engineering — desenho do que entra na janela de contexto: RAG, memória, exemplos, tools. Onde os ganhos de qualidade reais vivem em 2026.
Hallucination (alucinação) — invenção confiante de fato. Não é bug. É como o modelo funciona.
Temperature — parâmetro 0-1 que controla criatividade. 0 = determinístico, 1 = criativo. Production agents geralmente usam 0.0-0.3.
Top-p / Top-k — parâmetros de sampling. Quase ninguém ajusta. Temperature dá conta.
Agentes e orquestração
Agent (agente) — LLM + tools + loop. Executa, não só responde.
Multi-agent — sistema com múltiplos agentes especializados orquestrados. Útil quando a task tem fases distintas (researcher + writer + reviewer).
Tool use — chamadas a funções externas pelo modelo. Web search, code execution, API calls.
Tool calling — o protocolo específico. Padrão em modelos modernos.
MCP (Model Context Protocol) — padrão Anthropic para conectar tools a modelos. Em 2026 vira de facto padrão entre vendors.
ReAct — padrão de raciocínio (Reason + Act). O agente pensa, age, observa, repete.
Autonomy level — quanto o agente decide sozinho vs pede confirmação. Definido pelo Agent Trust Stack.
Treinamento e adaptação
Pre-training — fase inicial cara onde o modelo lê internet. Empresa cliente não faz.
Fine-tuning — re-treino em dados específicos. Caro. Em 2026, RAG resolve 80% dos casos antes de precisar.
RLHF (Reinforcement Learning from Human Feedback) — humanos rankeiam respostas, modelo aprende preferência. Por que Claude é educado.
RLAIF — RLHF mas com IA fazendo o ranking. Mais barato, escala melhor.
Distillation — modelo grande “ensina” modelo pequeno. Como SLMs nascem.
LoRA / QLoRA — fine-tuning leve. Não muda o modelo inteiro, só uma camada.
Recuperação e memória
RAG (Retrieval-Augmented Generation) — LLM + base de conhecimento sua. O modelo busca antes de responder.
Embedding — vetor numérico que representa significado. Base de busca semântica.
Vector database — banco que indexa embeddings. Pinecone, Cloudflare Vectorize, pgvector.
Semantic search — busca por significado, não palavra-chave.
Memory (em agente) — armazenamento entre sessões. Pode ser ephemeral (1 sessão), short-term (24h), long-term (sempre).
Segurança e governança
Prompt injection — atacante manipula prompt para mudar comportamento. Vetor #1 de risco em 2026. Ver Prompt Infection Taxonomy.
Jailbreak — variante de prompt injection focada em fazer o modelo violar suas próprias regras.
Harness — código que envolve o prompt em produção. Ver Harness Stack.
Guardrails — checks antes/depois do output do modelo. Schema validation, content filter.
Durable pause — agente pausa em ação irreversível esperando humano. Camada 7 do Harness Stack.
Confidence gating — agente declara confiança antes de agir. Camada 8 do Harness Stack.
Failure corpus — repositório versionado de falhas observadas. Alimenta o sistema de melhoria contínua.
Performance e custo
Token — unidade de cobrança. ~0,75 palavra inglês, ~0,5 palavra português.
Latency (latência) — tempo entre prompt e primeira resposta. Crítica em UX conversacional.
Throughput — tokens por segundo. Crítica em batch processing.
Streaming — receber resposta token a token enquanto gera. Padrão em UX moderno.
Cache — reaproveitar contexto entre chamadas. Reduz custo brutalmente quando aplicado certo.
Eval (avaliação) — testar se o modelo/agente faz o que deveria. Diferente de “isso funciona?” — é estatístico, mede deriva.
O que isso destrava
Com vocabulário, você consegue ler propostas, avaliar fornecedores, brifar AI engineer com clareza, e identificar quando alguém está te vendendo Lego como Ferrari. O glossário evolui — em 6 meses metade desses termos vai estar mais nuanceada, e termos novos vão aparecer.
Próximo passo: leia Quando IA não é a resposta — o complemento honesto deste guia.