Glosario AI: 40 términos esenciales que importan en 2026
Glosario curado de 40 términos de IA usados en conversaciones corporativas y técnicas en 2026 — definición corta, ejemplo de uso, trampas comunes.
Glosario de bolsillo para conversaciones técnicas y corporativas en 2026. Definición corta, ejemplo de uso y, cuando aplica, la trampa de quien vende mal.
Modelos y fundación
LLM (Large Language Model) — modelo que predice próximo token a partir del contexto. Claude, GPT, Gemini, Llama son LLMs. Trampa: “modelo” no significa “producto”. Claude es el modelo; Claude.ai es el producto.
SLM (Small Language Model) — LLM menor, focal, más barato, más rápido. Corre local o en hardware modesto. Útil para tareas específicas donde el LLM grande es exceso.
Frontier model — el modelo más capaz del laboratorio. Claude Opus, GPT-5, Gemini Ultra. Usado en tareas frontera, caro por token.
Foundation model — el modelo base antes de fine-tuning. Todo Claude empieza como foundation model entrenado por Anthropic.
Multimodal — procesa más de una modalidad (texto + imagen + audio + video). Estándar en 2026 en modelos top.
Context window — cuántos tokens caben en una interacción. 200K (Claude Sonnet), 1M (Opus 1M, Gemini Pro). Mayor ≠ mejor para todas las tareas.
Prompt y generación
Prompt — la instrucción. “Resume en 3 bullets” es prompt.
System prompt — instrucciones persistentes que definen persona, reglas, tono. Distinto del user prompt (la pregunta actual).
Prompt engineering — disciplina de redactar prompts para extraer output confiable. No es magia — es redacción técnica.
Context engineering — diseño de lo que entra en la ventana de contexto: RAG, memoria, ejemplos, tools. Donde viven las ganancias reales de calidad en 2026.
Hallucination (alucinación) — invención confiada de hecho. No es bug. Así funciona el modelo.
Temperature — parámetro 0-1 que controla creatividad. 0 = determinístico, 1 = creativo. Production agents generalmente usan 0.0-0.3.
Top-p / Top-k — parámetros de sampling. Casi nadie los ajusta. Temperature alcanza.
Agentes y orquestación
Agent (agente) — LLM + tools + loop. Ejecuta, no solo responde.
Multi-agent — sistema con múltiples agentes especializados orquestados. Útil cuando la tarea tiene fases distintas (researcher + writer + reviewer).
Tool use — llamadas a funciones externas por el modelo. Web search, code execution, API calls.
Tool calling — el protocolo específico. Estándar en modelos modernos.
MCP (Model Context Protocol) — estándar Anthropic para conectar tools a modelos. En 2026 se vuelve estándar de facto entre vendors.
ReAct — patrón de razonamiento (Reason + Act). El agente piensa, actúa, observa, repite.
Autonomy level — cuánto decide el agente solo vs pide confirmación. Definido por el Agent Trust Stack.
Entrenamiento y adaptación
Pre-training — fase inicial cara donde el modelo lee internet. Empresa cliente no lo hace.
Fine-tuning — re-entrenamiento en datos específicos. Caro. En 2026, RAG resuelve 80% de los casos antes de necesitarlo.
RLHF (Reinforcement Learning from Human Feedback) — humanos rankean respuestas, el modelo aprende preferencia. Por qué Claude es educado.
RLAIF — RLHF pero con IA haciendo el ranking. Más barato, escala mejor.
Distillation — modelo grande “enseña” al modelo pequeño. Cómo nacen SLMs.
LoRA / QLoRA — fine-tuning liviano. No cambia el modelo entero, solo una capa.
Recuperación y memoria
RAG (Retrieval-Augmented Generation) — LLM + base de conocimiento tuya. El modelo busca antes de responder.
Embedding — vector numérico que representa significado. Base de búsqueda semántica.
Vector database — base que indexa embeddings. Pinecone, Cloudflare Vectorize, pgvector.
Semantic search — búsqueda por significado, no palabra clave.
Memory (en agente) — almacenamiento entre sesiones. Puede ser ephemeral (1 sesión), short-term (24h), long-term (siempre).
Seguridad y gobernanza
Prompt injection — atacante manipula prompt para cambiar comportamiento. Vector #1 de riesgo en 2026. Ver Prompt Infection Taxonomy.
Jailbreak — variante de prompt injection enfocada en hacer al modelo violar sus propias reglas.
Harness — código que envuelve el prompt en producción. Ver Harness Stack.
Guardrails — checks antes/después del output del modelo. Schema validation, content filter.
Durable pause — el agente pausa en acción irreversible esperando humano. Capa 7 del Harness Stack.
Confidence gating — el agente declara confianza antes de actuar. Capa 8 del Harness Stack.
Failure corpus — repositorio versionado de fallas observadas. Alimenta el sistema de mejora continua.
Performance y costo
Token — unidad de cobro. ~0,75 palabra inglés, ~0,5 palabra español.
Latency (latencia) — tiempo entre prompt y primera respuesta. Crítica en UX conversacional.
Throughput — tokens por segundo. Crítica en batch processing.
Streaming — recibir respuesta token a token mientras genera. Estándar en UX moderno.
Cache — reaprovechar contexto entre llamadas. Reduce costo brutalmente cuando se aplica bien.
Eval (evaluación) — testear si el modelo/agente hace lo que debería. Distinto de “¿esto funciona?” — es estadístico, mide deriva.
Lo que destraba
Con vocabulario, puedes leer propuestas, evaluar proveedores, briefar AI engineer con claridad, e identificar cuándo te están vendiendo Lego como Ferrari. El glosario evoluciona — en 6 meses la mitad de estos términos estará más matizada y aparecerán nuevos.
Próximo paso: lee Cuándo la IA no es la respuesta — el complemento honesto de esta guía.