🟢 Foundation

Glosario AI: 40 términos esenciales que importan en 2026

Glosario curado de 40 términos de IA usados en conversaciones corporativas y técnicas en 2026 — definición corta, ejemplo de uso, trampas comunes.

15 de mayo de 2026 · 12 min · ai-foundations

Glosario de bolsillo para conversaciones técnicas y corporativas en 2026. Definición corta, ejemplo de uso y, cuando aplica, la trampa de quien vende mal.

Modelos y fundación

LLM (Large Language Model) — modelo que predice próximo token a partir del contexto. Claude, GPT, Gemini, Llama son LLMs. Trampa: “modelo” no significa “producto”. Claude es el modelo; Claude.ai es el producto.

SLM (Small Language Model) — LLM menor, focal, más barato, más rápido. Corre local o en hardware modesto. Útil para tareas específicas donde el LLM grande es exceso.

Frontier model — el modelo más capaz del laboratorio. Claude Opus, GPT-5, Gemini Ultra. Usado en tareas frontera, caro por token.

Foundation model — el modelo base antes de fine-tuning. Todo Claude empieza como foundation model entrenado por Anthropic.

Multimodal — procesa más de una modalidad (texto + imagen + audio + video). Estándar en 2026 en modelos top.

Context window — cuántos tokens caben en una interacción. 200K (Claude Sonnet), 1M (Opus 1M, Gemini Pro). Mayor ≠ mejor para todas las tareas.

Prompt y generación

Prompt — la instrucción. “Resume en 3 bullets” es prompt.

System prompt — instrucciones persistentes que definen persona, reglas, tono. Distinto del user prompt (la pregunta actual).

Prompt engineering — disciplina de redactar prompts para extraer output confiable. No es magia — es redacción técnica.

Context engineering — diseño de lo que entra en la ventana de contexto: RAG, memoria, ejemplos, tools. Donde viven las ganancias reales de calidad en 2026.

Hallucination (alucinación) — invención confiada de hecho. No es bug. Así funciona el modelo.

Temperature — parámetro 0-1 que controla creatividad. 0 = determinístico, 1 = creativo. Production agents generalmente usan 0.0-0.3.

Top-p / Top-k — parámetros de sampling. Casi nadie los ajusta. Temperature alcanza.

Agentes y orquestación

Agent (agente) — LLM + tools + loop. Ejecuta, no solo responde.

Multi-agent — sistema con múltiples agentes especializados orquestados. Útil cuando la tarea tiene fases distintas (researcher + writer + reviewer).

Tool use — llamadas a funciones externas por el modelo. Web search, code execution, API calls.

Tool calling — el protocolo específico. Estándar en modelos modernos.

MCP (Model Context Protocol) — estándar Anthropic para conectar tools a modelos. En 2026 se vuelve estándar de facto entre vendors.

ReAct — patrón de razonamiento (Reason + Act). El agente piensa, actúa, observa, repite.

Autonomy level — cuánto decide el agente solo vs pide confirmación. Definido por el Agent Trust Stack.

Entrenamiento y adaptación

Pre-training — fase inicial cara donde el modelo lee internet. Empresa cliente no lo hace.

Fine-tuning — re-entrenamiento en datos específicos. Caro. En 2026, RAG resuelve 80% de los casos antes de necesitarlo.

RLHF (Reinforcement Learning from Human Feedback) — humanos rankean respuestas, el modelo aprende preferencia. Por qué Claude es educado.

RLAIF — RLHF pero con IA haciendo el ranking. Más barato, escala mejor.

Distillation — modelo grande “enseña” al modelo pequeño. Cómo nacen SLMs.

LoRA / QLoRA — fine-tuning liviano. No cambia el modelo entero, solo una capa.

Recuperación y memoria

RAG (Retrieval-Augmented Generation) — LLM + base de conocimiento tuya. El modelo busca antes de responder.

Embedding — vector numérico que representa significado. Base de búsqueda semántica.

Vector database — base que indexa embeddings. Pinecone, Cloudflare Vectorize, pgvector.

Semantic search — búsqueda por significado, no palabra clave.

Memory (en agente) — almacenamiento entre sesiones. Puede ser ephemeral (1 sesión), short-term (24h), long-term (siempre).

Seguridad y gobernanza

Prompt injection — atacante manipula prompt para cambiar comportamiento. Vector #1 de riesgo en 2026. Ver Prompt Infection Taxonomy.

Jailbreak — variante de prompt injection enfocada en hacer al modelo violar sus propias reglas.

Harness — código que envuelve el prompt en producción. Ver Harness Stack.

Guardrails — checks antes/después del output del modelo. Schema validation, content filter.

Durable pause — el agente pausa en acción irreversible esperando humano. Capa 7 del Harness Stack.

Confidence gating — el agente declara confianza antes de actuar. Capa 8 del Harness Stack.

Failure corpus — repositorio versionado de fallas observadas. Alimenta el sistema de mejora continua.

Performance y costo

Token — unidad de cobro. ~0,75 palabra inglés, ~0,5 palabra español.

Latency (latencia) — tiempo entre prompt y primera respuesta. Crítica en UX conversacional.

Throughput — tokens por segundo. Crítica en batch processing.

Streaming — recibir respuesta token a token mientras genera. Estándar en UX moderno.

Cache — reaprovechar contexto entre llamadas. Reduce costo brutalmente cuando se aplica bien.

Eval (evaluación) — testear si el modelo/agente hace lo que debería. Distinto de “¿esto funciona?” — es estadístico, mide deriva.

Lo que destraba

Con vocabulario, puedes leer propuestas, evaluar proveedores, briefar AI engineer con claridad, e identificar cuándo te están vendiendo Lego como Ferrari. El glosario evoluciona — en 6 meses la mitad de estos términos estará más matizada y aparecerán nuevos.

Próximo paso: lee Cuándo la IA no es la respuesta — el complemento honesto de esta guía.