Igual que hace unos meses todo era GPT (el interfaz, el modelo, las versiones especializadas), ahora todo son agentes. Pero nos hemos dado cuenta de que lo que se entiende por agente ha ido variando en los dos últimos años. Con este artículo queremos poner un poco de orden y explicar qué es un agente, al menos en mayo de 2026.
Hace dos años, "agente" era casi cualquier script que llamara a un LLM en bucle. Hoy hay un consenso emergente —impulsado sobre todo por el equipo de Anthropic a partir del artículo Building effective agents de finales de 2024— que distingue entre flujos de trabajo y agentes, y esa es la distinción en la que nos vamos a basar.
La idea central es esta: un sistema con IA es más "agéntico" cuanto más decide por sí mismo qué tiene que hacer y cuándo ha de detenerse. No es una etiqueta binaria (agente o no agente), es una escala.
Cómo definimos un agente
Un agente es un script o un programa donde un LLM dirige dinámicamente su propio proceso: decide qué pasos dar, qué herramientas usar, cómo revisar la salida y cuándo ha terminado. El humano le da un objetivo final, no un guion paso a paso.
Esto contrasta con un flujo de trabajo, donde los pasos están predefinidos por un humano y el LLM solo actúa en momentos concretos (resumir, clasificar, extraer). El workflow es predecible pero rígido; el agente es flexible pero más impredecible (y casi seguro, más caro).
Nuestra escala de agentes
A la hora de evaluar la "agenticidad" de un script nos vamos a basar en estos cinco niveles:
1. El script disfrazado de agente. Es una llamada simple a un LLM: le pasamos un texto, nos devuelve otro. No se usan herramientas ni se tira de la memoria del LLM. "Traduce este texto", "Adapta este párrafo para una audiencia no técnica", "Dame las palabras clave de este artículo".
2. El asistente con herramientas. Ahora el LLM puede llamar a funciones adicionales, como buscar en una base de datos o consultar una API de viajes. Todo en una única ejecución, sin ningún bucle. Por ejemplo, el LLM puede llamar a una API meteorológica y además de devolver la temperatura y la probabilidad de lluvia, podemos pedirle que devuelva un texto adaptado, algo como "Ponte una rebequita, pero puedes dejar el paraguas en casa".
3. El ejecutor de flujos. El humano ha programado un flujo de acciones, es decir, una cadena de llamadas a distintos modelos. Por ejemplo, podemos hacer que la salida de un prompt se use como entrada en el siguiente (prompt chaining), podemos configurar un LLM para que detecte el tipo de petición y se lo pase al modelo correspondiente (routing) o poner a varios LLM trabajando en paralelo (parallelization). Aquí el "control de flujo" lo tiene el código, no el modelo.
4. El agente de verdad. El LLM opera en un bucle: a partir de una serie de entradas decide la próxima acción, ejecuta una herramienta, observa el resultado, decide la siguiente acción… Repite este ciclo hasta que considera que ha terminado la tarea o hasta que alcanza un límite de tokens. Un agente de viajes recibe una fecha, un destino y un precio recomendado, se conecta a las APIs de distintas webs de viajes, analiza los resultados, y si no cumple alguna de las condiciones puede adaptar el precio y el rango de fechas, volver a consultar, volver a adaptar… hasta dar con un resultado que se aproxime lo más posible a lo deseado.
5. Sistemas multi-agente. Un agente "orquestador" delega subtareas a otros agentes especializados, coordina sus resultados y decide cómo combinarlos. Cada sub-agente puede tener sus propias herramientas y su propio bucle. Un sistema especializado en desarrollo web podría tener un orquestador que llama a sub-agentes expertos en UX, en HTML y CSS, en programación back y front, en QA, en plataforma… y coordinarlos entre sí para conseguir el desarrollo web deseado.
Cómo se ejecutan
Hay cuatro formas principales de lanzar un agente, y son independientes del nivel de agente:
Lanzamiento manual por un usuario. El caso típico: escribimos en un chat o pulsamos un botón. Este es el funcionamiento por defecto de Claude o ChatGPT. El agente vive el tiempo que dura la tarea y muere después.
Ejecución programada (cron). Una tarea programada lanza el agente cada cierto tiempo. Útil para tareas como "revisa mi inbox cada hora y resume lo importante", o "analiza los titulares de cada día y crea una nota de prensa".
Ejecución a partir de un evento. El agente se ejecuta cada vez que "pasa" algo: llega un email nuevo, se sube un archivo a Drive, se crea una issue en GitHub… Cuando ocurre esa acción, el agente se ejecuta automáticamente.
Llamado por otro agente. En sistemas multi-agente, el orquestador llama a sub-agentes como si fueran herramientas adicionales. El sub-agente recibe una tarea concreta, la resuelve, devuelve el resultado y termina.
Es importante distinguir entre "qué dispara al agente" (un cron, un humano, un evento, otro agente) y "qué hace el agente por dentro" (un bucle de razonamiento con herramientas, una llamada sencilla…). Son dos conceptos distintos que tienden a mezclarse en el discurso.
¿Para qué usan la IA los agentes?
En los niveles 4 y 5 no hay un flujo de acciones definido por una persona, sino que proporcionamos un objetivo y una serie de habilidades basadas en la IA. Estas habilidades se usan para:
Razonar y planificar — dado este objetivo, ¿qué hago primero?
Decidir qué herramienta llamar y con qué parámetros.
Interpretar resultados — la búsqueda devolvió esto, ¿es suficiente o sigo?
Ejecutar tareas concretas dentro del bucle (resumir, traducir, extraer, redactar).
Decidir cuándo parar.
En sistemas multi-agente, el orquestador usa el LLM además para decidir a qué sub-agente delegar.
¿Por dónde seguimos?
Este tema da para mucho más de un artículo. Seguimos construyendo el mapa de un territorio que todavía está lleno de marketing y poca claridad.
El 12 de mayo lo pusimos en práctica en el Maquinito: montamos agentes, los vimos decidir, equivocarse y sorprendernos. Si quieres estar en el siguiente, permanece atento.