La capa de agentes en Recuperación de agentes en Foundry local

La plataforma Agentic Retrieval se estructura en dos capas. El nivel de conocimiento controla la ingesta, la indexación y la recuperación de documentos. La capa agente se encuentra encima de ella y decide cómo los agentes usan ese conocimiento en tiempo de ejecución.

Diagrama que muestra la plataforma de recuperación agéntica con la capa agéntica sobre la capa de conocimiento.

La capa agéntica añade planificación, uso de herramientas y orquestación de conversaciones a la Recuperación Agéntica. La capa agente le permite crear asistentes que pueden administrar interacciones multiproceso, llamar a las herramientas de conocimiento conectadas al Protocolo de contexto de modelo (MCP) y generar respuestas basadas en datos privados que permanecen en la infraestructura.

Puede implementar la capa agente junto con la capa de conocimiento o por sí misma, en función de si necesita la ingesta y recuperación de documentos locales o solo la orquestación del agente.

En una implementación combinada, los agentes pueden usar el servidor MCP integrado para consultar colecciones indizadas por el nivel de conocimiento. En un despliegue exclusivamente basado en agentes, los agentes pueden seguir funcionando, pero utilizan servidores MCP externos en lugar de la pila integrada de ingestión y recuperación.

Qué proporciona la capa agente

Use la capa de agentes cuando necesite más que la recuperación directa. Agrega estas funcionalidades:

Ejecución del agente para ejecutar instrucciones, razonar sobre una solicitud y decidir cuándo invocar herramientas.
Estado de conversación a través de hilos, mensajes y ejecuciones para interacciones multiproceso.
Orquestación de conocimiento mediante la conexión de agentes a uno o varios orígenes de conocimiento respaldados por MCP a través de una base de conocimiento.
Implementación flexible para que pueda usar la recuperación agente con la capa de conocimiento integrada o solo con servidores MCP externos.

Componentes principales

La capa agente contiene tres componentes.

Tiempo de ejecución de agentes

El entorno de ejecución de agentes ejecuta conversaciones. Crea y administra:

Hilos para mantener una sesión de conversación.
Mensajes para almacenar turnos de usuario, asistente o sistema.
Ejecuciones para ejecutar un agente en los mensajes de un hilo.

Este tiempo de ejecución es responsable de invocar herramientas, interactuar con el modelo de lenguaje y devolver respuestas. Admite respuestas de streaming a través de eventos enviados por el servidor (SSE).

Base de Conocimiento

El administrador de Knowledge Base es el plano de control para la configuración de la base de conocimiento. Úselo para administrar bases de conocimiento. Las bases de conocimiento definen el límite de conocimiento disponible para los agentes. Cada implementación incluye una base de conocimiento predeterminada que el sistema aprovisiona automáticamente.

El sistema aprovisiona automáticamente agentes y los empareja 1:1 con una base de conocimiento. Los cambios en la base de conocimientos se sincronizan con el agente interno emparejado.

Cada implementación incluye una base de conocimiento predeterminada. No puede crear bases de conocimiento adicionales ni eliminar la predeterminada. Use GET, PATCH o PUT para ver y actualizar la base de conocimiento predeterminada.

Para obtener más información, consulte Bases de conocimiento en Recuperación agéntica.

Fuentes de conocimiento

Los orígenes de conocimiento registran conexiones MCP que un agente puede usar como herramientas. Cada origen de conocimiento contiene sus propios detalles de conexión e identifica el punto de conexión de MCP al que debe llamar el agente.

La recuperación agente admite dos tipos de origen de conocimiento:

remote_mcp para servidores MCP externos.
indexed_sources_mcp para el servidor MCP integrado con una referencia al contenido indexado en el nivel de conocimiento.

Para obtener más información, consulte Fuentes de conocimiento en Agentic Retrieval.

Cómo funciona la base de conocimientos con fuentes de conocimiento

La capa agente usa una secuencia predecible para el acceso al conocimiento. Los orígenes de conocimiento se registran, se vinculan a la base de conocimiento predeterminada y se permite que el sistema mantenga sincronizado el agente interno emparejado. En tiempo de ejecución, los usuarios interactúan a través de subprocesos y cada ejecución ejecuta el agente emparejado con acceso solo a los orígenes de conocimiento configurados.

En un nivel alto, el flujo funciona de la siguiente manera:

Registre uno o varios orígenes de conocimiento.
Vinculas esas fuentes a tu base de conocimiento predeterminada.
Un usuario inicia un hilo y envía un mensaje.
Una ejecución activa el agente asociado, que invoca herramientas de MCP cuando es necesario y genera una respuesta fundamentada.

Este modelo mantiene el acceso al conocimiento explícito. Los agentes no ven automáticamente todas las herramientas disponibles ni los datos indexados. Solo usan los orígenes de conocimiento expuestos a través de la base de conocimiento asignada.

Conceptos clave en la capa agente

Revise los siguientes conceptos clave para la capa agente:

Agente es una entidad de ejecución interna que se aprovisiona y asocia automáticamente en una relación uno a uno con una base de conocimiento. El agente controla el razonamiento, la planificación, las herramientas de llamada y la generación de respuestas. No crea ni administra agentes directamente. En su lugar, configure la base de conocimiento y el sistema mantiene sincronizado el agente emparejado.
La base de conocimiento agrupa uno o varios orígenes de conocimiento en un límite reutilizable. Cada implementación incluye una base de conocimiento predeterminada. Define qué conocimiento puede tener acceso el agente en lugar de cómo se comporta el agente.
El origen de conocimiento es una conexión MCP registrada. Contiene el punto de conexión y la configuración necesarios para alcanzar un servidor MCP específico o un origen indizado.
El hilo representa una sesión de conversación entre un usuario y un agente. Almacena el historial de mensajes ordenado para esa interacción.
Mensaje es un solo turno en un hilo. Los mensajes pueden representar la entrada del usuario, la salida del asistente o el contenido del sistema.
Ejecución es una sola ejecución de un agente en un hilo. Durante una ejecución, el agente lee el estado del hilo, decide si llama a las herramientas de conocimiento y genera una respuesta.
Model Context Protocol es el protocolo que se usa para conectar agentes a herramientas y orígenes de datos externos. Recuperación de agentes puede exponer herramientas MCP a través de su servidor MCP integrado y consumir servidores MCP externos a través de fuentes de conocimiento.

Modos de implementación y capa agente

El rol de la capa agente depende del modo de implementación que elija:

Modo de implementación	Capa agente	Capa de conocimiento	Uso típico
Combinado	Sí	Sí	Plataforma completa con agentes con base en contenido indizado localmente.
Agente	Sí	No	Solo se admite la orquestación de agentes, utilizando herramientas o servicios externos de MCP.
Información	No	Sí	Solo API de recuperación y RAG, sin orquestación de agentes.

Elija combinado cuando desee la plataforma de recuperación agentica completa. Elija agentic cuando ya tenga sistemas de conocimiento accesibles para MCP y solo necesite el entorno de ejecución del agente y la capa de administración. Elija el conocimiento cuando la aplicación solo necesite API de ingesta y recuperación.

Cuándo usar la capa agente

Use la capa agente cuando la solución necesite uno o varios de estos patrones:

Asistentes multiturno que mantienen el estado de la conversación.
Flujos de trabajo de invocación de herramientas que deben combinar múltiples fuentes de conocimiento.
Separación clara entre el comportamiento del agente y el acceso al conocimiento.
Implementaciones en las que los agentes necesitan trabajar con recuperación integrada o con servidores MCP externos.

Si solo necesita ingesta directa y consultas de tipo RAG sobre contenido indexado, la capa de conocimiento por sí sola podría ser suficiente.

Opciones de punto de conexión del modelo de lenguaje

La recuperación agente no agrupa modelos de lenguaje. Debe proporcionar su propio punto de conexión de LLM. El LLM debe exponer una API de completaciones de chat compatible con OpenAI.

Modelo recomendado:GPT-OSS-20B. Este modelo requiere su propia GPU dedicada (un mínimo de 24 GB de VRAM; se recomienda más de 48 GB+ para producción). Para conocer los requisitos detallados de hardware, consulte Qué necesita para Agentic Retrieval.

Opciones de hospedaje: puede implementar GPT-OSS-20B (u otro modelo) mediante cualquiera de estas opciones:

Opción de hospedaje	Description
Foundry Local en Azure Local (recomendado)	Ejecute modelos localmente en el clúster conectado a Arc. Ambas extensiones están diseñadas para trabajar juntas en el mismo clúster. Recomendado para implementaciones locales.
Microsoft Foundry	Modelos hospedados en la nube. Requiere conectividad de red desde el extremo de la red.

Configure el punto de conexión del modelo de lenguaje en el nivel de clúster durante la implementación. En el caso de los puntos de conexión, use valores de Helm como byom.apiEndpoint, byom.apiKeyy byom.apiModel. Todos los agentes del clúster comparten actualmente el mismo punto de conexión de LLM.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-11