¿Qué es Recuperación de agentes en Agentes y herramientas con Foundry local?

Agentes y herramientas con Foundry local forma parte del enfoque de nube adaptativa de Microsoft, que amplía las capacidades de razonamiento y de conexión de IA a entornos locales, distribuidos y desconectados administrados a través de Azure Arc.

Recuperación de agentes es la extensión de Kubernetes habilitada para Azure Arc que constituye el núcleo de la plataforma Agentes y herramientas con Foundry local. Proporciona una plataforma de Generación aumentada de Recuperación de agentes (RAG) en el perímetro, que combina una capa de conocimiento (ingesta de documentos, inserciones, búsqueda vectorial) con una capa de agentes (agentes de IA, orquestación del conocimiento, servidor MCP) para ofrecer asistentes inteligentes de varios pasos conectados a sus datos locales privados.

Importante

Recuperación de agentes en Foundry local está actualmente en VERSIÓN PRELIMINAR. Consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure para conocer los términos legales que se aplican a las características de Azure que se encuentran en la versión beta, en versión preliminar o que todavía no se han publicado para que estén disponibles con carácter general.

Recuperación de agentes en Foundry local se admite y valida en Kubernetes habilitado por Azure Arc en la infraestructura de Azure Local (anteriormente Azure Stack HCI) y como parte de una versión preliminar de operaciones desconectadas para Azure Local.

Para más información, consulte Azure Arc, Azure Arc habilitado para Kubernetes y extensiones de Azure Arc.

Introducción a la plataforma

La plataforma se basa en tres componentes que funcionan conjuntamente:

Componente Qué hace
RAG de agentes local Orquestación de agentes de IA con bases de conocimiento, fuentes de conocimiento y un servidor MCP para el razonamiento multietapa sobre tus datos.
Orígenes de conocimiento locales Flujo de ingestión de datos, vectorización y recuperación que indexa tus documentos locales en colecciones consultables.
Experiencia de chat local Una interfaz de usuario de chat integrada para interactuar con agentes, administrar conversaciones y ver citas. No se requiere ningún front-end personalizado.

Entre las funcionalidades de plataforma adicionales se incluyen:

  • Punto de conexión del modelo de lenguaje local de Foundry (recomendado) - Use un punto de conexión de Foundry Local en Azure Local para ejecutar el modelo de lenguaje en el mismo clúster conectado a Azure Arc que la extensión.
  • Bring Your Own Model (BYOM): conecte un punto de conexión de modelo de lenguaje externo que admita la API de finalizaciones de chat compatibles con OpenAI, como un punto de conexión implementado en Microsoft Foundry.
  • Dos modelos acelerados por GPU para insertar texto (BGE-M3) e incrustación de imágenes (CLIP ViT-L/14) que se ejecutan localmente en dos GPU. Docling (analizador de documentos) se ejecuta en la CPU.
  • Modos de implementación independientes : implemente la plataforma completa o simplemente la capa agente o la capa de conocimiento por separado.
  • Recuperación de imágenes: ingiere y recupera imágenes relevantes como referencias contextuales junto con el texto. Recuperación de agentes en Foundry local no es un modelo de lenguaje visual (VLM).

Componentes clave

La plataforma incluye tres componentes clave que funcionan conjuntamente para ayudarle a crear y ejecutar soluciones RAG agenteicas en los datos locales.

RAG de agentes local

La capa agente agrega planeación, uso de herramientas y orquestación de conversaciones a la plataforma. Permite crear asistentes de inteligencia artificial que administren interacciones de varios pasos, llamen a herramientas de conocimiento conectadas a MCP y generen respuestas basadas en los datos privados.

Principales funcionalidades:

  • Ejecución del agente : los agentes procesan las consultas de usuario mediante el razonamiento sobre instrucciones, la invocación de herramientas y la generación de respuestas.
  • Orquestación de conocimiento: conecte agentes a uno o varios orígenes de datos a través de bases de conocimiento y orígenes de conocimiento.
  • Servidor MCP : un servidor integrado de Protocolo de contexto de modelo (MCP) con herramientas de búsqueda, además de compatibilidad para conectarse a servidores MCP externos.
  • Gestión de conversaciones - hilos, mensajes y ejecuciones para gestionar interacciones de varios pasos con estado.

Puede implementar la capa agente junto con la capa de conocimiento o por sí misma. En una implementación combinada, los agentes consultan colecciones indexadas localmente. En un despliegue exclusivamente de agentes, los agentes se conectan en su lugar a servidores MCP externos.

Para obtener más información, consulte Información general sobre la capa agente.

Orígenes de conocimiento locales

La capa de conocimiento proporciona una ingesta de datos llave en mano y una canalización RAG que mantiene todos los datos en el entorno local. Controla el ciclo de vida completo de los datos, desde el análisis de documentos hasta la búsqueda vectorial.

Principales funcionalidades:

  • Ingesta de datos: analice, fragmente e inserte documentos desde recursos compartidos de archivos locales con configuración de canalización personalizable.
  • Colecciones - organiza los datos vectoriales en agrupaciones lógicas con ciclo de vida propio y RBAC específico por colección.
  • Múltiples tipos de búsqueda — elija entre híbrida, vectorial, texto e híbrida multimodal según sus necesidades de consulta.
  • Portal para desarrolladores : configure las opciones de ingesta, ajuste los parámetros de búsqueda y pruebe las consultas a través de una interfaz web local.

El acceso se controla a través de Azure RBAC para evitar el acceso no autorizado a los datos ingeridos.

Para obtener más información, vea Información general sobre colecciones y Tipos de búsqueda.

Experiencia de chat local

Agentic Retrieval en Foundry Local incluye una solución de chat integrada que proporciona una interfaz lista para su uso para interactuar con agentes. La solución de chat es una aplicación estática de React servida por nginx que se comunica con el entorno de ejecución de los agentes a través de la API de Foundry Agents.

La solución de chat proporciona:

  • Administración de conversaciones: cree, cambie el nombre, elimine y examine las conversaciones en una barra lateral.
  • Respuestas en streaming - respuestas del asistente en tiempo real mediante Server-Sent Events (SSE).
  • Citas y orígenes : vea los orígenes que el agente usó para generar cada respuesta.
  • Authentication: integración opcional de Entra ID para el inicio de sesión de usuario, con autorización basada en tokens controlada por el back-end.

La solución de chat solo controla la experiencia del explorador. La orquestación de modelos, la invocación de herramientas, la validación de tokens y el ámbito de datos se controlan mediante los servicios de tiempo de ejecución y back-end de los agentes.

Para obtener más información, consulte Solución de chat en Recuperación de agentes en Foundry local.

Escenarios de cliente y casos de uso

Los clientes en verticales como la fabricación, los servicios financieros, la atención sanitaria, el gobierno y la defensa generan y almacenan datos valiosos localmente. La regulación, la latencia, la continuidad empresarial o el volumen de datos generados en tiempo real suelen mantener estos datos fuera de la nube de hiperescala. Los clientes quieren usar aplicaciones de inteligencia artificial generativa para obtener información de estos datos locales.

La recuperación con agentes en Foundry Local admite capacidades de preguntas y respuestas y conversaciones con agentes de varios pasos que permiten a los clientes consultar datos almacenados en sus instalaciones mediante agentes de IA para escenarios como:

  • Un cliente gubernamental quiere derivar información de datos locales confidenciales para permitir una toma de decisiones más rápida, resumir grandes conjuntos de datos, crear materiales de entrenamiento, etc.

  • Un banco regional quiere usar datos que deben permanecer en el entorno local debido a restricciones normativas para casos de uso como comprobaciones de cumplimiento, asistencia al cliente y generación personalizada de ventas.

  • Un fabricante global quiere crear asistentes de planta de fábrica para reducir el tiempo de resolución de problemas y ayudar a solucionar problemas, usando datos que deben permanecer locales para cumplir con las directivas de la organización.

  • Un proveedor de atención sanitaria quiere implementar un agente que pueda razonar en varios documentos clínicos, mediante bases de conocimiento y herramientas de MCP para correlacionar los registros de pacientes, los resultados del laboratorio y las directrices de tratamiento.

  • Una empresa energética quiere conectar agentes a varios orígenes de datos externos (sistemas SCADA, registros de mantenimiento, datos meteorológicos) a través de servidores MCP, sin ingerir todos los datos localmente.

¿Por qué Recuperación de agentes en Foundry local?

Utilice Recuperación de agentes en Foundry local para:

  • Cree agentes inteligentes que organice varios orígenes de conocimiento, herramientas y servicios externos mediante el servidor MCP integrado y el marco de knowledge base.
  • Reduzca el tiempo de comercialización mediante una experiencia llave en mano que acelere el desarrollo y la implementación de aplicaciones de inteligencia artificial en datos locales.
  • Simplifique las operaciones y la gestión integral mediante una solución de calidad empresarial que ofrece el mismo nivel de seguridad, cumplimiento y capacidad de administración que espera de Microsoft, incluida la gestión del ciclo de vida y de las versiones de todos los componentes, así como la integración de Microsoft Entra para Azure RBAC.
  • Quite la necesidad de conjuntos de aptitudes de desarrollador independientes mediante experiencias de desarrollador coherentes con la nube.
  • Manténgase al tanto de este espacio en constante evolución con la innovación continua de Microsoft, el líder en tecnologías de inteligencia artificial y continúe centrándose en ofrecer valor empresarial.

Conceptos clave

Revise los siguientes conceptos clave sobre Recuperación de agentes en Foundry local:

  • La fragmentación divide documentos grandes en bloques de texto más pequeños y administrables (fragmentos).

    • Tamaño del fragmento: la fragmentación divide documentos grandes en unidades más pequeñas, con valores como el tamaño del fragmento (por ejemplo, 1000-2000 caracteres) y la superposición de fragmentos (por ejemplo, 100-500 caracteres) controlando su granularidad y continuidad. Los fragmentos más pequeños mejoran la precisión de recuperación, pero pueden perder el contexto, mientras que los fragmentos más grandes garantizan un contexto completo a costa de precisión.
    • Superposición de fragmentos: los fragmentos superpuestos mantienen el contexto entre límites, pero aumentan los requisitos de almacenamiento y cálculo.

    La configuración óptima del fragmento depende del caso de uso, la precisión del equilibrio, la eficiencia y el rendimiento.

  • La ingesta de datos es un proceso de importación y preparación de contenido externo, como documentos o imágenes, que se usará para la recuperación. Esto incluye pasos de preprocesamiento, como la limpieza, el formato y la organización de datos.

  • La inserción de modelos transforma texto, imágenes u otros datos en vectores numéricos densos (incrustaciones) que capturan el significado semántico. Estos vectores representan relaciones entre entradas, lo que permite comparaciones de similitud y agrupación en clústeres.

  • La inferencia hace referencia al proceso de usar un modelo entrenado para generar predicciones o salidas basadas en nuevos datos de entrada. En los modelos de lenguaje, la inferencia implica tareas como completar texto, responder preguntas o generar resúmenes.

  • Los modelos de lenguaje son sistemas de inteligencia artificial entrenados para comprender, generar y manipular el lenguaje humano. Predicen texto basado en la entrada, habilitando tareas como la generación de texto, la traducción, el resumen y la respuesta a preguntas. La recuperación agéntica en Foundry Local es compatible con dos opciones de punto de conexión para modelos de lenguaje. La opción recomendada es un extremo de Foundry Local en Azure Local. Esta opción se ejecuta en el mismo clúster conectado Azure Arc que la extensión. También puede usar un punto de conexión externo de Bring Your Own Model (BYOM) que admita una API de finalizaciones de chat compatibles con OpenAI, como una implementada en Microsoft Foundry.

  • Los parámetros del modelo controlan cómo el modelo de lenguaje genera texto, como la creatividad, la diversidad y el foco de las respuestas. Entre los parámetros comunes se incluyen Temperature y Top-p. Los parámetros del modelo no afectan a los documentos que se recuperan, solo cómo genera el modelo su respuesta. Para obtener más información, consulte Parámetros de tipo de búsqueda en Recuperación de agentes en Foundry local.

  • La consulta es la entrada proporcionada a un modelo de lenguaje para obtener una respuesta o realizar una tarea específica. Puede ser una pregunta, un aviso o un conjunto de instrucciones, en función del caso de uso.

  • La generación aumentada de recuperación (RAG) combina un sistema de recuperación con un modelo de lenguaje generativo para generar respuestas enriquecidas por conocimientos externos. Recupera el contexto pertinente de una base de datos o almacén de documentos para aumentar las capacidades de generación del modelo, lo que garantiza información precisa y actualizada.

  • Los parámetros de búsqueda son opciones de configuración que controlan cómo la recuperación agenteica en Foundry Local recupera, filtra y clasifica los documentos de los datos indexados antes de pasarlos al modelo de lenguaje. Estos parámetros le ayudan a ajustar la relevancia, la precisión y el ámbito de la información utilizada para responder a las consultas del usuario. Para obtener más información, consulte Parámetros de tipo de búsqueda en Recuperación de agentes en Foundry local.

  • Tipo de búsqueda: un tipo de búsqueda es el método que Agentic Retrieval de Foundry Local usa para encontrar y clasificar información a partir de sus datos indexados. Determina cómo el sistema recupera el contenido relevante para responder a preguntas del usuario, como mediante palabras clave coincidentes, mediante la similitud semántica o la combinación de varios enfoques. La recuperación agéntica en Foundry Local admite varios métodos de búsqueda para recuperar información, incluida la búsqueda de texto completo, la búsqueda híbrida, la búsqueda híbrida multimodal y la búsqueda vectorial. Para obtener más información, consulte Tipos de búsqueda en Recuperación de agentes en Foundry local.

  • El mensaje del sistema son instrucciones predefinidas o mensajes proporcionados a un modelo de lenguaje al principio de una conversación o tarea para influir en su comportamiento. Estas indicaciones definen el rol, el tono o el contexto específico de la tarea del modelo. Por ejemplo, "Usted es un asistente útil" o "Proporcionar explicaciones técnicas concisas". Al dar forma al contexto inicial, los avisos del sistema garantizan que el modelo genera respuestas alineadas con el objetivo o el rol deseados.

  • La base de datos vectorial es una base de datos especializada para almacenar incrustaciones de vectores. Está diseñado para controlar vectores de alta dimensión y permite búsquedas de similitud rápidas y escalables.

  • La vectorización significa transformar el texto en representaciones numéricas, o incrustaciones, mediante un modelo de inserción, como transformadores de oraciones. Estas incrustaciones capturan el significado semántico del texto, lo que permite comparaciones eficaces y precisas.

  • El agente es un asistente de IA configurado con instrucciones, un punto de conexión de modelo y, opcionalmente, una base de conocimiento. Los agentes procesan las consultas de los usuarios a través de conversaciones de varios turnos, invocando herramientas y fuentes de conocimiento según sea necesario.

  • Knowledge Base es una agrupación de orígenes de conocimiento asignados a un agente. Cuando el agente procesa una consulta, puede acceder a todos los orígenes de conocimiento de su base de conocimiento.

  • Knowledge Source es un registro autocontenido de una conexión a un servidor MCP. Cada origen de conocimiento incluye sus propios detalles de conexión (dirección URL, tipo de autenticación). Dos tipos: remote_mcp para servidores MCP externos y indexed_sources_mcp para el servidor MCP integrado con una referencia de origen indizada específica (por ejemplo, un nombre de colección).

  • La colección es una agrupación lógica de datos vectoriales ingeridos. Cada colección se corresponde con colecciones vectoriales de Milvus y tablas de Postgres, y puede crearse, consultarse y eliminarse de forma independiente.

  • MCP (Protocolo de contexto de modelo) es un protocolo abierto para conectar agentes de IA a herramientas externas y orígenes de datos. La recuperación agenteica en Foundry Local incluye un servidor MCP integrado con 6 herramientas de búsqueda y también puede conectarse a servidores MCP externos.

  • El hilo es una sesión de conversación entre un usuario y un agente. Los hilos contienen mensajes ordenados y se limitan a un único usuario.

  • Ejecución es la ejecución de un agente en un hilo. El agente lee los mensajes del hilo, invoca herramientas y genera una respuesta. Las ejecuciones admiten la transmisión mediante eventos enviados por el servidor (SSE).

  • El modo de implementación determina qué capas se implementan. Opciones: combined (predeterminada, plataforma completa), agentic (solo agentes, sin ingesta de datos locales), knowledge (ingesta de datos y RAG solo, sin agentes).

Comparación con los servicios de INTELIGENCIA ARTIFICIAL en Azure

La recuperación agenteica en Foundry Local se ejecuta en la infraestructura del cliente fuera de la nube pública, por lo que los clientes pueden buscar sus datos locales mediante la generación aumentada de recuperación (RAG). El plano de datos, incluidos todos los datos del cliente y el modelo de lenguaje, se hospeda localmente.

En cambio, los servicios de inteligencia artificial de Azure, como Búsqueda de Azure AI y Microsoft Foundry, también proporcionan capacidades de RAG, pero se alojan en regiones de nube de hiperescala. Los clientes deben llevar sus datos y aplicaciones a Azure infraestructura.

La recuperación agenteica en Foundry Local proporciona experiencias de interfaz de usuario de desarrollador locales que se alinean con las experiencias de Foundry.

Datos locales frente a la nube

La recuperación agenteica en Foundry Local envía solo los metadatos del sistema y la información de identificación organizativa, como el identificador de suscripción y los nombres de clúster a Microsoft. Todo el contenido del cliente, incluidos los documentos ingeridos, las incrustaciones, las configuraciones del agente y los subprocesos de conversación, siempre permanece en la infraestructura local dentro de los límites de red definidos por los clientes.

Roles de usuario

La solución Agentic Recovery in Foundry Local tiene cuatro roles de usuario distintos:

  • Administración del ciclo de vida de la extensión: los usuarios administran el ciclo de vida de la recuperación agentica en la extensión Foundry Local Arc. Este rol incluye tareas como configurar la infraestructura necesaria, implementar la extensión, realizar actualizaciones, supervisar su rendimiento y controlar su eliminación final. Normalmente, estas responsabilidades recaen en un administrador de TI con acceso a la infraestructura subyacente de Azure Local y de Azure Kubernetes (AKS) en Azure Local.
  • Desarrollo y evaluación de agentes y extremos de chat: los usuarios configuran agentes, bases de conocimiento y fuentes de conocimiento; proporcionan el origen de datos; personalizan la configuración de la canalización de RAG; proporcionan prompts del sistema personalizados; evalúan, supervisan y actualizan la solución. Normalmente, estas responsabilidades recaen en un ingeniero de solicitudes o un desarrollador de aplicaciones de IA. Requiere el rol EdgeRAGDeveloper de Entra ID.
  • Consumo del punto de conexión para consultar los datos locales: los usuarios integran el punto de conexión de chat en aplicaciones de línea de negocio y usan una interfaz de chat, personalizada o la proporcionada de forma predeterminada para consultar datos locales.
  • Administración de capas agente: los usuarios configuran y administran las bases de conocimiento y los orígenes de conocimiento mediante la API de Knowledge Base Manager. Este rol incluye el registro de servidores MCP como orígenes de conocimiento, la actualización de la base de conocimiento predeterminada y la vinculación de orígenes de conocimiento a él. Requiere el rol EdgeRAGDeveloper de Entra ID.