Recuperación de agentes en Azure AI Search

Nota

Algunas características de recuperación agente están disponibles con carácter general en la API REST 2026-04-01 a través del acceso mediante programación. El portal de Azure y el portal de Microsoft Foundry continúan proporcionando acceso solo para vista previa a todas las funcionalidades de recuperación basada en agentes. Para obtener instrucciones de migración, incluido un desglose de lo que está disponible con carácter general y lo que permanece en versión preliminar, consulte Migración del código de recuperación agente a la versión más reciente.

Si decide usar una API REST en versión preliminar, puede acceder a las funcionalidades de recuperación agente que aún no están disponibles con carácter general. Las características en versión preliminar se proporcionan sin un contrato de nivel de servicio y no se recomiendan para cargas de trabajo de producción. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

Importante

Estas características y funcionalidades forman parte de la API REST 2026-05-01-preview. La versión preliminar 2026-05-01-preview se le concede bajo licencia como parte de su suscripción de Azure y está sujeta a los términos aplicables a las "Versiones preliminares" establecidos en los Microsoft Product Terms, el Microsoft Products and Services Data Protection Addendum ("DPA") y los Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

La 2026-05-01-preview admite conexiones a otros servicios de Microsoft y a servicios de terceros. El uso de estos servicios está sujeto a sus respectivos términos y podría dar lugar a procesamiento o almacenamiento de datos fuera del límite de cumplimiento de Azure, así como a los datos que fluyen a los límites de cumplimiento de Azure.

Es su responsabilidad gestionar si sus datos saldrán fuera de los límites geográficos y de cumplimiento normativo de su organización, así como cualquier implicación relacionada, y garantizar que se hayan establecido los permisos, límites y aprobaciones adecuados.

Es responsable de revisar y probar cuidadosamente las aplicaciones que compile en el contexto de sus casos de uso específicos y de tomar todas las decisiones y personalizaciones adecuadas. Esto incluye implementar sus propias mitigaciones de IA responsables, como metaprompts, filtros de contenido u otros sistemas de seguridad, y garantizar que las aplicaciones cumplan los estándares de calidad, confiabilidad, seguridad y confiabilidad adecuados. Para obtener más información, consulte la nota de transparencia Búsqueda de Azure AI.

En Búsqueda de Azure AI, la recuperación de agentes es una canalización de varias consultas diseñada para preguntas complejas planteadas por usuarios o agentes en aplicaciones de chat y copilot. Está diseñado para patrones de generación aumentada de recuperación (RAG) y flujos de trabajo de agente a agente.

Esto es lo que hace:

Puede usar un modelo de lenguaje grande (LLM) para dividir una consulta compleja en subconsultas más pequeñas y centradas para mejorar la cobertura sobre el contenido propietario y externo. Las subconsultas pueden incluir el historial de chats para contexto adicional.
Ejecuta subconsultas en paralelo. Cada subconsulta se reordena semánticamente para promover las coincidencias más relevantes.
Combina los mejores resultados en una respuesta unificada que un LLM puede usar para generar respuestas fundamentadas.
Puede devolver referencias de origen y un registro de actividad junto con el contenido consolidado, de modo que puede usar solo los datos de respaldo o pasarlos a un LLM para obtener una respuesta completa.

Esta canalización de alto rendimiento le ayuda a generar datos de base de alta calidad o respuestas para la aplicación de chat, con la capacidad de responder rápidamente a preguntas complejas.

¿Por qué usar la recuperación agente?

Hay dos casos de uso para la recuperación de agentes. En primer lugar, impulsa Foundry IQ en el portal de Microsoft Foundry proporcionando la capa de conocimiento para las soluciones de agente. En segundo lugar, es la base de las soluciones agenteicas personalizadas que se compilan mediante las API de Búsqueda de Azure AI.

Utilice la recuperación agéntica cuando desee proporcionar a los agentes y las aplicaciones el contenido más relevante para responder a preguntas más complejas, basándose en el contexto del chat, en su contenido propio y en fuentes externas.

La recuperación agéntica añade latencia en comparación con un flujo de consulta única, pero gestiona una complejidad de consulta que una única consulta no puede manejar. Por ejemplo, puede controlar:

Preguntas con varias solicitudes, como «búscame un hotel cerca de la playa, con servicio de traslado al aeropuerto y que esté a poca distancia a pie de restaurantes vegetarianos».
Preguntas que dependen del contexto anterior en la conversación.
Consultas que se benefician de la reescritura, mediante mapas de sinónimos y paráfrasis generadas por LLM para ampliar la cobertura en todo su contenido.
Errores ortográficos.

Arquitectura y flujo de trabajo

El proceso de recuperación agente funciona de la siguiente manera:

Inicio del flujo de trabajo: La aplicación llama a una base de conocimiento con una acción de recuperación que proporciona un historial de consultas y conversaciones.
Planificación de consultas: Con un nivel de esfuerzo de razonamiento de recuperación low y medium, la base de conocimiento envía tu consulta y el historial de conversación a un LLM, que genera subconsultas específicas. Con un esfuerzo de minimal, este paso se omite y las consultas se envían directamente a las fuentes de conocimiento. El esfuerzo de razonamiento tiene como valor predeterminado low y está configurado en la base de conocimiento.
Ejecución de consultas: La base de conocimiento envía las subconsultas a los orígenes de conocimiento. Todas las subconsultas se ejecutan simultáneamente y pueden ser palabra clave, vector o búsqueda híbrida. Cada subconsulta se somete a un reordenamiento semántico para encontrar las coincidencias más relevantes. Las referencias se extraen y conservan con fines de cita.
Síntesis de resultados: El sistema combina todos los resultados en una respuesta unificada. Siempre se devuelve el contenido combinado. Las referencias de origen y un registro de actividad de ejecución son opcionales.

Components

Para todos los escenarios de recuperación agéntica, se requiere una base de conocimiento y al menos una fuente de conocimiento. Otros componentes son opcionales y dependen de la configuración.

Componente	Servicio	Rol
Base de conocimiento	Búsqueda de Azure AI	Organiza la canalización, administra los orígenes de conocimiento y los parámetros de consulta.
Origen de conocimiento	Búsqueda de Azure AI	Define el contenido usado en la canalización. Se puede indexar (respaldado por un índice de búsqueda en el servicio) o remoto (contenido recuperado en el momento de la consulta desde una plataforma externa).
Índice de búsqueda	Búsqueda de Azure AI	Almacena contenido que se puede buscar (texto y vectores) con una configuración semántica. Determina qué tipos de consulta se ejecutan y qué optimizaciones se aplican. Necesario solo para orígenes de conocimiento indexados.
Clasificador semántico	Búsqueda de Azure AI	Se utiliza internamente en la canalización de recuperación agéntica para reordenar los resultados según su relevancia (reordenación L2).
Máster en Derecho	Azure OpenAI	Planea consultas y selecciona orígenes de conocimiento. Se utiliza solo en `low` y `medium` para el esfuerzo de razonamiento para la recuperación. Se omite en `minimal` el esfuerzo.

Requisitos de integración

La aplicación impulsa la canalización llamando a la base de conocimiento y controlando la respuesta. El flujo devuelve datos de contexto que puedes pasar a un LLM para generar respuestas o usar directamente en tu interfaz conversacional. Para obtener más información sobre la implementación, consulte Tutorial: Compilación de una solución de recuperación agente de un extremo a otro.

Disponibilidad y precios

La recuperación de agentes está disponible en determinadas regiones. Los orígenes de conocimiento y las bases de conocimiento también tienen límites máximos que varían según el nivel de precios y el esfuerzo de razonamiento para la recuperación.

Facturación

La recuperación de agentes conlleva el cobro de dos servicios:

Búsqueda de Azure AI factura los tokens de recuperación consumidos durante la ejecución de subconsultas y la clasificación semántica. El plan gratuito (valor predeterminado) proporciona una asignación mensual de tokens. El plan estándar habilita las tarifas de pago por uso una vez consumida la asignación gratuita. Para obtener más información, consulte Habilitar o deshabilitar la facturación de recuperación de agentes.
Azure OpenAI factura los tokens de entrada y salida usados en el planeamiento de consultas basado en LLM y síntesis de respuestas. Los precios siempre son de pago por uso y se basan en el modelo que se asigna a la base de conocimiento. Los cargos aparecen en la factura de OpenAI de Azure. Para ver las tarifas, consulte precios de Azure OpenAI.

En la siguiente tabla se compara la facturación entre la canalización clásica de consulta única y la canalización de recuperación de agentes con consultas múltiples. En la canalización clásica, el componente facturable es el clasificador semántico.

Aspecto	Canalización clásica	Recuperación de agente
Unidad	Basado en consultas	Basado en tokens
Costo por unidad	Costo uniforme por consulta	Costo variable por token (depende del esfuerzo de razonamiento)
Estimación de costos	Estimación del recuento de consultas	Estimación del uso de tokens
Asignación gratuita	Límite mensual de consultas gratuitas	Asignación mensual de tokens gratis

Ejemplo: Estimación de costos

Este ejemplo ayuda a ilustrar el proceso de estimación de costos para el planeamiento de consultas y la ejecución de consultas, pero no la síntesis de respuestas. Los costos podrían ser menores. Para obtener las tarifas actuales, consulte los precios de Búsqueda de Azure AI y de Azure OpenAI.

Para calcular los costes del plan de consultas como pago por uso en Azure OpenAI, supongamos que gpt-4o-mini:

15 centavos por 1 millón de fichas de entrada.
60 centavos por 1 millón de tokens generados.
2.000 tokens de entrada para una conversación de chat de tamaño medio.
350 tokens para un plan de salida de tamaño medio.

Costos estimados de facturación para la ejecución de consultas

Para calcular el número de tokens de recuperación de agentes, primero debe hacerse una idea de cómo es un documento medio en el índice. Por ejemplo, puede aproximarse a:

10 000 fragmentos, donde cada fragmento es de uno a dos párrafos de un PDF.
500 tokens por fragmento.
Cada subconsulta reordena hasta 50 bloques.
En promedio, hay tres subconsultas por plan de consulta.

Cálculo del precio de ejecución

Supongamos que realizamos 2000 recuperaciones de agentes con tres subconsultas por plan. Esto nos proporciona aproximadamente 6000 consultas totales.
Rerankear 50 fragmentos por subconsulta, lo que hace un total de 300,000 fragmentos.
El fragmento medio es de 500 tokens, por lo que el número total de tokens para el reranking es de 150 millones.
Dado un precio hipotético de 0,022 por token, $3,30 es el costo total de reranking en dólares estadounidenses.
Pasemos a los costes del plan de consulta: 2000 tokens de entrada multiplicados por 2000 recuperaciones de agentes equivalen a 4 millones de tokens de entrada, lo que supone un total de 60 céntimos.
Calcule los costos de producción en función de un promedio de 350 fichas. Si multiplicamos 350 por 2000 recuperaciones de agentes, obtenemos 700 000 tokens de salida totales, lo que supone un coste total de 42 céntimos.

En conjunto, pagaría aproximadamente 3,30 USD por la recuperación de agentes en Búsqueda de Azure AI. Además, pagaría 60 centavos por los tokens de entrada en Azure OpenAI y 42 centavos por los tokens de salida en Azure OpenAI. En total, serían 1,02 USD para la planificación de consultas. El costo combinado de la ejecución completa es de 4,32 USD.

Sugerencias para controlar los costos

Revise el registro de actividad en la respuesta para averiguar qué consultas se emitieron a qué orígenes y parámetros se usaron. Puede volver a emitir esas consultas en los índices y usar un tokenizador público para calcular los tokens y compararlos con el uso notificado por la API. Sin embargo, no se garantiza una reconstrucción precisa de una consulta o respuesta. Los factores incluyen el tipo de fuente de conocimiento, como datos web públicos o una fuente de conocimiento remota de SharePoint basada en una identidad de usuario, que puede afectar la ejecución de consultas.
Reducir la cantidad de fuentes de conocimiento (índices); consolidar el contenido puede reducir la propagación y el volumen de tokens.
Reduzca el esfuerzo de razonamiento para reducir el uso de LLM durante el planeamiento de consultas y la expansión de consultas (búsqueda iterativa).
Organice el contenido para que la información más relevante pueda encontrarse en menos fuentes y documentos (por ejemplo, resúmenes seleccionados o tablas).

Cómo empezar

Para crear una solución de recuperación agente, puede usar el portal de Azure, Microsoft portal foundry (nuevo), las API REST o un paquete de SDK de Azure equivalente.

Inicio rápido: recuperación con agente en el portal de Azure
Quickstart: recuperación agentica (C#, Java, JavaScript, Python, TypeScript, REST)

Paso siguiente

Inicio rápido: Recuperación agentica

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-12