Enrutador modelo para Microsoft Foundry (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

El enrutador de modelos es un modelo de lenguaje entrenado que enruta de forma inteligente las indicaciones en tiempo real al modelo de lenguaje grande (LLM) más adecuado. Implementa el enrutador de modelos como cualquier otro modelo Foundry. Por lo tanto, ofrece un alto rendimiento a la vez que ahorra costos, reduce las latencias y aumenta la capacidad de respuesta, al tiempo que mantiene una calidad comparable, todo empaquetado como una sola implementación del modelo.

Nota

No es necesario implementar por separado los LLM compatibles para su uso con el enrutador de modelos, a excepción de los modelos Claude. Para usar el enrutador de modelos con los modelos de Claude, primero impleméntelos desde el catálogo de modelos. Las implementaciones se invocan mediante el enrutador de modelos si están seleccionadas para el enrutamiento.

Para probar el enrutador del modelo rápidamente, siga Cómo usar el enrutador del modelo. Después de implementar el enrutador de modelos, realice una solicitud a la implementación. El enrutador del modelo selecciona un modelo subyacente para cada solicitud en función de la configuración de enrutamiento.

Sugerencia

El portal Microsoft Foundry (nuevo) ofrece opciones de configuración mejoradas para el enrutador del modelo. Cambie a la nueva documentación de Microsoft Foundry para ver las más recientes características.

Funcionamiento del enrutador de modelos

Como modelo de lenguaje entrenado, el enrutador de modelos analiza las solicitudes en tiempo real en función de la complejidad, el razonamiento, el tipo de tarea y otros atributos. No almacena tus indicaciones. Se enruta solo a modelos aptos en función de sus credenciales de acceso y tipos de implementación, respetando los límites de la zona de datos.

Importante

La ventana de contexto efectiva está limitada por el modelo subyacente más pequeño. Para contextos más grandes, use el subconjunto de modelos para seleccionar modelos que admitan sus requisitos.

  • En el modo equilibrado (valor predeterminado), considera todos los modelos subyacentes dentro de un intervalo de calidad pequeño (por ejemplo, 1% a 2% en comparación con el modelo de mayor calidad para ese mensaje) y elige el modelo más rentable.
  • En el modo costo, considera una banda de calidad más grande (por ejemplo, 5% a 6% en comparación con el modelo de mayor calidad para ese mensaje) y elige el modelo más rentable.
  • En el modo de calidad, elige el modelo con la mayor calificación para el aviso, ignorando el costo.

¿Por qué usar el enrutador de modelos?

El enrutador de modelos optimiza los costos y latencias, a la vez que mantiene una calidad comparable. Los modelos más pequeños y baratos se usan cuando son suficientes para la tarea, pero los modelos más grandes y costosos están disponibles para tareas más complejas. Además, los modelos de razonamiento están disponibles para las tareas que requieren un razonamiento complejo, y en otros casos se utilizan modelos sin capacidad de razonamiento. El enrutador de modelos proporciona una única experiencia de implementación y chat que combina las mejores características de todos los modelos de chat subyacentes.

La versión actual , 2025-11-18 (más reciente), incluye las siguientes funcionalidades:

  1. Soporte implementaciones de Estándar Global y Estándar de Zona de Datos.
  2. Agrega compatibilidad con nuevos modelos: grok-4, grok-4-fast-reasoning, DeepSeek-V3.1, DeepSeek-V3.2, gpt-oss-120b, Llama-4-Maverick-17B-128E-Instruct-FP8, gpt-4o, gpt-4o-mini, gpt-5.2, gpt-5.2-chat, claude-haiku-4-5, claude-sonnet-4-5, claude-opus-4-1 y claude-opus-4-6.
  3. Implementación rápida o Implementación personalizada con opciones de modo de enrutamiento y subconjunto de modelos .
  4. Modo de enrutamiento: optimice la lógica de enrutamiento para sus necesidades. Opciones admitidas: Quality, Cost, Balanced (valor predeterminado).
  5. Subconjunto de modelos: seleccione los modelos preferidos para crear el subconjunto de modelos para el enrutamiento.
  6. Compatibilidad con escenarios agénticos, incluidas herramientas, para que ahora pueda usarlo en el servicio Foundry Agent.

Control de versiones

El enrutador de modelos usa versiones con marca de fecha. La versión actual es 2025-11-18 (más reciente), que se mantiene activamente: los nuevos modelos y características subyacentes se agregan a esta versión a lo largo del tiempo sin cambiar el identificador de versión.

Las versiones anteriores (2025-08-07, 2025-05-19) están congeladas y no reciben nuevos modelos.

Versión Situación Descripción
2025-11-18 Activo (más reciente) Recibe actualizaciones continuas de modelos y funciones
2025-08-07 Congelado Conjunto fijo de modelos; sin nuevas adiciones
2025-05-19 Bloqueado Conjunto fijo de modelos; sin nuevas adiciones

Sugerencia

No es necesario esperar a un nuevo número de versión para acceder a los nuevos modelos compatibles. La versión 2025-11-18 se actualiza directamente a medida que hay nuevos modelos disponibles.

Si selecciona Actualización automática en el paso de implementación (consulte Actualizaciones del modelo), la implementación del enrutador de modelos se actualiza automáticamente cuando hay nuevas versiones disponibles. Cuando esto sucede, el conjunto de modelos subyacentes también cambia, lo que podría afectar al rendimiento general del modelo y los costos.

Modelos admitidos

Nota

No necesitas implementar por separado los LLM admitidos para su uso con el model router, a excepción de los modelos de Claude. Para usar el enrutador de modelos con los modelos de Claude, primero impleméntelos desde el catálogo de modelos. Las implementaciones se invocarán mediante el enrutador de modelos si están seleccionadas para el enrutamiento.

Versión del modelo de enrutador Formato Modelo Versión
2025-11-18 (último) OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
DeepSeek
DeepSeek
OpenAI
Meta
xAI
xAI
Anthropic
Anthropic
Anthropic
Anthropic
Anthropic
gpt-4.0
gpt-4.0-mini
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano
gpt-5-mini
gpt-5
gpt-5-chat
gpt-5.2
gpt-5.2-chat
gpt-5.3-chat
gpt-5.4-nano
gpt-5.4-mini
gpt-5.4
gpt-5.5
Deepseek-V3.1 2
Deepseek-V3.2 2
gpt-oss-120b 2
Llama-4-Maverick-17B-128E-Instruct-FP8 2
grok-4 2
grok-4-fast-reasoning 2
claude-haiku-4-5 3
claude-sonnet-4-5 3
claude-opus-4-1 3
claude-opus-4-6 3
claude-opus-4-7 3
2024-11-20
2024-07-18
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-12-11
2025-12-11
2026-03-03
2026-03-17
2026-03-17
2026-03-05
2026-04-24
1
1
1
1
1
1
20251001
20250929
20250805
1
1
2025-08-07 OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5 1
gpt-5-mini
gpt-5-nano
gpt-5-chat
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-05-19 OpenAI
OpenAI
OpenAI
OpenAI
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
2025-04-14
2025-04-14
2025-04-14
2025-04-16
  • 1Requiere registro.
  • 2La compatibilidad con el enrutador de modelos está en versión preliminar.
  • 3La compatibilidad con el enrutador de modelos está en versión preliminar. Requiere la implementación del modelo para su uso con el enrutador de modelos.

Modo de enrutamiento

Con la versión más reciente, si elige la implementación personalizada, puede seleccionar el modo de enrutamiento para optimizar la calidad o el costo mientras mantiene un nivel de base de rendimiento. Establecer un modo de enrutamiento es opcional, y si no se establece uno, la implementación por defecto es el modo Equilibrado.

Modos de enrutamiento disponibles:

Modo Descripción
Equilibrado (valor predeterminado) Tiene en cuenta el costo y la calidad dinámicamente. Perfecto para escenarios de uso general
Calidad Prioriza la precisión máxima. Mejor para el razonamiento complejo o las salidas críticas
Costo Da prioridad a un mayor ahorro de costos. Ideal para cargas de trabajo de gran volumen y sensibles al presupuesto

Subconjunto de modelos

La versión más reciente del enrutador de modelos admite subconjuntos de modelos: puede especificar qué modelos subyacentes incluir en las decisiones de enrutamiento. Esto le proporciona más control sobre las características de costo, cumplimiento y rendimiento.

Cuando los nuevos modelos base estén disponibles, no se incluyen en la selección a menos que los agregue explícitamente a la lista de inclusión de la implementación.

Conmutación por error automática

El modelo de enrutador ahora ofrece conmutación automática por error integrada. Cuando se usa la implementación predeterminada para enrutar a todos los modelos admitidos, el enrutador de modelos redirige de forma transparente la solicitud al siguiente modelo más adecuado, por lo que los problemas transitorios con cualquier modelo único no interrumpen la aplicación. La conmutación por error está habilitada de forma predeterminada; no se requiere ninguna configuración adicional.

Para configuraciones de implementación personalizadas:

  • El modo de enrutamiento seleccionado (Equilibrado, Costo, o Calidad) continúa aplicándose durante un fallo del sistema.
  • El subconjunto de modelos configurado también funciona como conjunto de reserva para evitar que las indicaciones se procesen mediante modelos no aprobados. Por lo tanto, asegúrese de seleccionar subconjuntos de modelo con al menos dos modelos para beneficiarse de la funcionalidad de reserva.

Almacenamiento en caché de mensajes

El enrutador de modelos admite el almacenamiento en caché de solicitudes, ya que las solicitudes las procesan los modelos subyacentes que lo permiten. Cuando el enrutador de modelos delega una solicitud a un modelo que admite el almacenamiento en caché de mensajes, los tokens almacenados en caché se usan automáticamente, no se necesita ninguna configuración adicional.

El comportamiento de la caché depende del modelo subyacente que selecciona el enrutador para una solicitud determinada. Dado que las decisiones de enrutamiento pueden variar, las ventajas de almacenamiento en caché solo se aplican cuando el mismo modelo controla solicitudes consecutivas con prefijos de aviso superpuestos.

Para obtener más información sobre cómo funciona el almacenamiento en caché de solicitudes y qué modelos lo admiten, consulte Almacenamiento en caché de mensajes.

Limitaciones

Limitaciones de recursos

Región Tipos de implementación admitidos
Este de EE. UU. 2 Estándar global, estándar de zona de datos
Centro de Suecia Estándar global, estándar de zona de datos

Consulte también Azure OpenAI en modelos de Microsoft Foundry para obtener disponibilidad de la región actual.

Para superar los límites de la ventana de contexto y los parámetros, use la característica Subconjunto de modelos para seleccionar los modelos para el enrutamiento que admitan las propiedades deseadas.

Nota

El límite de la ventana de contexto que se muestra para el enrutador de modelos es el límite del modelo subyacente más pequeño. Otros modelos subyacentes son compatibles con ventanas de contexto más grandes, lo que significa que una llamada API con un contexto mayor solo se realizará correctamente si la solicitud se enruta al modelo correcto. Para revisar las ventanas de contexto de los modelos subyacentes, consulte Azure OpenAI en los modelos Foundry de Microsoft.

Para acortar la ventana de contexto, puede realizar una de las acciones siguientes:

  • Resumir el mensaje antes de pasarlo al modelo
  • Truncado de la indicación en partes más relevantes
  • Use incrustaciones de documentos y haga que el modelo de chat recupere las secciones pertinentes. Para obtener más información, vea ¿Qué es Búsqueda de Azure AI?

Niveles de cuota

Los límites de escala del enrutador de modelos dependen del nivel de uso de tu suscripción. Para obtener información sobre cómo funcionan los niveles, consulte Niveles de cuota.

Nivel GlobalStandard RPM GlobalStandard TPM DataZoneStandard RPM DataZoneStandard TPM
Nivel 1 1,000 1.000.000 300 300,000
Nivel 2 2.000 2,000,000 670 670.000
Nivel 3 4,000 4,000,000 1,000 1.000.000
Nivel 4 7,000 7,000,000 2.000 2,000,000
Nivel 5 10 000 10,000,000 3,000 3,000,000
Nivel 6 15,000 15.000.000 4,000 4,000,000

Para obtener información sobre otros límites de velocidad, consulte Cuotas y límites.

El enrutador de modelos acepta entradas de imagen para chats habilitados para Vision (todos los modelos subyacentes pueden aceptar entradas de imagen), pero la decisión de enrutamiento se basa solo en la entrada de texto.

El enrutador del modelo no procesa la entrada de audio.

Solución de problemas

Problema Resolución
Error en la implementación Compruebe que el recurso de Foundry esté en Este de EE. UU. 2 o Centro de Suecia.
Los modelos de Claude no se están enrutando Asegúrese de que los modelos de Claude se implementan por separado antes de habilitar en el enrutador del modelo.
Error de contexto superado Reduzca el tamaño del prompt o utilice un subconjunto de modelos para seleccionar modelos con ventanas de contexto más amplias.
Selección inesperada de modelos Revise la configuración del modo de enrutamiento (Equilibrado, Costo, Calidad) y la configuración del subconjunto del modelo.

Para obtener información detallada sobre la solución de problemas de implementación, consulte Uso del enrutador de modelos.

Información de facturación

El uso de modelos de enrutador se cobra por las indicaciones de entrada a la tarifa que aparece en la página de precios.

Puede monitorear los costos de la implementación del enrutador modelo en el portal de Azure.

Paso siguiente