Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry
El enrutador de modelos es un modelo de lenguaje entrenado que enruta de forma inteligente las indicaciones en tiempo real al modelo de lenguaje grande (LLM) más adecuado. Implementa el enrutador de modelos como cualquier otro modelo Foundry. Por lo tanto, ofrece un alto rendimiento a la vez que ahorra costos, reduce las latencias y aumenta la capacidad de respuesta, al tiempo que mantiene una calidad comparable, todo empaquetado como una sola implementación del modelo.
Nota
No es necesario implementar por separado los LLM compatibles para su uso con el enrutador de modelos, a excepción de los modelos Claude. Para usar el enrutador de modelos con los modelos de Claude, primero impleméntelos desde el catálogo de modelos. Las implementaciones se invocan mediante el enrutador de modelos si están seleccionadas para el enrutamiento.
Para probar el enrutador del modelo rápidamente, siga Cómo usar el enrutador del modelo. Después de implementar el enrutador de modelos, realice una solicitud a la implementación. El enrutador del modelo selecciona un modelo subyacente para cada solicitud en función de la configuración de enrutamiento.
Sugerencia
El portal Microsoft Foundry (nuevo) ofrece opciones de configuración mejoradas para el enrutador del modelo. Cambie a la nueva documentación de Microsoft Foundry para ver las más recientes características.
Funcionamiento del enrutador de modelos
Como modelo de lenguaje entrenado, el enrutador de modelos analiza las solicitudes en tiempo real en función de la complejidad, el razonamiento, el tipo de tarea y otros atributos. No almacena tus indicaciones. Se enruta solo a modelos aptos en función de sus credenciales de acceso y tipos de implementación, respetando los límites de la zona de datos.
Importante
La ventana de contexto efectiva está limitada por el modelo subyacente más pequeño. Para contextos más grandes, use el subconjunto de modelos para seleccionar modelos que admitan sus requisitos.
- En el modo equilibrado (valor predeterminado), considera todos los modelos subyacentes dentro de un intervalo de calidad pequeño (por ejemplo, 1% a 2% en comparación con el modelo de mayor calidad para ese mensaje) y elige el modelo más rentable.
- En el modo costo, considera una banda de calidad más grande (por ejemplo, 5% a 6% en comparación con el modelo de mayor calidad para ese mensaje) y elige el modelo más rentable.
- En el modo de calidad, elige el modelo con la mayor calificación para el aviso, ignorando el costo.
¿Por qué usar el enrutador de modelos?
El enrutador de modelos optimiza los costos y latencias, a la vez que mantiene una calidad comparable. Los modelos más pequeños y baratos se usan cuando son suficientes para la tarea, pero los modelos más grandes y costosos están disponibles para tareas más complejas. Además, los modelos de razonamiento están disponibles para las tareas que requieren un razonamiento complejo, y en otros casos se utilizan modelos sin capacidad de razonamiento. El enrutador de modelos proporciona una única experiencia de implementación y chat que combina las mejores características de todos los modelos de chat subyacentes.
La versión actual , 2025-11-18 (más reciente), incluye las siguientes funcionalidades:
- Soporte implementaciones de Estándar Global y Estándar de Zona de Datos.
- Agrega compatibilidad con nuevos modelos:
grok-4,grok-4-fast-reasoning,DeepSeek-V3.1,DeepSeek-V3.2,gpt-oss-120b,Llama-4-Maverick-17B-128E-Instruct-FP8,gpt-4o,gpt-4o-mini,gpt-5.2,gpt-5.2-chat,claude-haiku-4-5,claude-sonnet-4-5,claude-opus-4-1yclaude-opus-4-6. - Implementación rápida o Implementación personalizada con opciones de modo de enrutamiento y subconjunto de modelos .
-
Modo de enrutamiento: optimice la lógica de enrutamiento para sus necesidades. Opciones admitidas:
Quality,Cost,Balanced(valor predeterminado). - Subconjunto de modelos: seleccione los modelos preferidos para crear el subconjunto de modelos para el enrutamiento.
- Compatibilidad con escenarios agénticos, incluidas herramientas, para que ahora pueda usarlo en el servicio Foundry Agent.
Control de versiones
El enrutador de modelos usa versiones con marca de fecha. La versión actual es 2025-11-18 (más reciente), que se mantiene activamente: los nuevos modelos y características subyacentes se agregan a esta versión a lo largo del tiempo sin cambiar el identificador de versión.
Las versiones anteriores (2025-08-07, 2025-05-19) están congeladas y no reciben nuevos modelos.
| Versión | Situación | Descripción |
|---|---|---|
2025-11-18 |
Activo (más reciente) | Recibe actualizaciones continuas de modelos y funciones |
2025-08-07 |
Congelado | Conjunto fijo de modelos; sin nuevas adiciones |
2025-05-19 |
Bloqueado | Conjunto fijo de modelos; sin nuevas adiciones |
Sugerencia
No es necesario esperar a un nuevo número de versión para acceder a los nuevos modelos compatibles. La versión 2025-11-18 se actualiza directamente a medida que hay nuevos modelos disponibles.
Si selecciona Actualización automática en el paso de implementación (consulte Actualizaciones del modelo), la implementación del enrutador de modelos se actualiza automáticamente cuando hay nuevas versiones disponibles. Cuando esto sucede, el conjunto de modelos subyacentes también cambia, lo que podría afectar al rendimiento general del modelo y los costos.
Modelos admitidos
Nota
No necesitas implementar por separado los LLM admitidos para su uso con el model router, a excepción de los modelos de Claude. Para usar el enrutador de modelos con los modelos de Claude, primero impleméntelos desde el catálogo de modelos. Las implementaciones se invocarán mediante el enrutador de modelos si están seleccionadas para el enrutamiento.
| Versión del modelo de enrutador | Formato | Modelo | Versión |
|---|---|---|---|
2025-11-18 (último) |
OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI DeepSeek DeepSeek OpenAI Meta xAI xAI Anthropic Anthropic Anthropic Anthropic Anthropic |
gpt-4.0
gpt-4.0-mini
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5 gpt-5-chat gpt-5.2 gpt-5.2-chat gpt-5.3-chat gpt-5.4-nano gpt-5.4-mini gpt-5.4 gpt-5.5 Deepseek-V3.1
2 Deepseek-V3.2
2gpt-oss-120b
2 Llama-4-Maverick-17B-128E-Instruct-FP8
2 grok-4
2 grok-4-fast-reasoning
2 claude-haiku-4-5
3 claude-sonnet-4-5
3 claude-opus-4-1
3 claude-opus-4-6
3 claude-opus-4-7
3 |
2024-11-20 2024-07-18 2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 2025-12-11 2025-12-11 2026-03-03 2026-03-17 2026-03-17 2026-03-05 2026-04-24 1 1 1 1 1 1 20251001 20250929 20250805 1 1 |
2025-08-07 |
OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
1 gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
OpenAI OpenAI OpenAI OpenAI |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
- 1Requiere registro.
- 2La compatibilidad con el enrutador de modelos está en versión preliminar.
- 3La compatibilidad con el enrutador de modelos está en versión preliminar. Requiere la implementación del modelo para su uso con el enrutador de modelos.
Modo de enrutamiento
Con la versión más reciente, si elige la implementación personalizada, puede seleccionar el modo de enrutamiento para optimizar la calidad o el costo mientras mantiene un nivel de base de rendimiento. Establecer un modo de enrutamiento es opcional, y si no se establece uno, la implementación por defecto es el modo Equilibrado.
Modos de enrutamiento disponibles:
| Modo | Descripción |
|---|---|
| Equilibrado (valor predeterminado) | Tiene en cuenta el costo y la calidad dinámicamente. Perfecto para escenarios de uso general |
| Calidad | Prioriza la precisión máxima. Mejor para el razonamiento complejo o las salidas críticas |
| Costo | Da prioridad a un mayor ahorro de costos. Ideal para cargas de trabajo de gran volumen y sensibles al presupuesto |
Subconjunto de modelos
La versión más reciente del enrutador de modelos admite subconjuntos de modelos: puede especificar qué modelos subyacentes incluir en las decisiones de enrutamiento. Esto le proporciona más control sobre las características de costo, cumplimiento y rendimiento.
Cuando los nuevos modelos base estén disponibles, no se incluyen en la selección a menos que los agregue explícitamente a la lista de inclusión de la implementación.
Conmutación por error automática
El modelo de enrutador ahora ofrece conmutación automática por error integrada. Cuando se usa la implementación predeterminada para enrutar a todos los modelos admitidos, el enrutador de modelos redirige de forma transparente la solicitud al siguiente modelo más adecuado, por lo que los problemas transitorios con cualquier modelo único no interrumpen la aplicación. La conmutación por error está habilitada de forma predeterminada; no se requiere ninguna configuración adicional.
Para configuraciones de implementación personalizadas:
- El modo de enrutamiento seleccionado (Equilibrado, Costo, o Calidad) continúa aplicándose durante un fallo del sistema.
- El subconjunto de modelos configurado también funciona como conjunto de reserva para evitar que las indicaciones se procesen mediante modelos no aprobados. Por lo tanto, asegúrese de seleccionar subconjuntos de modelo con al menos dos modelos para beneficiarse de la funcionalidad de reserva.
Almacenamiento en caché de mensajes
El enrutador de modelos admite el almacenamiento en caché de solicitudes, ya que las solicitudes las procesan los modelos subyacentes que lo permiten. Cuando el enrutador de modelos delega una solicitud a un modelo que admite el almacenamiento en caché de mensajes, los tokens almacenados en caché se usan automáticamente, no se necesita ninguna configuración adicional.
El comportamiento de la caché depende del modelo subyacente que selecciona el enrutador para una solicitud determinada. Dado que las decisiones de enrutamiento pueden variar, las ventajas de almacenamiento en caché solo se aplican cuando el mismo modelo controla solicitudes consecutivas con prefijos de aviso superpuestos.
Para obtener más información sobre cómo funciona el almacenamiento en caché de solicitudes y qué modelos lo admiten, consulte Almacenamiento en caché de mensajes.
Limitaciones
Limitaciones de recursos
| Región | Tipos de implementación admitidos |
|---|---|
| Este de EE. UU. 2 | Estándar global, estándar de zona de datos |
| Centro de Suecia | Estándar global, estándar de zona de datos |
Consulte también Azure OpenAI en modelos de Microsoft Foundry para obtener disponibilidad de la región actual.
Para superar los límites de la ventana de contexto y los parámetros, use la característica Subconjunto de modelos para seleccionar los modelos para el enrutamiento que admitan las propiedades deseadas.
Nota
El límite de la ventana de contexto que se muestra para el enrutador de modelos es el límite del modelo subyacente más pequeño. Otros modelos subyacentes son compatibles con ventanas de contexto más grandes, lo que significa que una llamada API con un contexto mayor solo se realizará correctamente si la solicitud se enruta al modelo correcto. Para revisar las ventanas de contexto de los modelos subyacentes, consulte Azure OpenAI en los modelos Foundry de Microsoft.
Para acortar la ventana de contexto, puede realizar una de las acciones siguientes:
- Resumir el mensaje antes de pasarlo al modelo
- Truncado de la indicación en partes más relevantes
- Use incrustaciones de documentos y haga que el modelo de chat recupere las secciones pertinentes. Para obtener más información, vea ¿Qué es Búsqueda de Azure AI?
Niveles de cuota
Los límites de escala del enrutador de modelos dependen del nivel de uso de tu suscripción. Para obtener información sobre cómo funcionan los niveles, consulte Niveles de cuota.
| Nivel | GlobalStandard RPM | GlobalStandard TPM | DataZoneStandard RPM | DataZoneStandard TPM |
|---|---|---|---|---|
| Nivel 1 | 1,000 | 1.000.000 | 300 | 300,000 |
| Nivel 2 | 2.000 | 2,000,000 | 670 | 670.000 |
| Nivel 3 | 4,000 | 4,000,000 | 1,000 | 1.000.000 |
| Nivel 4 | 7,000 | 7,000,000 | 2.000 | 2,000,000 |
| Nivel 5 | 10 000 | 10,000,000 | 3,000 | 3,000,000 |
| Nivel 6 | 15,000 | 15.000.000 | 4,000 | 4,000,000 |
Para obtener información sobre otros límites de velocidad, consulte Cuotas y límites.
El enrutador de modelos acepta entradas de imagen para chats habilitados para Vision (todos los modelos subyacentes pueden aceptar entradas de imagen), pero la decisión de enrutamiento se basa solo en la entrada de texto.
El enrutador del modelo no procesa la entrada de audio.
Solución de problemas
| Problema | Resolución |
|---|---|
| Error en la implementación | Compruebe que el recurso de Foundry esté en Este de EE. UU. 2 o Centro de Suecia. |
| Los modelos de Claude no se están enrutando | Asegúrese de que los modelos de Claude se implementan por separado antes de habilitar en el enrutador del modelo. |
| Error de contexto superado | Reduzca el tamaño del prompt o utilice un subconjunto de modelos para seleccionar modelos con ventanas de contexto más amplias. |
| Selección inesperada de modelos | Revise la configuración del modo de enrutamiento (Equilibrado, Costo, Calidad) y la configuración del subconjunto del modelo. |
Para obtener información detallada sobre la solución de problemas de implementación, consulte Uso del enrutador de modelos.
Información de facturación
El uso de modelos de enrutador se cobra por las indicaciones de entrada a la tarifa que aparece en la página de precios.
Puede monitorear los costos de la implementación del enrutador modelo en el portal de Azure.