Cuotas y límites de los modelos de Foundry de Microsoft

En este artículo se proporciona una referencia rápida y una descripción detallada de las cuotas y límites de Foundry Models vendidos por Azure. Para ver cuotas y límites específicos de la Azure OpenAI en Foundry Models, consulte Quotas y límites en Azure OpenAI.

Actualizaciones de la administración de cuotas después del 07/05/2026

Microsoft Foundry está introduciendo una actualización de la administración de cuotas para aportar coherencia y previsibilidad a la forma en que se administra la cuota en las implementaciones. A partir de Realtime Translate y Realtime Whisper, se realiza un seguimiento de la cuota de las implementaciones en el nivel de suscripción( compartida en todos los recursos y regiones), en lugar de asignarse por separado por recurso o por región.

Este cambio consolida la cuota en grupos compartidos:

  • Estándar global: las implementaciones del mismo modelo y versión comparten un grupo de cuotas en todas las regiones de una suscripción.
  • Estándar de zona de datos: las implementaciones del mismo modelo y versión comparten un grupo de cuotas por zona de datos (por ejemplo, EE. UU. o UE).

¿Qué está cambiando para mí?

Para los modelos que se incorporan al nuevo sistema de administración de cuotas:

  • Todas las implementaciones estándar globales del mismo modelo y versión bajo una suscripción ahora utilizan un único grupo de cuotas compartidas entre todas las regiones.
  • Todas las implementaciones de Data Zone Standard del mismo modelo y versión en una suscripción ahora se extraen de un grupo de cuotas compartido en cada zona de datos.
  • La cuota aprobada existente se conserva y se aplica automáticamente en el nivel de suscripción; no se requiere ninguna acción.

Esta consolidación permite que Microsoft Foundry ofrezca modelos admitidos de forma coherente en todas las regiones de Foundry, independientemente de cómo se distribuya la cuota entre recursos o regiones.

Importante

La administración de cuotas actualizada solo se aplica actualmente a Realtime Translate y Realtime Whisper. Para todos los demás modelos de Foundry descritos en este artículo, las cuotas y los límites se administran por región, por suscripción y por modelo o tipo de implementación. En el futuro, estas directrices de cuota también se aplicarán a algunos modelos existentes y a los nuevos lanzamientos de Foundry Model.

Referencia sobre cuotas y límites

En las secciones siguientes se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a foundry Models. Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción de Azure. Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Límites de recursos (por suscripción Azure, por región)

Nombre del límite Valor de límite
Recursos de fundición por región por suscripción de Azure 100
Número máximo de proyectos por recurso 250
Número máximo de implementaciones por recurso (implementaciones de modelo dentro de un recurso Foundry) 32

Límites de velocidad

En la tabla siguiente se enumeran los límites de Foundry Models para las siguientes tasas.

  • Tokens por minuto
  • Solicitudes por minuto
  • Solicitud simultánea
Modelos Tokens por minuto Solicitudes por minuto Solicitudes simultáneas
modelos de OpenAI de Azure Varía según el modelo y la SKU. Consulte límites para Azure OpenAI. Varía según el modelo y la SKU. Consulte límites para Azure OpenAI. Varía. Consulte Límites de Azure OpenAI.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Instruct
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro no aplicable - Bajo (valor predeterminado): 15
- Medio: 30
- Alto (Corporativo): 100
no aplicable
- Flux-Pro 1.1
- Flux.1-Kontext Pro
no aplicable 2 unidades de capacidad (6 solicitudes por minuto) no aplicable
Resto de modelos 400,000 1,000 300

Para aumentar la cuota, utilice Microsoft Foundry Service: Solicitud de aumento de cuota para enviar su solicitud. Debido a la alta demanda, las solicitudes para aumentar la cuota se evalúan individualmente. Para obtener más información sobre las solicitudes de aumento de cuota, consulte Aumentos de solicitudes a los límites predeterminados.

Otros límites

Nombre del límite Valor de límite
Número máximo de encabezados personalizados en solicitudesde API 1 10

1 Las API actuales permiten hasta 10 encabezados personalizados, que el proceso de trabajo transmite y devuelve. Si supera este recuento de encabezados, la solicitud genera un error HTTP 431. Para resolver este error, reduzca el volumen de encabezado. Las versiones futuras de api no pasarán por encabezados personalizados. No dependa de encabezados personalizados en futuras arquitecturas del sistema.

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure para enrutar dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Esta infraestructura permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver más variabilidades en la latencia de respuesta.

El límite de uso determina el nivel de uso más allá del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo y es el total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.

Solicitar aumentos a los límites predeterminados

Envíe el formulario de solicitud de aumento de cuota para solicitar aumentos de cuota para Foundry Models comercializados por Azure, modelos de Azure OpenAI y modelos de Anthropic. A excepción de los modelos de Anthropic, los modelos de socios y de la comunidad no admiten aumentos de cuota.

Las solicitudes de aumento de cuota se procesan en el orden en que se reciben y la prioridad va a los clientes que usan activamente su asignación de cuota existente. Es posible que se denieguen las solicitudes que no cumplen esta condición.

Procedimientos recomendados generales para mantenerse dentro de los límites de velocidad

Para minimizar los problemas relacionados con los límites de velocidad, use las técnicas siguientes:

  • Implemente la lógica de reintento en la aplicación.
  • Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
  • Pruebe diferentes patrones de aumento de carga.
  • Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Establecimiento del tiempo de espera del lado cliente

Establezca el tiempo de espera del lado cliente explícitamente en función de las instrucciones siguientes.

Nota

Si no se establece explícitamente, el tiempo de espera del cliente depende de la biblioteca utilizada y podría no coincidir con los límites indicados anteriormente.

  • Modelos de razonamiento (modelos que generan tokens de razonamiento intermedios antes de generar una respuesta resumida): hasta 29 minutos.
  • Modelos sin razonamiento:
    • Para streaming, hasta 60 segundos.
    • Para las solicitudes que no son de streaming, hasta 29 minutos.

29 minutos aquí no significa que todas las solicitudes tarden 29 minutos, sino en función de los tokens de contexto, los tokens generados y las tasas de aciertos de caché, las solicitudes pueden tardar hasta 29 minutos.

Establezca un tiempo de espera menor que estos valores, optimizados para los patrones de tráfico.

Para los modelos de razonamiento, incluidas las solicitudes de streaming, primero se generan todos los tokens de razonamiento y, a continuación, se resumen antes de devolver el primer token de respuesta al usuario.

Puede modificar el parámetro de esfuerzo de razonamiento para controlar el número de tokens de razonamiento generados en el proceso.

Solución de problemas

Síntoma Causa Resolución
HTTP 429 Demasiadas solicitudes Se superó el límite de token por minuto o solicitud por minuto Implemente la lógica de reintento con retroceso exponencial. Use el valor del encabezado Retry-After.
Campos de encabezado de solicitud HTTP 431 demasiado grandes Más de 10 encabezados personalizados enviados Reduzca los encabezados personalizados a 10 o menos.
La página de cuota muestra 0 disponibles Suscripción o cuota regional totalmente asignada Mueva la cuota no utilizada de otro despliegue. Para aumentar el límite, solicite un aumento de cuota.
Modelo no disponible en la región El modelo no se implementa ni se admite en la región seleccionada Compruebe la disponibilidad del modelo y elija una región disponible.