Azure OpenAI con cuotas y límites de modelos de Microsoft Foundry en Azure Government

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI en Azure Government.

Ámbito de cuota

Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción de Azure.

Asignación de cuota regional

Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Por ejemplo, si el gpt-4.1 modelo Estándar de DataZone aparece con una cuota de 5 millones de TPM y 5000 RPM, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos distribuidas entre varias regiones.

Niveles de cuota

En Azure Government, no se admiten niveles de cuota ni ajustes automáticos en la cuota. En su lugar, proporcionamos dos niveles, incluido un nivel Predeterminado y un nivel Enterprise para los clientes con un Contrato Enterprise.

¿Puedo solicitar más cuota?

Sí, con el formulario de solicitud de cuota de Azure Gov , siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.

Referencia de cuota de Azure Government

Tokens estándar por minuto (TPM) de DataZone

Nombre del modelo TPM predeterminado TPM de empresa
gpt-5.1 300,000 1,000,000
gpt4.1 300,000 2,000,000
gpt-4.1-mini 300,000 2,000,000
gpt-4o 300,000 10.000.000
o3-mini 200,000 200,000

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:

  • Implemente la lógica de reintento en la aplicación.
  • Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
  • Pruebe diferentes patrones de aumento de carga.
  • Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Límites de capacidad de cuota regional

Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.

Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, un model_name y un model_version, y la API devolverá la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de su suscripción.

Nota

Actualmente, tanto el portal de Foundry como la API de capacidad devuelven la información de cuota/capacidad para los modelos que están retirados y ya no están disponibles.