Azure OpenAI con cuotas y límites de modelos de Microsoft Foundry en Azure Government

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI en Azure Government.

Ámbito de cuota

Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción de Azure.

Asignación de cuota regional

Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Por ejemplo, si el gpt-4.1 modelo Estándar de DataZone aparece con una cuota de 5 millones de TPM y 5000 RPM, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos distribuidas entre varias regiones.

Niveles de cuota

En Azure Government, no se admiten niveles de cuota ni ajustes automáticos en la cuota. En su lugar, proporcionamos dos niveles, incluido un nivel Predeterminado y un nivel Enterprise para los clientes con un Contrato Enterprise.

¿Puedo solicitar más cuota?

Sí, con el formulario de solicitud de cuota de Azure Gov , siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.

Tokens estándar por minuto (TPM) de DataZone

Nombre del modelo	TPM predeterminado	TPM de empresa
gpt-5.1	300,000	1,000,000
gpt4.1	300,000	2,000,000
gpt-4.1-mini	300,000	2,000,000
gpt-4o	300,000	10.000.000
o3-mini	200,000	200,000

Tokens estándar por minuto (TPM)

Nombre del modelo	TPM predeterminado	TPM de empresa
gpt4.1	300,000	2,000,000
gpt-4.1-mini	300,000	2,000,000
gpt-4o	80,000	80,000
text-embedding-3-large	350,000	350,000
text-embedding-3-small	350,000	350,000
text-embedding-ada-002	350,000	350,000

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:

Implemente la lógica de reintento en la aplicación.
Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
Pruebe diferentes patrones de aumento de carga.
Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Límites de capacidad de cuota regional

Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.

Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, un model_name y un model_version, y la API devolverá la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de su suscripción.

Nota

Actualmente, tanto el portal de Foundry como la API de capacidad devuelven la información de cuota/capacidad para los modelos que están retirados y ya no están disponibles.

Explore cómo administrar la cuota de las implementaciones de Azure OpenAI.
Obtenga más información sobre los modelos subyacentes que impulsan Azure OpenAI.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-29