Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI en Azure Government.
Ámbito de cuota
Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción de Azure.
Asignación de cuota regional
Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.
Por ejemplo, si el gpt-4.1 modelo Estándar de DataZone aparece con una cuota de 5 millones de TPM y 5000 RPM, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos distribuidas entre varias regiones.
Niveles de cuota
En Azure Government, no se admiten niveles de cuota ni ajustes automáticos en la cuota. En su lugar, proporcionamos dos niveles, incluido un nivel Predeterminado y un nivel Enterprise para los clientes con un Contrato Enterprise.
¿Puedo solicitar más cuota?
Sí, con el formulario de solicitud de cuota de Azure Gov , siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.
Referencia de cuota de Azure Government
Tokens estándar por minuto (TPM) de DataZone
| Nombre del modelo | TPM predeterminado | TPM de empresa |
|---|---|---|
| gpt-5.1 | 300,000 | 1,000,000 |
| gpt4.1 | 300,000 | 2,000,000 |
| gpt-4.1-mini | 300,000 | 2,000,000 |
| gpt-4o | 300,000 | 10.000.000 |
| o3-mini | 200,000 | 200,000 |
Procedimientos recomendados generales para permanecer dentro de los límites de velocidad
Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:
- Implemente la lógica de reintento en la aplicación.
- Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
- Pruebe diferentes patrones de aumento de carga.
- Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.
Límites de capacidad de cuota regional
Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.
Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, un model_name y un model_version, y la API devolverá la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de su suscripción.
Nota
Actualmente, tanto el portal de Foundry como la API de capacidad devuelven la información de cuota/capacidad para los modelos que están retirados y ya no están disponibles.
Contenido relacionado
- Explore cómo administrar la cuota de las implementaciones de Azure OpenAI.
- Obtenga más información sobre los modelos subyacentes que impulsan Azure OpenAI.