Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI.
Ámbito de cuota
Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción Azure.
Asignación de cuota regional
Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.
Por ejemplo, si el modelo gpt-4.1 Global Standard aparece con una cuota de 5 millones de TPM y 5 000 RPM, entonces, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos repartidos entre varias regiones.
Niveles de cuota
Estamos introduciendo niveles de cuota para mejorar la experiencia de los modelos de Foundry y reducir la fricción a medida que se escalan las cargas de trabajo. Las cuotas ahora aumentarán automáticamente con el uso, lo que ayuda a evitar errores de límite de velocidad al mismo tiempo que crean un entorno más justo para todos los usuarios. Siete niveles estarán disponibles: Nivel gratis y Niveles 1 a 6, con el nivel 6 que ofrece las cuotas más altas. El nivel inicial asignado de un cliente se basa en su uso actual de dicho modelo y su relación actual con Microsoft, como el estado del contrato Enterprise Agreement (EA o MCA-E).
¿Qué está cambiando para mí?
Antes, Foundry ofrecía únicamente los niveles de cuota Predeterminado y Enterprise para el tipo de oferta de pago por uso, con una gran brecha entre ellos y un proceso más largo para solicitar aumentos. Con los niveles de cuota, a todos los usuarios se les asigna un nivel con cuotas iguales o superiores a sus niveles anteriores. Los aumentos de cuota aprobados anteriormente se conservan y no se reducen. A medida que aumenta el uso, Foundry aumenta automáticamente las cuotas moviendo los usuarios a niveles superiores y se puede solicitar cuota adicional a través del formulario de cuota.
¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel?
Las actualizaciones automáticas de nivel se basan principalmente en las tendencias de consumo de los clientes en Modelos Foundry a lo largo del tiempo. Si el uso de un cliente aumenta de modo que su nivel de cuota actual limita su capacidad de usar Foundry Models, el sistema actualizará automáticamente al cliente al siguiente nivel superior. También se tiene en cuenta la relación de un cliente con Microsoft. A los clientes con relaciones empresariales (incluidos EA y MCA-E) con Microsoft se les asignan niveles de cuota superiores. Además, Microsoft también considerará el historial de pagos de un cliente para determinar la idoneidad de las actualizaciones automáticas.
¿Puedo rechazar las actualizaciones automáticas?
Sí, puede no participar en las actualizaciones automáticas y permanecerá en el nivel actual independientemente de los cambios en el consumo. Reconocemos que algunos de nuestros clientes usan cuota para administrar su facturación. Esto no es el procedimiento recomendado Azure, sin embargo, entendemos que si el sistema está configurado de esa manera no queremos interrumpirlo. Puede obtener más información sobre la administración de facturación y los procedimientos recomendados aquí: Cost Management.
Para no participar, puede establecer la siguiente marca en NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Nota
La característica de exclusión es una versión preliminar y puede estar sujeta a cambios o eliminación en el futuro.
¿Puedo solicitar más cuota?
Sí, con el formulario de solicitud de cuota siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.
¿Cómo puedo comprobar el nivel de cuota de mi suscripción?
Actualmente puede comprobar el nivel de cuota con la API del plano de control:
curl -X GET \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
Referencia de nivel de cuota
Nivel 1
| Nombre del modelo | Tipo de implementación | Solicitudes por minuto (RPM) | Tokens por minuto (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| vista previa del uso de la computadora | GlobalStandard | 4,500 | 450.000 |
| gpt-4.1 | DataZoneStandard | 300 | 300,000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4.1-mini | Estándar | 6,000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300 / 10 segundos | 300,000 |
| Vista preliminar de audio de gpt-4o | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10.000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20,000 | 2,000,000 |
| gpt-4o-mini-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-4o-vista-previa-en-tiempo-real | GlobalStandard | 36 | 6,000 |
| gpt-5 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300,000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1,600 | 160,000 |
| gpt-5.1 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1 | Estándar | 3,000 | 300,000 |
| gpt-5.1-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.2 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300,000 |
| gpt-5.4 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160,000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5.5 | DataZoneStandard | 0 | 0 |
| gpt-5.5 | GlobalStandard | 0 | 0 |
| gpt-chat-latest | GlobalStandard | 10.000 | 1,000,000 |
| gpt-audio | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-image-2 | DataZoneStandard | 2 | - |
| gpt-image-2 | GlobalStandard | 6 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | 300 | 300,000 |
| model-router | GlobalStandard | 1,000 | 1,000,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | 500 | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300,000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| o3-deep-research | GlobalStandard | 3,000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1,600,000 |
| o4-mini | DataZoneStandard | 300 / 10 segundos | 300,000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | GlobalStandard | 1000 / 10 s | 1,000,000 |
| text-embedding-3-small | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-small | GlobalStandard | 1000 / 10 s | 1,000,000 |
Referencia de cuotas y límites
En la sección siguiente se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:
| Nombre del límite | Valor de límite |
|---|---|
| Recursos de Azure OpenAI por región, para cada suscripción de Azure | 30. |
| Límites de cuota predeterminados de GPT-image-1 | 9 solicitudes por minuto |
| Límites de cuota predeterminados de GPT-image-1-mini | 12 solicitudes por minuto |
| Límites de cuota predeterminados de GPT-image-1.5 | 9 solicitudes por minuto |
| Límites de cuota predeterminados de GPT-image-2 | 9 solicitudes por minuto |
| Límites de cuota predeterminados de Sora | 60 solicitudes por minuto. |
| Límites de cuota predeterminados de Sora 2 | 2 solicitudes de trabajo1 por minuto |
| Límites predeterminados de cuota de la API de audio de voz a texto | 3 solicitudes por minuto. |
| Número máximo de tokens de mensaje por solicitud | Varía según el modelo. Para obtener más información, consulte modelos de Azure OpenAI. |
| Implementaciones estándar máximas por recurso | 32. |
| Despliegues máximos de modelos afinados | 10. |
| Número total de trabajos de entrenamiento por recurso | 100. |
| Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso | Formación estándar y global: 3; Formación para desarrolladores: 5 |
| Máximo de trabajos de entrenamiento en cola | 20. |
| Máximo de archivos por recurso (ajuste preciso) | 100. |
| Tamaño total de todos los archivos por recurso (ajuste preciso) | 1 GB. |
| Tiempo máximo de ejecución del entrenamiento (el trabajo fallará si se excede) | 720 horas. |
Tamaño máximo del trabajo de entrenamiento (tokens in training file) x (# of epochs) |
2 mil millones. |
| Tamaño máximo de todos los archivos por subida (Azure OpenAI en tus datos) | 16 MB. |
Número máximo de entradas en la matriz con /embeddings |
2,048. |
Número máximo de tokens por solicitud a /embeddings (suma de todas las entradas) |
300,000. |
Número máximo de /chat/completions mensajes |
2,048. |
Número máximo de /chat/completions funciones |
128. |
Número máximo de /chat/completions herramientas |
128. |
| Número máximo de unidades de rendimiento aprovisionadas por implementación | 100,000. |
| Número máximo de archivos por asistente o subproceso | 10 000 al usar la API o el portal de Microsoft Foundry. |
| Tamaño máximo de archivo para asistentes y ajuste preciso | 512 MB a través de la API 200 MB a través del portal de Foundry. |
| Número máximo de solicitudes de carga de archivos por recurso | 30 solicitudes por segundo. |
| Tamaño máximo para todos los archivos cargados para asistentes | 200 GB. |
| Límite de tokens de asistentes | Límite de 2000 000 tokens. |
GPT-4o y GPT-4.1 las imágenes máximas por solicitud (número de imágenes en la matriz de mensajes o el historial de conversaciones) |
50. |
Los tokens máximos predeterminadosGPT-4 vision-preview y GPT-4 turbo-2024-04-09 |
16. Aumente el valor del max_tokens parámetro para evitar respuestas truncadas.
GPT-4o el valor predeterminado de los tokens máximos es 4096. |
| Número máximo de encabezados personalizados en solicitudes de API2 | 10. |
| Límite de caracteres de mensaje | 1,048,576. |
| Tamaño del mensaje para archivos de audio | 20 MB. |
1 La cuota de Sora 2 RPM solo cuenta las peticiones de trabajos de vídeo. Otros tipos de solicitudes no están sujetos a limitación de frecuencia.
2 Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que produce errores HTTP 431. No hay ninguna solución para este error, aparte de reducir el volumen de encabezados. En futuras versiones de API, no pasaremos por encabezados personalizados. Se recomienda que los clientes no dependan de encabezados personalizados en futuras arquitecturas del sistema.
Nota
Los límites de cuota están sujetos a cambios.
Límites de lote
| Nombre del límite | Valor de límite |
|---|---|
| Número máximo de archivos de entrada de Batch: (sin expiración) | 500 |
| Número máximo de archivos de entrada de Batch: (expiración establecida) | 10.000 |
| Tamaño máximo de archivo de entrada | 200 MB |
| Tamaño máximo de archivo de entrada: Traiga su propio almacenamiento (BYOS) | 1 GB |
| Número máximo de solicitudes por archivo | 100,000 |
Nota
Los límites de archivos por lotes no se aplican a los archivos de salida (por ejemplo, result.jsonl, y error.jsonl). Para quitar límites de archivos de entrada por lotes, use Batch con Azure Blob Storage.
Cuota por lotes
En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para el procesamiento por lotes, se cuenta el número de tokens del archivo. Hasta que el trabajo por lotes alcance un estado de terminal, esos tokens cuentan para el límite total de tokens en cola.
Lote global
| Modelo | Enterprise y MCA-E | Valor predeterminado | Suscripciones mensuales basadas en tarjetas de crédito | Suscripciones de MSDN | Azure para estudiantes, pruebas gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200 millones | 50 M | 90 000 | N/A |
gpt-4.1 mini |
15B | 1B | 50 M | 90 000 | N/A |
gpt-4.1-nano |
15B | 1B | 50 M | 90 000 | N/A |
gpt-4o |
5B | 200 millones | 50 M | 90 000 | N/A |
gpt-4o-mini |
15B | 1B | 50 M | 90 000 | N/A |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 000 | N/A |
gpt-4 |
150 M | 30 M | 5 M | 100 000 | N/A |
o3-mini |
15B | 1B | 50 M | 90 000 | N/A |
o4-mini |
15B | 1B | 50 M | 90 000 | N/A |
gpt-5 |
5B | 200 millones | 50 M | 90 000 | N/A |
gpt-5.1 |
5B | 200 millones | 50 M | 90 000 | N/A |
B = mil millones | M = millones | K = mil
Conjunto de área de datos
| Modelo | Enterprise y MCA-E | Valor predeterminado | Suscripciones mensuales basadas en tarjetas de crédito | Suscripciones de MSDN | Azure para estudiantes, pruebas gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
500 M | 30 M | 30 M | 90 000 | N/A |
gpt-4.1-mini |
1 500 millones | 100 M | 50 M | 90 000 | N/A |
gpt-4o |
500 M | 30 M | 30 M | 90 000 | N/A |
gpt-4o-mini |
1 500 millones | 100 M | 50 M | 90 000 | N/A |
o3-mini |
1 500 millones | 100 M | 50 M | 90 000 | N/A |
gpt-5 |
5B | 200 millones | 50 M | 90 000 | N/A |
gpt-5.1 |
5B | 200 millones | 50 M | 90 000 | N/A |
gpt-oss
| Modelo | Tokens por minuto (TPM) | Solicitudes por minuto (RPM) |
|---|---|---|
gpt-oss-120b |
5 millones | 5 K |
Niveles de uso
Las implementaciones estándar globales usan la infraestructura global de Azure. Enrutan dinámicamente el tráfico del cliente al centro de datos con la mejor disponibilidad para sus solicitudes de inferencia. De forma similar, las implementaciones estándar de zona de datos permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esta práctica permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver una mayor variabilidad en la latencia de respuesta.
Los niveles de uso de Azure OpenAI están diseñados para proporcionar un rendimiento coherente para la mayoría de los clientes con niveles de tráfico bajos a medios. Cada nivel de uso define el rendimiento máximo (tokens por minuto) que puede esperar con una latencia predecible. Cuando el uso permanece dentro del nivel asignado, la latencia permanece estable y los tiempos de respuesta son coherentes.
¿Qué ocurre si supera el nivel de uso?
- Si el rendimiento de la solicitud supera el nivel de uso (especialmente durante períodos de alta demanda), la latencia de respuesta puede aumentar significativamente.
- La latencia puede variar y, en algunos casos, puede ser más de dos veces mayor que cuando se trabaja dentro del nivel de uso.
- Esta variabilidad es más notable para los clientes con un uso sostenido elevado o patrones de tráfico intermitentes.
Acciones recomendadas si supera el nivel de uso
Si encuentra errores 429 o observa una mayor variabilidad de latencia, esto es lo que debe hacer:
- Solicitar un aumento de cuota: visite el portal de Azure para solicitar una cuota mayor para la suscripción.
- Considere la posibilidad de actualizar a una oferta premium (PTU): para cargas de trabajo de gran volumen o latencia crítica, actualice a unidades de procesamiento aprovisionadas (PTU). PTU proporciona recursos dedicados, capacidad garantizada y latencia predecible, incluso a escala. Esta es la mejor opción para las aplicaciones críticas que requieren un rendimiento coherente.
- Supervisión del uso: revise periódicamente las métricas de uso en el portal de Azure para asegurarse de que está trabajando dentro de los límites del nivel. Ajuste la carga de trabajo o la estrategia de implementación según sea necesario.
Es posible que reciba respuestas 429 (demasiadas solicitudes), incluso cuando las métricas de uso de tokens aparecen por debajo de la cuota. Para obtener una explicación de por qué ocurre esto, consulte Por qué puede ver códigos de estado 429 incluso cuando las métricas de uso de tokens están por debajo de la cuota.
El límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo. Es el número total de tokens consumidos en todas las implementaciones de todas las suscripciones y todas las regiones para un cliente determinado.
Nota
Los niveles de uso solo se aplican a los tipos de implementación Estándar, Estándar de zona de datos y Estándar global. Los niveles de uso no se aplican a las implementaciones globales de rendimiento por lotes y aprovisionadas.
Estándar global, estándar de zona de datos y estándar
| Modelo | Niveles de uso por mes |
|---|---|
gpt-5 |
32 000 millones de tokens |
gpt-5-mini |
160 mil millones de tokens |
gpt-5-nano |
800 mil millones de tokens |
gpt-5-chat |
32 000 millones de tokens |
gpt-4
+
gpt-4-32k (todas las versiones) |
6 mil millones de tokens |
gpt-4o |
12 mil millones de tokens |
gpt-4o-mini |
85 000 millones de tokens |
o3-mini |
50 000 millones de tokens |
o1 |
4 mil millones de tokens |
o4-mini |
50 000 millones de tokens |
o3 |
5 mil millones de tokens |
gpt-4.1 |
30 000 millones de tokens |
gpt-4.1-mini |
150 mil millones de tokens |
gpt-4.1-nano |
550 mil millones de tokens |
Procedimientos recomendados generales para permanecer dentro de los límites de velocidad
Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:
- Implemente la lógica de reintento en la aplicación.
- Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
- Pruebe diferentes patrones de aumento de carga.
- Aumente la cuota asignada a la implementación. Mueva la cuota de otro despliegue, si es necesario.
Para conocer procedimientos recomendados, ejemplos de código de reintento con retroceso y una guía de solución de errores 429, consulte Administración de Azure OpenAI en la cuota de modelos de Microsoft Foundry.
Solicitar aumentos de cuota
Envíe el formulario de solicitud de aumento de cuota para solicitar aumentos de cuota para Foundry Models comercializados por Azure, modelos de Azure OpenAI y modelos de Anthropic. A excepción de los modelos de Anthropic, los modelos de socios y de la comunidad no admiten aumentos de cuota.
Las solicitudes de aumento de cuota se procesan en el orden en que se reciben y la prioridad va a los clientes que usan activamente su asignación de cuota existente. Es posible que se denieguen las solicitudes que no cumplen esta condición.
Límites de capacidad de cuota regional
Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.
Para comprobar la cuota y la capacidad mediante programación, consulte Comprobación mediante programación de la cuota y la capacidad en la guía de administración de cuotas. En esta sección se tratan dos API REST complementarias: la API usages para comprobar el consumo con respecto a los límites y la API Model Capacitys para comprobar la capacidad de implementación disponible por modelo y región.
Nota
Actualmente, tanto el portal de Foundry como las API de capacidad devuelven la cuota y la información de capacidad de los modelos que se retiran y ya no están disponibles para las nuevas implementaciones.
Contenido relacionado
- Explore cómo administrar cuota para las implementaciones de OpenAI de Azure.
- Obtenga más información sobre los modelos subyacentes que impulsan Azure OpenAI.