Cuotas y límites de Azure OpenAI en Microsoft Foundry Models

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI.

Ámbito de cuota

Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción Azure.

Asignación de cuota regional

Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Por ejemplo, si el modelo gpt-4.1 Global Standard aparece con una cuota de 5 millones de TPM y 5 000 RPM, entonces, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos repartidos entre varias regiones.

Niveles de cuota

Estamos introduciendo niveles de cuota para mejorar la experiencia de los modelos de Foundry y reducir la fricción a medida que se escalan las cargas de trabajo. Las cuotas ahora aumentarán automáticamente con el uso, lo que ayuda a evitar errores de límite de velocidad al mismo tiempo que crean un entorno más justo para todos los usuarios. Siete niveles estarán disponibles: Nivel gratis y Niveles 1 a 6, con el nivel 6 que ofrece las cuotas más altas. El nivel inicial asignado de un cliente se basa en su uso actual de dicho modelo y su relación actual con Microsoft, como el estado del contrato Enterprise Agreement (EA o MCA-E). 

¿Qué está cambiando para mí?

Antes, Foundry ofrecía únicamente los niveles de cuota Predeterminado y Enterprise para el tipo de oferta de pago por uso, con una gran brecha entre ellos y un proceso más largo para solicitar aumentos. Con los niveles de cuota, a todos los usuarios se les asigna un nivel con cuotas iguales o superiores a sus niveles anteriores. Los aumentos de cuota aprobados anteriormente se conservan y no se reducen. A medida que aumenta el uso, Foundry aumenta automáticamente las cuotas moviendo los usuarios a niveles superiores y se puede solicitar cuota adicional a través del formulario de cuota.

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel? 

Las actualizaciones automáticas de nivel se basan principalmente en las tendencias de consumo de los clientes en Modelos Foundry a lo largo del tiempo. Si el uso de un cliente aumenta de modo que su nivel de cuota actual limita su capacidad de usar Foundry Models, el sistema actualizará automáticamente al cliente al siguiente nivel superior. También se tiene en cuenta la relación de un cliente con Microsoft. A los clientes con relaciones empresariales (incluidos EA y MCA-E) con Microsoft se les asignan niveles de cuota superiores. Además, Microsoft también considerará el historial de pagos de un cliente para determinar la idoneidad de las actualizaciones automáticas. 

¿Puedo rechazar las actualizaciones automáticas?

Sí, puede no participar en las actualizaciones automáticas y permanecerá en el nivel actual independientemente de los cambios en el consumo. Reconocemos que algunos de nuestros clientes usan cuota para administrar su facturación. Esto no es el procedimiento recomendado Azure, sin embargo, entendemos que si el sistema está configurado de esa manera no queremos interrumpirlo. Puede obtener más información sobre la administración de facturación y los procedimientos recomendados aquí: Cost Management.

Para no participar, puede establecer la siguiente marca en NoAutoUpgrade:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Nota

La característica de exclusión es una versión preliminar y puede estar sujeta a cambios o eliminación en el futuro.

¿Puedo solicitar más cuota?

Sí, con el formulario de solicitud de cuota siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.

¿Cómo puedo comprobar el nivel de cuota de mi suscripción?

Actualmente puede comprobar el nivel de cuota con la API del plano de control:

curl -X GET \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

import requests
import json
from azure.identity import DefaultAzureCredential


subscriptionId = "{YOUR-SUBSCRIPTION-ID}"
api_version = "2025-10-01-preview" 
base_url = "https://management.azure.com"

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {
    'Authorization': 'Bearer ' + token.token,
    'Content-Type': 'application/json'
}


list_url = (
    f"{base_url}/subscriptions/{subscriptionId}"
    f"/providers/Microsoft.CognitiveServices/quotaTiers"
    f"?api-version={api_version}"
)

response = requests.get(list_url, headers=headers)
print(json.dumps(response.json(), indent=2))

{
  "value": [
    {
      "properties": {
        "currentTierName": "Tier 1",
        "assignmentDate": "2025-10-18T05:09:05.6334222Z",
        "tierUpgradePolicy": "OnceUpgradeIsAvailable"
      },
      "id": "/subscriptions/aaaaa-bbbbb-ccccc-dddd-eeeeeee/providers/Microsoft.CognitiveServices/quotaTiers/default",
      "name": "default",
      "type": "Microsoft.CognitiveServices/quotaTiers"
    }
  ]
}

Referencia de nivel de cuota

Nivel 1

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	1,000	1,000,000
vista previa del uso de la computadora	GlobalStandard	4,500	450.000
gpt-4.1	DataZoneStandard	300	300,000
gpt-4.1	GlobalStandard	1,000	1,000,000
gpt-4.1-mini	DataZoneStandard	2.000	2,000,000
gpt-4.1-mini	GlobalStandard	5,000	5,000,000
gpt-4.1-mini	Estándar	6,000	6,000,000
gpt-4.1-nano	DataZoneStandard	2.000	2,000,000
gpt-4.1-nano	GlobalStandard	5,000	5,000,000
gpt-4o	DataZoneStandard	300 / 10 segundos	300,000
Vista preliminar de audio de gpt-4o	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	10.000	1,000,000
gpt-4o-mini	GlobalStandard	20,000	2,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-vista-previa-en-tiempo-real	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	3,000	300,000
gpt-5	GlobalStandard	10.000	1,000,000
gpt-5-chat	GlobalStandard	1,000	1,000,000
gpt-5-codex	GlobalStandard	1,000	1,000,000
gpt-5-mini	DataZoneStandard	300	300,000
gpt-5-mini	GlobalStandard	1,000	1,000,000
gpt-5-nano	DataZoneStandard	2.000	2,000,000
gpt-5-nano	GlobalStandard	5,000	5,000,000
gpt-5-pro	GlobalStandard	1,600	160,000
gpt-5.1	DataZoneStandard	3,000	300,000
gpt-5.1	GlobalStandard	10.000	1,000,000
gpt-5.1	Estándar	3,000	300,000
gpt-5.1-chat	GlobalStandard	10.000	1,000,000
gpt-5.1-codex	DataZoneStandard	3,000	300,000
gpt-5.1-codex	GlobalStandard	1,000	1,000,000
gpt-5.1-codex-max	GlobalStandard	10.000	1,000,000
gpt-5.1-codex-mini	GlobalStandard	1,000	1,000,000
gpt-5.2	DataZoneStandard	3,000	300,000
gpt-5.2	GlobalStandard	10.000	1,000,000
gpt-5.2-chat	GlobalStandard	10.000	1,000,000
gpt-5.3-chat	GlobalStandard	1,000	1,000,000
gpt-5.2-codex	GlobalStandard	10.000	1,000,000
gpt-5.3-codex	GlobalStandard	10.000	1,000,000
gpt-5.4	DataZoneStandard	300	300,000
gpt-5.4	GlobalStandard	10.000	1,000,000
gpt-5.4-pro	GlobalStandard	160	160,000
gpt-5.4-mini	GlobalStandard	1,000	1,000,000
gpt-5.4-nano	DataZoneStandard	2.000	2,000,000
gpt-5.4-nano	GlobalStandard	5,000	5,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	10.000	1,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	9	-
gpt-image-1-mini	GlobalStandard	12	-
gpt-image-1.5	DataZoneStandard	3	-
gpt-image-1.5	GlobalStandard	9	-
gpt-image-2	DataZoneStandard	2	-
gpt-image-2	GlobalStandard	6	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	300	300,000
model-router	GlobalStandard	1,000	1,000,000
o1	DataZoneStandard	100	600,000
o1	GlobalStandard	500	3,000,000
o3	DataZoneStandard	300	300,000
o3	GlobalStandard	1,000	1,000,000
o3-deep-research	GlobalStandard	3,000	3,000,000
o3-mini	DataZoneStandard	200	2,000,000
o3-mini	GlobalStandard	500	5,000,000
o3-pro	GlobalStandard	160	1,600,000
o4-mini	DataZoneStandard	300 / 10 segundos	300,000
o4-mini	GlobalStandard	1,000	1,000,000
text-embedding-3-large	DataZoneStandard	1,000	1,000,000
text-embedding-3-large	GlobalStandard	1000 / 10 s	1,000,000
text-embedding-3-small	DataZoneStandard	1,000	1,000,000
text-embedding-3-small	GlobalStandard	1000 / 10 s	1,000,000

Nivel 2

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	2.000	2,000,000
vista previa del uso de la computadora	GlobalStandard	20,000	2,000,000
gpt-4.1	DataZoneStandard	1,000	1,000,000
gpt-4.1	GlobalStandard	3,000	3,000,000
gpt-4.1-mini	DataZoneStandard	6,000	6,000,000
gpt-4.1-mini	GlobalStandard	16,000	16,000,000
gpt-4.1-mini	Estándar	12,000	12,000,000
gpt-4.1-nano	DataZoneStandard	6,000	6,000,000
gpt-4.1-nano	GlobalStandard	16,000	16,000,000
gpt-4o	DataZoneStandard	1000 / 10 s	1,000,000
Vista preliminar de audio de gpt-4o	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	30,000	3,000,000
gpt-4o-mini	GlobalStandard	90,000	9,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-vista-previa-en-tiempo-real	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	10.000	1,000,000
gpt-5	GlobalStandard	30,000	3,000,000
gpt-5-chat	GlobalStandard	2.000	2,000,000
gpt-5-codex	GlobalStandard	2.000	2,000,000
gpt-5-mini	DataZoneStandard	670	670,000
gpt-5-mini	GlobalStandard	2.000	2,000,000
gpt-5-nano	DataZoneStandard	6,000	6,000,000
gpt-5-nano	GlobalStandard	16,000	16,000,000
gpt-5-pro	GlobalStandard	3,500	350,000
gpt-5.1	DataZoneStandard	6,700	670,000
gpt-5.1	GlobalStandard	20,000	2,000,000
gpt-5.1	Estándar	6,700	670,000
gpt-5.1-chat	GlobalStandard	20,000	2,000,000
gpt-5.1-codex	DataZoneStandard	6,700	670,000
gpt-5.1-codex	GlobalStandard	2.000	2,000,000
gpt-5.1-codex-max	GlobalStandard	20,000	2,000,000
gpt-5.1-codex-mini	GlobalStandard	2.000	2,000,000
gpt-5.2	DataZoneStandard	6,700	670,000
gpt-5.2	GlobalStandard	20,000	2,000,000
gpt-5.2-chat	GlobalStandard	20,000	2,000,000
gpt-5.3-chat	GlobalStandard	2.000	2,000,000
gpt-5.2-codex	GlobalStandard	20,000	2,000,000
gpt-5.3-codex	GlobalStandard	20,000	2,000,000
gpt-5.4	DataZoneStandard	670	670,000
gpt-5.4	GlobalStandard	20,000	2,000,000
gpt-5.4-pro	GlobalStandard	350	350,000
gpt-5.4-mini	GlobalStandard	2.000	2,000,000
gpt-5.4-nano	DataZoneStandard	6,000	6,000,000
gpt-5.4-nano	GlobalStandard	16,000	16,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	20,000	2,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	18	-
gpt-image-1-mini	GlobalStandard	27	-
gpt-image-1.5	DataZoneStandard	5	-
gpt-image-1.5	GlobalStandard	15	-
gpt-image-2	DataZoneStandard	4	-
gpt-image-2	GlobalStandard	12	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	670	670,000
model-router	GlobalStandard	2.000	2,000,000
o1	DataZoneStandard	225	1,350,000
o1	GlobalStandard	1,000	6,000,000
o3	DataZoneStandard	670	670,000
o3	GlobalStandard	2.000	2,000,000
o3-deep-research	GlobalStandard	7,000	7,000,000
o3-mini	DataZoneStandard	350	3,500,000
o3-mini	GlobalStandard	1,000	10.000.000
o3-pro	GlobalStandard	350	3,500,000
o4-mini	DataZoneStandard	670 /10s	670,000
o4-mini	GlobalStandard	2.000	2,000,000
text-embedding-3-large	DataZoneStandard	2.000	2,000,000
text-embedding-3-large	GlobalStandard	2000/10 s	2,000,000
text-embedding-3-small	DataZoneStandard	2.000	2,000,000
text-embedding-3-small	GlobalStandard	2000/10 s	2,000,000

Nivel 3

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	4,000	4.000.000
vista previa del uso de la computadora	GlobalStandard	70,000	7,000,000
gpt-4.1	DataZoneStandard	3,000	3,000,000
gpt-4.1	GlobalStandard	9,000	9,000,000
gpt-4.1-mini	DataZoneStandard	16,000	16,000,000
gpt-4.1-mini	GlobalStandard	46,000	46,000,000
gpt-4.1-mini	Estándar	30,000	30,000,000
gpt-4.1-nano	DataZoneStandard	16,000	16,000,000
gpt-4.1-nano	GlobalStandard	46,000	46,000,000
gpt-4o	DataZoneStandard	3000 / 10s	3,000,000
Vista preliminar de audio de gpt-4o	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	70,000	7,000,000
gpt-4o-mini	GlobalStandard	330,000	33.000.000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-vista-previa-en-tiempo-real	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	30,000	3,000,000
gpt-5	GlobalStandard	90,000	9,000,000
gpt-5-chat	GlobalStandard	3,000	3,000,000
gpt-5-codex	GlobalStandard	4,000	4.000.000
gpt-5-mini	DataZoneStandard	1,000	1,000,000
gpt-5-mini	GlobalStandard	4,000	4.000.000
gpt-5-nano	DataZoneStandard	16,000	16,000,000
gpt-5-nano	GlobalStandard	46,000	46,000,000
gpt-5-pro	GlobalStandard	7,000	700,000
gpt-5.1	DataZoneStandard	10.000	1,000,000
gpt-5.1	GlobalStandard	40,000	4.000.000
gpt-5.1	Estándar	10.000	1,000,000
gpt-5.1-chat	GlobalStandard	30,000	3,000,000
gpt-5.1-codex	DataZoneStandard	10.000	1,000,000
gpt-5.1-codex	GlobalStandard	4,000	4.000.000
gpt-5.1-codex-max	GlobalStandard	40,000	4.000.000
gpt-5.1-codex-mini	GlobalStandard	4,000	4.000.000
gpt-5.2	DataZoneStandard	10.000	1,000,000
gpt-5.2	GlobalStandard	40,000	4.000.000
gpt-5.2-chat	GlobalStandard	30,000	3,000,000
gpt-5.3-chat	GlobalStandard	3,000	3,000,000
gpt-5.2-codex	GlobalStandard	40,000	4.000.000
gpt-5.3-codex	GlobalStandard	40,000	4.000.000
gpt-5.4	DataZoneStandard	1,000	1,000,000
gpt-5.4	GlobalStandard	40,000	4.000.000
gpt-5.4-pro	GlobalStandard	700	700,000
gpt-5.4-mini	GlobalStandard	4,000	4.000.000
gpt-5.4-nano	DataZoneStandard	16,000	16,000,000
gpt-5.4-nano	GlobalStandard	46,000	46,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	20,000	2,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	30	-
gpt-image-1-mini	GlobalStandard	54	-
gpt-image-1.5	DataZoneStandard	10	-
gpt-image-1.5	GlobalStandard	30	-
gpt-image-2	DataZoneStandard	6	-
gpt-image-2	GlobalStandard	18	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	1,000	1,000,000
model-router	GlobalStandard	4,000	4.000.000
o1	DataZoneStandard	450	2,700,000
o1	GlobalStandard	2.000	12,000,000
o3	DataZoneStandard	1,000	1,000,000
o3	GlobalStandard	4,000	4.000.000
o3-deep-research	GlobalStandard	13,000	13.000.000
o3-mini	DataZoneStandard	900	9,000,000
o3-mini	GlobalStandard	2.000	20.000.000
o3-pro	GlobalStandard	715	7,150,000
o4-mini	DataZoneStandard	1000 / 10 s	1,000,000
o4-mini	GlobalStandard	4,000	4.000.000
text-embedding-3-large	DataZoneStandard	4,000	4.000.000
text-embedding-3-large	GlobalStandard	4000 / 10s	4.000.000
text-embedding-3-small	DataZoneStandard	4,000	4.000.000
text-embedding-3-small	GlobalStandard	4000 / 10s	4.000.000

Nivel 4

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	7,000	7,000,000
vista previa del uso de la computadora	GlobalStandard	160,000	16,000,000
gpt-4.1	DataZoneStandard	6,000	6,000,000
gpt-4.1	GlobalStandard	18,000	18.000.000
gpt-4.1-mini	DataZoneStandard	31,000	31,000,000
gpt-4.1-mini	GlobalStandard	90,000	90,000,000
gpt-4.1-mini	Estándar	75,000	75,000,000
gpt-4.1-nano	DataZoneStandard	31,000	31,000,000
gpt-4.1-nano	GlobalStandard	90,000	90,000,000
gpt-4o	DataZoneStandard	6000 / 10s	6,000,000
Vista preliminar de audio de gpt-4o	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	130,000	13.000.000
gpt-4o-mini	GlobalStandard	780,000	78,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-vista-previa-en-tiempo-real	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	60,000	6,000,000
gpt-5	GlobalStandard	180,000	18.000.000
gpt-5-chat	GlobalStandard	4,000	4.000.000
gpt-5-codex	GlobalStandard	7,000	7,000,000
gpt-5-mini	DataZoneStandard	2.000	2,000,000
gpt-5-mini	GlobalStandard	7,000	7,000,000
gpt-5-nano	DataZoneStandard	31,000	31,000,000
gpt-5-nano	GlobalStandard	90,000	90,000,000
gpt-5-pro	GlobalStandard	11,500	1,150,000
gpt-5.1	DataZoneStandard	20,000	2,000,000
gpt-5.1	GlobalStandard	70,000	7,000,000
gpt-5.1	Estándar	20,000	2,000,000
gpt-5.1-chat	GlobalStandard	40,000	4.000.000
gpt-5.1-codex	DataZoneStandard	20,000	2,000,000
gpt-5.1-codex	GlobalStandard	7,000	7,000,000
gpt-5.1-codex-max	GlobalStandard	70,000	7,000,000
gpt-5.1-codex-mini	GlobalStandard	7,000	7,000,000
gpt-5.2	DataZoneStandard	20,000	2,000,000
gpt-5.2	GlobalStandard	70,000	7,000,000
gpt-5.2-chat	GlobalStandard	40,000	4.000.000
gpt-5.3-chat	GlobalStandard	4,000	4.000.000
gpt-5.2-codex	GlobalStandard	70,000	7,000,000
gpt-5.3-codex	GlobalStandard	70,000	7,000,000
gpt-5.4	DataZoneStandard	2.000	2,000,000
gpt-5.4	GlobalStandard	70,000	7,000,000
gpt-5.4-pro	GlobalStandard	1,150	1,150,000
gpt-5.4-mini	GlobalStandard	7,000	7,000,000
gpt-5.4-nano	DataZoneStandard	31,000	31,000,000
gpt-5.4-nano	GlobalStandard	90,000	90,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-chat-latest	GlobalStandard	40,000	4.000.000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	45	-
gpt-image-1-mini	GlobalStandard	84	-
gpt-image-1.5	DataZoneStandard	15	-
gpt-image-1.5	GlobalStandard	45	-
gpt-image-2	DataZoneStandard	8	-
gpt-image-2	GlobalStandard	24	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	2.000	2,000,000
model-router	GlobalStandard	7,000	7,000,000
o1	DataZoneStandard	700	4,200,000
o1	GlobalStandard	4,000	24,000,000
o3	DataZoneStandard	2.000	2,000,000
o3	GlobalStandard	7,000	7,000,000
o3-deep-research	GlobalStandard	21,000	21,000,000
o3-mini	DataZoneStandard	1,000	10.000.000
o3-mini	GlobalStandard	4,000	40.000.000
o3-pro	GlobalStandard	1,150	11,500,000
o4-mini	DataZoneStandard	2000/10 s	2,000,000
o4-mini	GlobalStandard	7,000	7,000,000
text-embedding-3-large	DataZoneStandard	7,000	7,000,000
text-embedding-3-large	GlobalStandard	7000 / 10s	7,000,000
text-embedding-3-small	DataZoneStandard	7,000	7,000,000
text-embedding-3-small	GlobalStandard	7000 / 10s	7,000,000

Nivel 5

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	10.000	10.000.000
vista previa del uso de la computadora	GlobalStandard	300,000	30,000,000
gpt-4.1	DataZoneStandard	10.000	10.000.000
gpt-4.1	GlobalStandard	30,000	30,000,000
gpt-4.1-mini	DataZoneStandard	50,000	50.000.000
gpt-4.1-mini	GlobalStandard	150,000	150,000,000
gpt-4.1-mini	Estándar	150,000	150,000,000
gpt-4.1-nano	DataZoneStandard	50,000	50.000.000
gpt-4.1-nano	GlobalStandard	150,000	150,000,000
gpt-4o	DataZoneStandard	10000 / 10 seg.	10.000.000
Vista preliminar de audio de gpt-4o	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	200,000	20.000.000
gpt-4o-mini	GlobalStandard	1,500,000	150,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-vista-previa-en-tiempo-real	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	100,000	10.000.000
gpt-5	GlobalStandard	300,000	30,000,000
gpt-5-chat	GlobalStandard	5,000	5,000,000
gpt-5-codex	GlobalStandard	10.000	10.000.000
gpt-5-mini	DataZoneStandard	3,000	3,000,000
gpt-5-mini	GlobalStandard	10.000	10.000.000
gpt-5-nano	DataZoneStandard	50,000	50.000.000
gpt-5-nano	GlobalStandard	150,000	150,000,000
gpt-5-pro	GlobalStandard	16,000	1,600,000
gpt-5.1	DataZoneStandard	30,000	3,000,000
gpt-5.1	GlobalStandard	100,000	10.000.000
gpt-5.1	Estándar	30,000	3,000,000
gpt-5.1-chat	GlobalStandard	50,000	5,000,000
gpt-5.1-codex	DataZoneStandard	30,000	3,000,000
gpt-5.1-codex	GlobalStandard	10.000	10.000.000
gpt-5.1-codex-max	GlobalStandard	100,000	10.000.000
gpt-5.1-codex-mini	GlobalStandard	10.000	10.000.000
gpt-5.2	DataZoneStandard	30,000	3,000,000
gpt-5.2	GlobalStandard	100,000	10.000.000
gpt-5.2-chat	GlobalStandard	50,000	5,000,000
gpt-5.3-chat	GlobalStandard	5,000	5,000,000
gpt-5.2-codex	GlobalStandard	100,000	10.000.000
gpt-5.3-codex	GlobalStandard	100,000	10.000.000
gpt-5.4	DataZoneStandard	3,000	3,000,000
gpt-5.4	GlobalStandard	100,000	10.000.000
gpt-5.4-pro	GlobalStandard	1,600	1,600,000
gpt-5.4-mini	GlobalStandard	10.000	10.000.000
gpt-5.4-nano	DataZoneStandard	50,000	50.000.000
gpt-5.4-nano	GlobalStandard	150,000	150,000,000
gpt-5.5	DataZoneStandard	3,000	3,000,000
gpt-5.5	GlobalStandard	10.000	10.000.000
gpt-chat-latest	GlobalStandard	50,000	5,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	60	-
gpt-image-1-mini	GlobalStandard	120	-
gpt-image-1.5	DataZoneStandard	20	-
gpt-image-1.5	GlobalStandard	60	-
gpt-image-2	DataZoneStandard	10	-
gpt-image-2	GlobalStandard	30	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	3,000	3,000,000
model-router	GlobalStandard	10.000	10.000.000
o1	DataZoneStandard	1,000	6,000,000
o1	GlobalStandard	5,000	30,000,000
o3	DataZoneStandard	3,000	3,000,000
o3	GlobalStandard	10.000	10.000.000
o3-deep-research	GlobalStandard	30,000	30,000,000
o3-mini	DataZoneStandard	2.000	20.000.000
o3-mini	GlobalStandard	5,000	50.000.000
o3-pro	GlobalStandard	1,600	16,000,000
o4-mini	DataZoneStandard	3000 / 10s	3,000,000
o4-mini	GlobalStandard	10.000	10.000.000
text-embedding-3-large	DataZoneStandard	10.000	10.000.000
text-embedding-3-large	GlobalStandard	10000 / 10 seg.	10.000.000
text-embedding-3-small	DataZoneStandard	10.000	10.000.000
text-embedding-3-small	GlobalStandard	10000 / 10 seg.	10.000.000

Nivel 6

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	15,000	15,000,000
vista previa del uso de la computadora	GlobalStandard	450.000	45,000,000
gpt-4.1	DataZoneStandard	15,000	15,000,000
gpt-4.1	GlobalStandard	45,000	45,000,000
gpt-4.1-mini	DataZoneStandard	75,000	75,000,000
gpt-4.1-mini	GlobalStandard	225,000	225,000,000
gpt-4.1-mini	Estándar	225,000	225,000,000
gpt-4.1-nano	DataZoneStandard	75,000	75,000,000
gpt-4.1-nano	GlobalStandard	225,000	225,000,000
gpt-4o	DataZoneStandard	15000 / 10 s	15,000,000
Vista preliminar de audio de gpt-4o	GlobalStandard	45000 / 10 segundos	45,000,000
gpt-4o-mini	DataZoneStandard	300,000	30,000,000
gpt-4o-mini	GlobalStandard	2.250.000	225,000,000
gpt-4o-mini-audio-preview	GlobalStandard	45000 / 10 segundos	45,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	54	9,000
gpt-4o-vista-previa-en-tiempo-real	GlobalStandard	54	9,000
gpt-5	DataZoneStandard	150,000	15,000,000
gpt-5	GlobalStandard	450.000	45,000,000
gpt-5-chat	GlobalStandard	8,000	8,000,000
gpt-5-codex	GlobalStandard	15,000	15,000,000
gpt-5-mini	DataZoneStandard	4,000	4.000.000
gpt-5-mini	GlobalStandard	15,000	15,000,000
gpt-5-nano	DataZoneStandard	75,000	75,000,000
gpt-5-nano	GlobalStandard	225,000	225,000,000
gpt-5-pro	GlobalStandard	24,000	2,400,000
gpt-5.1	DataZoneStandard	40,000	4.000.000
gpt-5.1	GlobalStandard	150,000	15,000,000
gpt-5.1	Estándar	40,000	4.000.000
gpt-5.1-chat	GlobalStandard	80,000	8,000,000
gpt-5.1-codex	DataZoneStandard	40,000	4.000.000
gpt-5.1-codex	GlobalStandard	15,000	15,000,000
gpt-5.1-codex-max	GlobalStandard	150,000	15,000,000
gpt-5.1-codex-mini	GlobalStandard	15,000	15,000,000
gpt-5.2	DataZoneStandard	40,000	4.000.000
gpt-5.2	GlobalStandard	150,000	15,000,000
gpt-5.2-chat	GlobalStandard	80,000	8,000,000
gpt-5.3-chat	GlobalStandard	8,000	8,000,000
gpt-5.2-codex	GlobalStandard	150,000	15,000,000
gpt-5.3-codex	GlobalStandard	150,000	15,000,000
gpt-5.4	DataZoneStandard	4,000	4.000.000
gpt-5.4	GlobalStandard	150,000	15,000,000
gpt-5.4-pro	GlobalStandard	2,400	2,400,000
gpt-5.4-mini	GlobalStandard	15,000	15,000,000
gpt-5.4-nano	DataZoneStandard	75,000	75,000,000
gpt-5.4-nano	GlobalStandard	225,000	225,000,000
gpt-5.5	DataZoneStandard	4,000	4.000.000
gpt-5.5	GlobalStandard	15,000	15,000,000
gpt-chat-latest	GlobalStandard	80,000	8,000,000
gpt-audio	GlobalStandard	45000 / 10 segundos	45,000,000
gpt-image-1	GlobalStandard	90	-
gpt-image-1-mini	GlobalStandard	180	-
gpt-image-1.5	DataZoneStandard	30	-
gpt-image-1.5	GlobalStandard	90	-
gpt-image-2	DataZoneStandard	12	-
gpt-image-2	GlobalStandard	36	-
gpt-realtime	GlobalStandard	300	150,000
model-router	DataZoneStandard	4,000	4.000.000
model-router	GlobalStandard	15,000	15,000,000
o1	DataZoneStandard	2.000	12,000,000
o1	GlobalStandard	8,000	48,000,000
o3	DataZoneStandard	4,000	4.000.000
o3	GlobalStandard	15,000	15,000,000
o3-deep-research	GlobalStandard	45,000	45,000,000
o3-mini	DataZoneStandard	3,000	30,000,000
o3-mini	GlobalStandard	8,000	80,000,000
o3-pro	GlobalStandard	2,400	24,000,000
o4-mini	DataZoneStandard	4000 / 10s	4.000.000
o4-mini	GlobalStandard	15,000	15,000,000
text-embedding-3-large	DataZoneStandard	15,000	15,000,000
text-embedding-3-large	GlobalStandard	15000 / 10 s	15,000,000
text-embedding-3-small	DataZoneStandard	15,000	15,000,000
text-embedding-3-small	GlobalStandard	15000 / 10 s	15,000,000

Nivel 0

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
gpt-4.1-mini	GlobalStandard	200	200,000
gpt-5-mini	GlobalStandard	500	500,000
o4-mini	GlobalStandard	100	100,000
text-embedding-3-small	GlobalStandard	1000 / 10 s	1,000,000

Referencia de cuotas y límites

En la sección siguiente se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:

Nombre del límite	Valor de límite
Recursos de Azure OpenAI por región, para cada suscripción de Azure	30.
Límites de cuota predeterminados de GPT-image-1	9 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-1-mini	12 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-1.5	9 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-2	9 solicitudes por minuto
Límites de cuota predeterminados de Sora	60 solicitudes por minuto.
Límites de cuota predeterminados de Sora 2	2 solicitudes de trabajo¹ por minuto
Límites predeterminados de cuota de la API de audio de voz a texto	3 solicitudes por minuto.
Número máximo de tokens de mensaje por solicitud	Varía según el modelo. Para obtener más información, consulte modelos de Azure OpenAI.
Implementaciones estándar máximas por recurso	32.
Despliegues máximos de modelos afinados	10.
Número total de trabajos de entrenamiento por recurso	100.
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso	Formación estándar y global: 3; Formación para desarrolladores: 5
Máximo de trabajos de entrenamiento en cola	20.
Máximo de archivos por recurso (ajuste preciso)	100.
Tamaño total de todos los archivos por recurso (ajuste preciso)	1 GB.
Tiempo máximo de ejecución del entrenamiento (el trabajo fallará si se excede)	720 horas.
Tamaño máximo del trabajo de entrenamiento `(tokens in training file) x (# of epochs)`	2 mil millones.
Tamaño máximo de todos los archivos por subida (Azure OpenAI en tus datos)	16 MB.
Número máximo de entradas en la matriz con `/embeddings`	2,048.
Número máximo de tokens por solicitud a `/embeddings` (suma de todas las entradas)	300,000.
Número máximo de `/chat/completions` mensajes	2,048.
Número máximo de `/chat/completions` funciones	128.
Número máximo de `/chat/completions` herramientas	128.
Número máximo de unidades de rendimiento aprovisionadas por implementación	100,000.
Número máximo de archivos por asistente o subproceso	10 000 al usar la API o el portal de Microsoft Foundry.
Tamaño máximo de archivo para asistentes y ajuste preciso	512 MB a través de la API 200 MB a través del portal de Foundry.
Número máximo de solicitudes de carga de archivos por recurso	30 solicitudes por segundo.
Tamaño máximo para todos los archivos cargados para asistentes	200 GB.
Límite de tokens de asistentes	Límite de 2000 000 tokens.
`GPT-4o` y `GPT-4.1` las imágenes máximas por solicitud (número de imágenes en la matriz de mensajes o el historial de conversaciones)	50.
Los tokens máximos predeterminados`GPT-4 vision-preview` y `GPT-4 turbo-2024-04-09`	16. Aumente el valor del `max_tokens` parámetro para evitar respuestas truncadas. `GPT-4o` el valor predeterminado de los tokens máximos es 4096.
Número máximo de encabezados personalizados en solicitudes de API²	10.
Límite de caracteres de mensaje	1,048,576.
Tamaño del mensaje para archivos de audio	20 MB.

¹ La cuota de Sora 2 RPM solo cuenta las peticiones de trabajos de vídeo. Otros tipos de solicitudes no están sujetos a limitación de frecuencia.

² Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que produce errores HTTP 431. No hay ninguna solución para este error, aparte de reducir el volumen de encabezados. En futuras versiones de API, no pasaremos por encabezados personalizados. Se recomienda que los clientes no dependan de encabezados personalizados en futuras arquitecturas del sistema.

Nota

Los límites de cuota están sujetos a cambios.

Límites de lote

Nombre del límite	Valor de límite
Número máximo de archivos de entrada de Batch: (sin expiración)	500
Número máximo de archivos de entrada de Batch: (expiración establecida)	10.000
Tamaño máximo de archivo de entrada	200 MB
Tamaño máximo de archivo de entrada: Traiga su propio almacenamiento (BYOS)	1 GB
Número máximo de solicitudes por archivo	100,000

Nota

Los límites de archivos por lotes no se aplican a los archivos de salida (por ejemplo, result.jsonl, y error.jsonl). Para quitar límites de archivos de entrada por lotes, use Batch con Azure Blob Storage.

Cuota por lotes

En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para el procesamiento por lotes, se cuenta el número de tokens del archivo. Hasta que el trabajo por lotes alcance un estado de terminal, esos tokens cuentan para el límite total de tokens en cola.

Lote global

Modelo	Enterprise y MCA-E	Valor predeterminado	Suscripciones mensuales basadas en tarjetas de crédito	Suscripciones de MSDN	Azure para estudiantes, pruebas gratuitas
`gpt-4.1`	5B	200 millones	50 M	90 000	N/A
`gpt-4.1 mini`	15B	1B	50 M	90 000	N/A
`gpt-4.1-nano`	15B	1B	50 M	90 000	N/A
`gpt-4o`	5B	200 millones	50 M	90 000	N/A
`gpt-4o-mini`	15B	1B	50 M	90 000	N/A
`gpt-4-turbo`	300 M	80 M	40 M	90 000	N/A
`gpt-4`	150 M	30 M	5 M	100 000	N/A
`o3-mini`	15B	1B	50 M	90 000	N/A
`o4-mini`	15B	1B	50 M	90 000	N/A
`gpt-5`	5B	200 millones	50 M	90 000	N/A
`gpt-5.1`	5B	200 millones	50 M	90 000	N/A

B = mil millones | M = millones | K = mil

Conjunto de área de datos

Modelo	Enterprise y MCA-E	Valor predeterminado	Suscripciones mensuales basadas en tarjetas de crédito	Suscripciones de MSDN	Azure para estudiantes, pruebas gratuitas
`gpt-4.1`	500 M	30 M	30 M	90 000	N/A
`gpt-4.1-mini`	1 500 millones	100 M	50 M	90 000	N/A
`gpt-4o`	500 M	30 M	30 M	90 000	N/A
`gpt-4o-mini`	1 500 millones	100 M	50 M	90 000	N/A
`o3-mini`	1 500 millones	100 M	50 M	90 000	N/A
`gpt-5`	5B	200 millones	50 M	90 000	N/A
`gpt-5.1`	5B	200 millones	50 M	90 000	N/A

gpt-oss

Modelo	Tokens por minuto (TPM)	Solicitudes por minuto (RPM)
`gpt-oss-120b`	5 millones	5 K

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure. Enrutan dinámicamente el tráfico del cliente al centro de datos con la mejor disponibilidad para sus solicitudes de inferencia. De forma similar, las implementaciones estándar de zona de datos permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esta práctica permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver una mayor variabilidad en la latencia de respuesta.

Los niveles de uso de Azure OpenAI están diseñados para proporcionar un rendimiento coherente para la mayoría de los clientes con niveles de tráfico bajos a medios. Cada nivel de uso define el rendimiento máximo (tokens por minuto) que puede esperar con una latencia predecible. Cuando el uso permanece dentro del nivel asignado, la latencia permanece estable y los tiempos de respuesta son coherentes.

¿Qué ocurre si supera el nivel de uso?

Si el rendimiento de la solicitud supera el nivel de uso (especialmente durante períodos de alta demanda), la latencia de respuesta puede aumentar significativamente.
La latencia puede variar y, en algunos casos, puede ser más de dos veces mayor que cuando se trabaja dentro del nivel de uso.
Esta variabilidad es más notable para los clientes con un uso sostenido elevado o patrones de tráfico intermitentes.

Acciones recomendadas si supera el nivel de uso

Si encuentra errores 429 o observa una mayor variabilidad de latencia, esto es lo que debe hacer:

Solicitar un aumento de cuota: visite el portal de Azure para solicitar una cuota mayor para la suscripción.
Considere la posibilidad de actualizar a una oferta premium (PTU): para cargas de trabajo de gran volumen o latencia crítica, actualice a unidades de procesamiento aprovisionadas (PTU). PTU proporciona recursos dedicados, capacidad garantizada y latencia predecible, incluso a escala. Esta es la mejor opción para las aplicaciones críticas que requieren un rendimiento coherente.
Supervisión del uso: revise periódicamente las métricas de uso en el portal de Azure para asegurarse de que está trabajando dentro de los límites del nivel. Ajuste la carga de trabajo o la estrategia de implementación según sea necesario.

Es posible que reciba respuestas 429 (demasiadas solicitudes), incluso cuando las métricas de uso de tokens aparecen por debajo de la cuota. Para obtener una explicación de por qué ocurre esto, consulte Por qué puede ver códigos de estado 429 incluso cuando las métricas de uso de tokens están por debajo de la cuota.

El límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo. Es el número total de tokens consumidos en todas las implementaciones de todas las suscripciones y todas las regiones para un cliente determinado.

Nota

Los niveles de uso solo se aplican a los tipos de implementación Estándar, Estándar de zona de datos y Estándar global. Los niveles de uso no se aplican a las implementaciones globales de rendimiento por lotes y aprovisionadas.

Estándar global, estándar de zona de datos y estándar

Modelo	Niveles de uso por mes
`gpt-5`	32 000 millones de tokens
`gpt-5-mini`	160 mil millones de tokens
`gpt-5-nano`	800 mil millones de tokens
`gpt-5-chat`	32 000 millones de tokens
`gpt-4` + `gpt-4-32k` (todas las versiones)	6 mil millones de tokens
`gpt-4o`	12 mil millones de tokens
`gpt-4o-mini`	85 000 millones de tokens
`o3-mini`	50 000 millones de tokens
`o1`	4 mil millones de tokens
`o4-mini`	50 000 millones de tokens
`o3`	5 mil millones de tokens
`gpt-4.1`	30 000 millones de tokens
`gpt-4.1-mini`	150 mil millones de tokens
`gpt-4.1-nano`	550 mil millones de tokens

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:

Implemente la lógica de reintento en la aplicación.
Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
Pruebe diferentes patrones de aumento de carga.
Aumente la cuota asignada a la implementación. Mueva la cuota de otro despliegue, si es necesario.

Para conocer procedimientos recomendados, ejemplos de código de reintento con retroceso y una guía de solución de errores 429, consulte Administración de Azure OpenAI en la cuota de modelos de Microsoft Foundry.

Solicitar aumentos de cuota

Envíe el formulario de solicitud de aumento de cuota para solicitar aumentos de cuota para Foundry Models comercializados por Azure, modelos de Azure OpenAI y modelos de Anthropic. A excepción de los modelos de Anthropic, los modelos de socios y de la comunidad no admiten aumentos de cuota.

Las solicitudes de aumento de cuota se procesan en el orden en que se reciben y la prioridad va a los clientes que usan activamente su asignación de cuota existente. Es posible que se denieguen las solicitudes que no cumplen esta condición.

Límites de capacidad de cuota regional

Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.

Para comprobar la cuota y la capacidad mediante programación, consulte Comprobación mediante programación de la cuota y la capacidad en la guía de administración de cuotas. En esta sección se tratan dos API REST complementarias: la API usages para comprobar el consumo con respecto a los límites y la API Model Capacitys para comprobar la capacidad de implementación disponible por modelo y región.

Nota

Actualmente, tanto el portal de Foundry como las API de capacidad devuelven la cuota y la información de capacidad de los modelos que se retiran y ya no están disponibles para las nuevas implementaciones.

Explore cómo administrar cuota para las implementaciones de OpenAI de Azure.
Obtenga más información sobre los modelos subyacentes que impulsan Azure OpenAI.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-01

Cuotas y límites de Azure OpenAI en Microsoft Foundry Models

Ámbito de cuota

Asignación de cuota regional

Niveles de cuota

¿Qué está cambiando para mí?

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel?

¿Puedo rechazar las actualizaciones automáticas?

¿Puedo solicitar más cuota?

¿Cómo puedo comprobar el nivel de cuota de mi suscripción?

Referencia de nivel de cuota

Nivel 1

Referencia de cuotas y límites

Límites de lote

Cuota por lotes

Lote global

Conjunto de área de datos

gpt-oss

Niveles de uso

¿Qué ocurre si supera el nivel de uso?

Acciones recomendadas si supera el nivel de uso

Estándar global, estándar de zona de datos y estándar

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Solicitar aumentos de cuota

Límites de capacidad de cuota regional

Contenido relacionado

Comentarios

Recursos adicionales

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel?