Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry
Antes de crear una implementación aprovisionada, calcule cuántas unidades de rendimiento aprovisionadas (PTU) necesita la carga de trabajo. En este artículo se proporcionan los parámetros de rendimiento por modelo que necesita y se muestra cómo calcular los requisitos de PTU mediante fórmulas de ajuste de tamaño o la calculadora de capacidad de Foundry.
Si no está familiarizado con el rendimiento aprovisionado, comience con ¿Qué es el rendimiento aprovisionado para foundry Models?. Cuando esté preparado para crear la implementación, consulte Inicio rápido: Creación de una implementación con rendimiento aprovisionado.
Prerequisites
- Familiaridad con los conceptos de ¿Qué es la capacidad de procesamiento aprovisionada para los modelos de Foundry?.
- Una estimación de las características de la carga de trabajo: las solicitudes máximas esperadas por minuto (RPM), el tamaño medio del mensaje en los tokens y el tamaño medio de respuesta en los tokens.
Estimación de las PTU necesarias
Hay dos enfoques disponibles para calcular el número de PTUs necesarios para una carga de trabajo:
- Usar las fórmulas de ajuste de tamaño para el control total sobre el cálculo
- Use la calculadora de capacidad de Foundry para obtener una estimación guiada.
Ambos enfoques usan valores por modelo de las tablas de parámetros de implementación para generar estimaciones. Para obtener los resultados más precisos, realice una prueba comparativa de una implementación con respecto al tráfico representativo en lugar de depender únicamente de las entradas estimadas.
Note
Para los modelos más antiguos (antes de GPT-4o), la distribución de formas de solicitud/llamada afecta al consumo de capacidad: un pequeño número de llamadas grandes puede consumir significativamente más capacidad que muchas llamadas pequeñas con el mismo recuento medio de tokens. En el caso de los modelos GPT-4o y posteriores, los TPM por PTU se establecen por separado para los tokens de entrada y de salida, por lo que este efecto de escalonamiento no se aplica.
Calcular manualmente
Puede calcular las PTUs que requiere la carga de trabajo mediante los valores específicos del modelo de las tablas de parámetros de implementación e información sobre el tráfico esperado de la siguiente manera:
| Input | Description |
|---|---|
| Modelo | El modelo que planea implementar, por ejemplo, gpt-5.2. Determina qué valores de TPM de entrada por PTU y de relación de salida a entrada se van a usar desde las tablas de parámetros de implementación. |
| Tipo de implementación | Tipo de implementación aprovisionado: aprovisionado global, aprovisionado de zona de datos o aprovisionado regional. |
| Rpm máximas | Número máximo esperado de llamadas por minuto enviadas al modelo. |
| Promedio de tamaño del mensaje | Número medio de tokens de entrada por solicitud. |
| Tamaño medio de respuesta | Número medio de tokens de salida por solicitud. |
| Tasa de caché | El porcentaje de tokens de entrada obtenidos de la caché de indicaciones. Use 0 si no se usa el almacenamiento en caché. Los tokens almacenados en caché se deducen 100% del cálculo de uso y no consumen capacidad de PTU. |
TPM normalizado
El cálculo manual de ptUs convierte el volumen de tokens esperado en un único número denominado TPM normalizado. A continuación, el número de PTU necesarios se determina dividiendo el TPM normalizado por el valor de TPM de entrada del modelo por PTU .
Fórmulas:
- TPM de entrada = Pico de RPM × tamaño medio de aviso (tokens)
- TPM de salida = Pico de RPM × tamaño medio de respuesta (tokens)
- TPM normalizado = (TPM de entrada × (1 - velocidad de caché)) + (relación de salida a entrada × TPM de salida)
- PTU requerido = TPM normalizado ÷ TPM de entrada por PTU
Ejemplo de trabajo:
Supongamos que su aplicación envía solicitudes a una tasa máxima de 1.000 RPM, con un tamaño medio del mensaje de entrada de 200 tokens y un tamaño medio de respuesta de 20 tokens, con el modelo gpt-5.2 y una implementación con rendimiento aprovisionado de zona de datos. En la tabla, gpt-5.2 tiene un TPM de entrada por PTU de 3400 y una relación de salida a entrada de 8.
- TPM de entrada = 1000 × 200 = 200 000
- TPM de salida = 1000 × 20 = 20 000
- TPM normalizado (sin caché) = 200 000 + (8 × 20 000) = 360 000
- PTU requeridas = 360 000 ÷ 3400 = 105,88 (110 PTU redondeadas hasta las 5 PTU más cercanas, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2).
Si el 50 % de los tokens de entrada se obtienen de la caché de indicaciones:
- Entrada efectiva TPM = 200 000 × (1 − 0,50) = 100 000
- TPM normalizado = 100 000 + (8 × 20 000) = 260 000
- PTU requeridas = 360 000 ÷ 3400 = 105,88 (110 PTU redondeadas hasta las 5 PTU más cercanas, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2).
En resumen, las PTUs necesarias para esta forma de llamada de ejemplo con y sin almacenamiento en caché son las siguientes:
| Llamadas máximas por minuto (RPM) | Tamaño de la solicitud (tokens) | Tamaño de respuesta (tokens) | Tasa de caché | TPM de entrada | TPM de salida | TPM normalizado | PTU estimados | PTU (redondeado hacia arriba)1 |
|---|---|---|---|---|---|---|---|---|
| 1,000 | 200 | 20 | 0% | 200,000 | 20,000 | 360.000 | 105.88 | 110 |
| 1,000 | 200 | 20 | 50 % | 100,000 | 20,000 | 260 000 | 76.47 | 80 |
1 Redondeado hasta los 5 PTU más cercanos, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2.
Uso de la calculadora de capacidad
Use la calculadora de capacidad en el portal de Foundry para ajustar el tamaño de las formas de carga de trabajo específicas. Busque la calculadora en la página Cuota y escriba los parámetros siguientes en función de la carga de trabajo:
| Input | Description |
|---|---|
| Modelo | El modelo que planea usar. |
| Version | La versión del modelo que planea usar. |
| Llamadas máximas por minuto | Número de llamadas por minuto que se espera que se envíen al modelo. |
| Tokens en la llamada de aviso | Número de tokens en el texto de entrada para cada llamada al modelo. Las llamadas con mensajes más grandes consumen más capacidad de PTU. La calculadora asume un único valor de prompt; para cargas de trabajo con mucha variabilidad en el tamaño de los prompts, evalúe un despliegue comparándolo con su tráfico real para obtener una estimación más precisa. |
| Tokens en la respuesta del modelo | Número de tokens generados por llamada, también denominado tamaño de generación. Las llamadas con tamaños de generación mayores consumen más capacidad de PTU. Al igual que con los tokens de solicitud, la calculadora asume un único valor. |
| Tasa de caché | Porcentaje de tokens de entrada obtenidos de la caché de indicaciones. |
Después de rellenar los detalles necesarios, seleccione Calcular. La salida muestra:
- Recuento estimado de PTU necesario para la carga de trabajo. Este valor se redondea al incremento de escala de PTU más cercano para el tipo de implementación seleccionado o al número mínimo de PTU del tipo de implementación, dependiendo de cuál sea mayor.
- El recuento estimado de PTU sin redondear.
Cómo afectan los tokens de entrada y salida al rendimiento
El rendimiento (medido como tokens por minuto o TPM) que una implementación obtiene por PTU depende del modelo y de la combinación de tokens de entrada y salida en un minuto determinado. La generación de tokens de salida requiere más capacidad de procesamiento que consumir tokens de entrada.
Para los modelos GPT-4.1 y versiones posteriores, el sistema determina una relación de salida a entrada para que coincida con la relación de precios estándar global entre los tokens de entrada y salida, con excepciones para algunos modelos. Por ejemplo
- Para gpt-5, un token de salida cuenta como ocho tokens de entrada de cara a su límite de uso, en consonancia con la proporción del precio estándar global del modelo.
- Para gpt-4.1, un token de salida cuenta como cuatro tokens de entrada.
- Los modelos más antiguos usan diferentes ratios.
En todas las implementaciones, los tokens almacenados en caché se deducen al 100 % del cálculo de la utilización, lo que significa que los tokens de solicitud repetidos no consumen capacidad de PTU. Consulte el almacenamiento en caché de prompts para obtener más información.
Modelos con una relación de salida a entrada no estándar
Algunos modelos usan una relación de salida a entrada que difiere de su relación de precios estándar global. Por ejemplo, con Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada de cara a su límite de uso, lo que difiere de la proporción de precios estándar de ese modelo. Consulte los precios de los modelos llama para obtener el desglose completo de los precios de entrada y salida.
Parámetros de implementación y valores de rendimiento por modelo
En las tablas de esta sección se enumeran los parámetros de rendimiento e implementación de cada modelo admitido. Para comprender cuáles son los parámetros de cada fila, consulte el Apéndice.
Modelos Azure OpenAI más recientes
Note
gpt-5.4, gpt-4.1, gpt-4.1-mini y gpt-4.1-nano no son compatibles con contextos largos (solicitudes que se estima que superan los 128k tokens del prompt).
| Tema |
gpt-5.5, 2026-04-24 |
gpt-5.4, 2026-03-05 |
gpt-5.4-mini, 2026-03-17 |
gpt-5.3-codex, 2026-02-24 |
gpt-5.2, 2025-12-11 |
gpt-5.2-codex, 2026-01-14 |
gpt-5.1, 2025-11-13 |
gpt-5.1-codex, 2025-11-13 |
gpt-5, 2025-08-07 |
gpt-5-mini, 2025-08-07 |
gpt-4.1, 2025-04-14 |
gpt-4.1-mini, 2025-04-14 |
gpt-4.1-nano, 2025-04-14 |
o3, 2025-04-16 |
o4-mini, 2025-04-16 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 |
| Incremento & de escala aprovisionado en la zona de datos y global | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
| Implementación mínima aprovisionada regional | 50 | 50 | 25 | 50 | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| Incremento regional de la escala aprovisionada | 50 | 50 | 25 | 50 | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| TPM de entrada por PTU | 1,200 | 2,400 | 7,900 | 3,400 | 3,400 | 3,400 | 4,750 | 4,750 | 4,750 | 23.750 | 3,000 | 14,900 | 59.400 | 3,000 | 5,400 |
| Relación de salida a entrada | 6 | 6 | 6 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 4 | 4 | 4 | 4 | 4 |
| Valor objetivo de latencia1 | 99% > 100 TPS | 99% > 50 TPS | 99% > 100 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 80 TPS | 99% > 80 TPS | 99% > 90 TPS | 99% > 100 TPS | 99% > 80 TPS | 99% > 90 TPS |
1 Se calcula como latencia de solicitud p50 por cada 5 minutos. TPS = tokens por segundo.
Modelos anteriores Azure OpenAI
| Tema | gpt-4o | gpt-4o-mini | o3-mini | o1 |
|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 15 | 15 | 15 | 15 |
| Incremento & de escala aprovisionado en la zona de datos y global | 5 | 5 | 5 | 5 |
| Implementación mínima aprovisionada regional | 50 | 25 | 25 | 25 |
| Incremento regional de la escala aprovisionada | 50 | 25 | 25 | 50 |
| TPM de entrada por PTU | 2,500 | 37,000 | 2,500 | 230 |
| Relación de salida a entrada | 4 | 4 | 4 | 4 |
| Valor objetivo de latencia1 | 99% > 25 TPS | 99% > 33 TPS | 99% > 66 TPS | 99% > 25 TPS |
1 Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.
Modelos de Foundry comercializados por Azure
En esta sección se enumeran otros modelos de Foundry vendidos por Azure, no incluidos los Azure OpenAI en Foundry Models enumerados en las tablas anteriores.
| Tema | Llama-3.3-70B-Instruct | DeepSeek-R1 | DeepSeek-V3-0324 |
|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 100 | 100 | 100 |
| Incremento & de escala aprovisionado en la zona de datos y global | 100 | 100 | 100 |
| Implementación mínima aprovisionada regional | NA | NA | NA |
| Incremento regional de la escala aprovisionada | NA | NA | NA |
| TPM de entrada por PTU | 8,450 | 4,000 | 4,000 |
| Relación de salida a entrada | 41 | 4 | 4 |
| Valor objetivo de latencia2 | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS |
1 Para Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Consulte Modelos con una relación entre salida y entrada no estándar y precios del modelo Llama.
2 Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.
Fuegos artificiales en modelos Microsoft Foundry
Los siguientes modelos Fireworks de Microsoft Foundry admiten el rendimiento aprovisionado de la zona de datos global y de EE. UU.
| Tema | DeepSeek v3.1 | DeepSeek v3.2 | DeepSeek V4 Flash | DeepSeek V4 Pro | Gemma 4 26B A4B IT | Gemma 4 31B IT | GLM-4.7 | GLM 5 | GLM-5.1 | GLM 5.2 | gpt-oss-120b | Kimi K2 Instruct 0905 | Kimi K2 Thinking | Kimi K2.5 | Kimi K2.6 | Kimi K2.7 Code | MiniMax M2.5 | Ministral 3 3B Instruct 2512 | Nemotron Super 120B | Qwen 3.5 9B | Qwen 3.5 35B A3B | Qwen 3.5 112B A10B | Qwen 3.5 397B | Qwen 3.6 27B | Qwen 3.6 35B A3B |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Despliegue mínimo | 200 | 300 | 100 | 400 | 200 | 200 | 200 | 300 | 400 | 400 | 40 | 200 | 200 | 200 | 200 | 200 | 400 | 40 | 100 | 40 | 40 | 100 | 100 | 40 | 40 |
| Incremento de escala | 100 | 150 | 50 | 200 | 100 | 100 | 100 | 150 | 200 | 200 | 20 | 100 | 100 | 100 | 100 | 100 | 200 | 20 | 50 | 20 | 20 | 50 | 50 | 20 | 20 |
| TPM de entrada por PTU | 2,100 | 3,000 | 2800 | 200 | 5,400 | 2200 | 6,000 | 600 | 900 | 300 | 13,500 | 2,500 | 1,400 | 1,060 | 4,000 | 2,000 | 5.300 | 25,400 | 4,850 | 10.700 | 17,800 | 5.600 | 4.250 | 7,700 | 31,000 |
| Valor objetivo de latencia 1 | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99 % > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS | 99% > 50 TPS |
1 Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.
Apéndice
Cada fila de las tablas corresponde a uno de los parámetros siguientes:
| Parámetro | Description |
|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | El número mínimo de PTU que se pueden implementar para los tipos de implementación de aprovisionamiento global o de aprovisionamiento por zona de datos. Por ejemplo, gpt-5.2 requiere una implementación mínima de 15 PTUs. |
| Incremento de escala aprovisionado en la zona de datos y global | Incremento de PTU en el que puede aumentar o disminuir una implementación aprovisionada global o de zona de datos. Siguiendo con el ejemplo gpt-5.2, un incremento de 5 significa que las implementaciones pueden tener un tamaño de 15, 20, 25, etc. |
| Implementación mínima aprovisionada regional | El número mínimo de PTU que se puede implementar para una implementación regional aprovisionada. Por ejemplo, gpt-5.2 requiere un despliegue aprovisionado regional mínimo de 50 PTU. |
| Incremento de escala aprovisionada regional | Incremento de PTU para implementaciones aprovisionadas regionales. Siguiendo con el ejemplo gpt-5.2, un incremento de 50 significa que las implementaciones pueden tener un tamaño de 50, 100, 150, etc. |
| TPM de entrada por PTU | El número máximo de tokens de entrada por minuto (TPM) que admite una PTU. Use este valor al calcular las PTUs. |
| Relación de salida a entrada | Peso aplicado a los tokens de salida al calcular los requisitos de PTU. Este valor refleja la relación de precios estándar global del modelo entre los tokens de entrada y salida, con excepciones para algunos modelos. Por ejemplo, una proporción de 8 significa que un token de salida cuenta como ocho tokens de entrada hacia el límite de TPM del modelo. Consulte precios de Azure OpenAI, precios del modelo Llama y precios del modelo DeepSeek para conocer los precios actuales. |
| Valor de destino de latencia | Latencia de solicitud esperada en el nivel de uso de PTU indicado. Expresado como umbral de percentil, por ejemplo, "99% > 50 TPS" significa que 99% de solicitudes se procesan en más de 50 tokens por segundo. |