Determinación del tamaño de PTU para una carga de trabajo

Visualización actual:Nueva versión - Cambio a la versión del portal de Foundry clásico

Antes de crear una implementación aprovisionada, calcule cuántas unidades de rendimiento aprovisionadas (PTU) necesita la carga de trabajo. En este artículo se proporcionan los parámetros de rendimiento por modelo que necesita y se muestra cómo calcular los requisitos de PTU mediante fórmulas de ajuste de tamaño o la calculadora de capacidad de Foundry.

Si no está familiarizado con el rendimiento aprovisionado, comience con ¿Qué es el rendimiento aprovisionado para foundry Models?. Cuando esté preparado para crear la implementación, consulte Inicio rápido: Creación de una implementación con rendimiento aprovisionado.

Prerequisites

Estimación de las PTU necesarias

Hay dos enfoques disponibles para calcular el número de PTUs necesarios para una carga de trabajo:

Ambos enfoques usan valores por modelo de las tablas de parámetros de implementación para generar estimaciones. Para obtener los resultados más precisos, realice una prueba comparativa de una implementación con respecto al tráfico representativo en lugar de depender únicamente de las entradas estimadas.

Note

Para los modelos más antiguos (antes de GPT-4o), la distribución de formas de solicitud/llamada afecta al consumo de capacidad: un pequeño número de llamadas grandes puede consumir significativamente más capacidad que muchas llamadas pequeñas con el mismo recuento medio de tokens. En el caso de los modelos GPT-4o y posteriores, los TPM por PTU se establecen por separado para los tokens de entrada y de salida, por lo que este efecto de escalonamiento no se aplica.

Calcular manualmente

Puede calcular las PTUs que requiere la carga de trabajo mediante los valores específicos del modelo de las tablas de parámetros de implementación e información sobre el tráfico esperado de la siguiente manera:

Input Description
Modelo El modelo que planea implementar, por ejemplo, gpt-5.2. Determina qué valores de TPM de entrada por PTU y de relación de salida a entrada se van a usar desde las tablas de parámetros de implementación.
Tipo de implementación Tipo de implementación aprovisionado: aprovisionado global, aprovisionado de zona de datos o aprovisionado regional.
Rpm máximas Número máximo esperado de llamadas por minuto enviadas al modelo.
Promedio de tamaño del mensaje Número medio de tokens de entrada por solicitud.
Tamaño medio de respuesta Número medio de tokens de salida por solicitud.
Ratio de caché El porcentaje de tokens de entrada obtenidos de la caché de indicaciones. Use 0 si no se usa el almacenamiento en caché. Los tokens almacenados en caché se deducen 100% del cálculo de uso y no consumen capacidad de PTU.

TPM normalizado

El cálculo manual de ptUs convierte el volumen de tokens esperado en un único número denominado TPM normalizado. A continuación, el número de PTU necesarios se determina dividiendo el TPM normalizado por el valor de TPM de entrada del modelo por PTU .

Fórmulas:

  • TPM de entrada = Pico de RPM × tamaño medio de aviso (tokens)
  • TPM de salida = Pico de RPM × tamaño medio de respuesta (tokens)
  • TPM normalizado = (TPM de entrada × (1 - velocidad de caché)) + (relación de salida a entrada × TPM de salida)
  • PTU requerido = TPM normalizado ÷ TPM de entrada por PTU

Ejemplo de trabajo:

Supongamos que su aplicación envía solicitudes a una tasa máxima de 1.000 RPM, con un tamaño medio del mensaje de entrada de 200 tokens y un tamaño medio de respuesta de 20 tokens, con el modelo gpt-5.2 y una implementación con rendimiento aprovisionado de zona de datos. En la tabla, gpt-5.2 tiene un TPM de entrada por PTU de 3400 y una relación de salida a entrada de 8.

  • TPM de entrada = 1000 × 200 = 200 000
  • TPM de salida = 1000 × 20 = 20 000
  • TPM normalizado (sin caché) = 200 000 + (8 × 20 000) = 360 000
  • PTU requeridas = 360 000 ÷ 3400 = 105,88 (110 PTU redondeadas hasta las 5 PTU más cercanas, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2).

Si el 50 % de los tokens de entrada se obtienen de la caché de indicaciones:

  • Entrada efectiva TPM = 200 000 × (1 − 0,50) = 100 000
  • TPM normalizado = 100 000 + (8 × 20 000) = 260 000
  • PTU requeridas = 360 000 ÷ 3400 = 105,88 (110 PTU redondeadas hasta las 5 PTU más cercanas, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2).

En resumen, las PTUs necesarias para esta forma de llamada de ejemplo con y sin almacenamiento en caché son las siguientes:

Llamadas máximas por minuto (RPM) Tamaño de la solicitud (tokens) Tamaño de respuesta (tokens) Tasa de caché TPM de entrada TPM de salida TPM normalizado PTU estimados PTU (redondeado hacia arriba)1
1,000 200 20 0% 200,000 20,000 360.000 105.88 110
1,000 200 20 50 % 100,000 20,000 260 000 76.47 80

1 Redondeado hasta los 5 PTU más cercanos, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2.

Uso de la calculadora de capacidad

Use la calculadora de capacidad en el portal de Foundry para ajustar el tamaño de las formas de carga de trabajo específicas. Busque la calculadora en la página Cuota y escriba los parámetros siguientes en función de la carga de trabajo:

Input Description
Modelo El modelo que planea usar.
Version La versión del modelo que planea usar.
Llamadas máximas por minuto Número de llamadas por minuto que se espera que se envíen al modelo.
Tokens en la llamada de aviso Número de tokens en el texto de entrada para cada llamada al modelo. Las llamadas con mensajes más grandes consumen más capacidad de PTU. La calculadora asume un único valor de prompt; para cargas de trabajo con una gran variabilidad en el tamaño de los prompts, evalúe el rendimiento de un despliegue con su tráfico real para obtener una estimación más precisa.
tokens en la respuesta del modelo Número de tokens generados por llamada, también denominado tamaño de generación. Las llamadas con tamaños de generación mayores consumen más capacidad de PTU. Al igual que con los tokens de solicitud, la calculadora asume un único valor.
Ratio de caché Porcentaje de tokens de entrada obtenidos de la caché de indicaciones.

Después de rellenar los detalles necesarios, seleccione Calcular. La salida muestra:

  • Recuento estimado de PTU necesario para la carga de trabajo. Este valor se redondea al incremento de escala de PTU más cercano para el tipo de implementación seleccionado o al número mínimo de PTU del tipo de implementación, dependiendo de cuál sea mayor.
  • El recuento estimado de PTU en bruto (sin redondear).

Cómo afectan los tokens de entrada y salida al rendimiento

El rendimiento (medido como tokens por minuto o TPM) que una implementación obtiene por PTU depende del modelo y de la combinación de tokens de entrada y salida en un minuto determinado. La generación de tokens de salida requiere más capacidad de procesamiento que consumir tokens de entrada.

Para los modelos GPT-4.1 y versiones posteriores, el sistema determina una relación de salida a entrada para que coincida con la relación de precios estándar global entre los tokens de entrada y salida, con excepciones para algunos modelos. Por ejemplo

  • Para gpt-5, un token de salida cuenta como ocho tokens de entrada de cara a su límite de uso, en consonancia con la proporción del precio estándar global del modelo.
  • Para gpt-4.1, un token de salida cuenta como cuatro tokens de entrada.
  • Los modelos más antiguos usan diferentes ratios.

En todas las implementaciones, los tokens almacenados en caché se deducen al 100 % del cálculo de la utilización, lo que significa que los tokens de solicitud repetidos no consumen capacidad de PTU. Consulte Almacenamiento en caché de indicaciones para obtener más información.

Modelos con una relación de salida a entrada no estándar

Algunos modelos usan una relación de salida a entrada que difiere de su relación de precios estándar global. Por ejemplo, con Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada de cara a su límite de uso, lo que difiere de la proporción de precios estándar de ese modelo. Consulte los precios de los modelos llama para obtener el desglose completo de los precios de entrada y salida.

Parámetros de implementación y valores de rendimiento por modelo

En las tablas de esta sección se enumeran los parámetros de rendimiento e implementación de cada modelo admitido. Para comprender cuáles son los parámetros de cada fila, consulte el Apéndice.

Modelos Azure OpenAI más recientes

Note

gpt-5.4, gpt-4.1, gpt-4.1-mini y gpt-4.1-nano no son compatibles con un contexto extenso (solicitudes que se estima que superan los 128k tokens del prompt).

Tema gpt-5.5,
2026-04-24
gpt-5.4,
2026-03-05
gpt-5.4-mini,
2026-03-17
gpt-5.3-codex,
2026-02-24
gpt-5.2,
2025-12-11
gpt-5.2-codex,
2026-01-14
gpt-5.1,
2025-11-13
gpt-5.1-codex,
2025-11-13
gpt-5,
2025-08-07
gpt-5-mini,
2025-08-07
gpt-4.1,
2025-04-14
gpt-4.1-mini,
2025-04-14
gpt-4.1-nano,
2025-04-14
o3,
2025-04-16
o4-mini,
2025-04-16
Implementación mínima aprovisionada de la zona global y de datos 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15
Incremento & de escala aprovisionado en la zona de datos y global 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Implementación mínima aprovisionada regional 50 50 25 50 50 50 50 50 50 25 50 25 25 50 25
Incremento regional de la escala aprovisionada 50 50 25 50 50 50 50 50 50 25 50 25 25 50 25
TPM de entrada por PTU 1,200 2,400 7,900 3,400 3,400 3,400 4,750 4,750 4,750 23.750 3,000 14,900 59.400 3,000 5,400
Relación de salida a entrada 6 6 6 8 8 8 8 8 8 8 4 4 4 4 4
Valor objetivo de latencia1 99% > 100 TPS 99% > 50 TPS 99% > 100 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 80 TPS 99% > 80 TPS 99% > 90 TPS 99% > 100 TPS 99% > 80 TPS 99% > 90 TPS

1 Se calcula como latencia de solicitud p50 por cada 5 minutos. TPS = tokens por segundo.

Modelos anteriores Azure OpenAI

Tema gpt-4o gpt-4o-mini o3-mini o1
Implementación mínima aprovisionada de la zona global y de datos 15 15 15 15
Incremento & de escala aprovisionado en la zona de datos y global 5 5 5 5
Implementación mínima aprovisionada regional 50 25 25 25
Incremento regional de la escala aprovisionada 50 25 25 50
TPM de entrada por PTU 2,500 37,000 2,500 230
Relación de salida a entrada 4 4 4 4
Valor objetivo de latencia1 99% > 25 TPS 99% > 33 TPS 99% > 66 TPS 99% > 25 TPS

1 Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.

Modelos de Foundry comercializados por Azure

En esta sección se enumeran otros modelos de Foundry vendidos por Azure, no incluidos los Azure OpenAI en Foundry Models enumerados en las tablas anteriores.

Tema Llama-3.3-70B-Instruct DeepSeek-R1 DeepSeek-V3-0324
Implementación mínima aprovisionada de la zona global y de datos 100 100 100
Incremento & de escala aprovisionado en la zona de datos y global 100 100 100
Implementación mínima aprovisionada regional NA NA NA
Incremento regional de la escala aprovisionada NA NA NA
TPM de entrada por PTU 8,450 4,000 4,000
Relación de salida a entrada 41 4 4
Valor objetivo de latencia2 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS

1 Para Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Consulte Modelos con una relación de salida a entrada no estándar y los precios del modelo Llama.

2 Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.

Fuegos artificiales en modelos Microsoft Foundry

Los siguientes modelos Fireworks de Microsoft Foundry admiten el rendimiento aprovisionado de la zona de datos global y de EE. UU.

Tema DeepSeek v3.1 DeepSeek v3.2 DeepSeek V4 Flash DeepSeek V4 Pro Gemma 4 26B A4B IT Gemma 4 31B IT GLM-4.7 GLM 5 GLM-5.1 GLM 5.2 gpt-oss-120b Kimi K2 Instruct 0905 Kimi K2 Thinking Kimi K2.5 Kimi K2.6 Kimi K2.7 Code MiniMax M2.5 Ministral 3 3B Instruct 2512 Nemotron Super 120B Qwen 3.5 9B Qwen 3.5 35B A3B Qwen 3.5 112B A10B Qwen 3.5 397B Qwen 3.6 27B Qwen 3.6 35B A3B
Despliegue mínimo 200 300 100 400 200 200 200 300 400 400 40 200 200 200 200 200 400 40 100 40 40 100 100 40 40
Incremento de escala 100 150 50 200 100 100 100 150 200 200 20 100 100 100 100 100 200 20 50 20 20 50 50 20 20
TPM de entrada por PTU 2,100 3,000 2800 200 5,400 2200 6,000 600 900 300 13,500 2,500 1,400 1,060 4,000 2,000 5.300 25,400 4,850 10.700 17,800 5.600 4.250 7,700 31,000
Valor objetivo de latencia1 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS 99% > 50 TPS

1 Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.

Apéndice

Cada fila de las tablas corresponde a uno de los parámetros siguientes:

Parámetro Description
Implementación mínima aprovisionada de la zona global y de datos El número mínimo de PTU que se pueden implementar para los tipos de implementación de aprovisionamiento global o de aprovisionamiento por zona de datos. Por ejemplo, gpt-5.2 requiere una implementación mínima de 15 PTUs.
Incremento de escala aprovisionado en la zona de datos y global Incremento de PTU en el que puede aumentar o disminuir una implementación aprovisionada global o de zona de datos. Siguiendo con el ejemplo gpt-5.2, un incremento de 5 significa que las implementaciones pueden tener un tamaño de 15, 20, 25, etc.
Despliegue regional mínimo aprovisionado El número mínimo de PTU que se puede implementar para una implementación regional aprovisionada. Por ejemplo, gpt-5.2 requiere un despliegue regional aprovisionado mínimo de 50 PTU.
Incremento de escala aprovisionada regional Incremento de PTU para implementaciones aprovisionadas regionales. Siguiendo con el ejemplo gpt-5.2, un incremento de 50 significa que las implementaciones pueden tener un tamaño de 50, 100, 150, etc.
TPM de entrada por PTU La cantidad máxima de tokens de entrada por minuto (TPM) que soporta una PTU. Use este valor al calcular las PTUs.
Relación de salida a entrada Peso aplicado a los tokens de salida al calcular los requisitos de PTU. Este valor refleja la relación de precios estándar global del modelo entre los tokens de entrada y salida, con excepciones para algunos modelos. Por ejemplo, una proporción de 8 significa que un token de salida cuenta como ocho tokens de entrada hacia el límite de TPM del modelo. Consulte precios de Azure OpenAI, precios del modelo Llama y precios del modelo DeepSeek para conocer los precios actuales.
Valor de destino de latencia Latencia de solicitud esperada en el nivel de uso de PTU indicado. Expresado como umbral de percentil, por ejemplo, "99% > 50 TPS" significa que 99% de solicitudes se procesan en más de 50 tokens por segundo.