Determinación del tamaño de PTU para una carga de trabajo

Visualización actual:Nueva versión - Cambio a la versión del portal de Foundry clásico

Antes de crear una implementación aprovisionada, calcule cuántas unidades de rendimiento aprovisionadas (PTU) necesita la carga de trabajo. En este artículo se proporcionan los parámetros de rendimiento por modelo que necesita y se muestra cómo calcular los requisitos de PTU mediante fórmulas de ajuste de tamaño o la calculadora de capacidad de Foundry.

Si no está familiarizado con el rendimiento aprovisionado, comience con ¿Qué es el rendimiento aprovisionado para foundry Models?. Cuando esté preparado para crear la implementación, consulte Inicio rápido: Creación de una implementación con rendimiento aprovisionado.

Prerequisites

Familiaridad con los conceptos de ¿Qué es la capacidad de procesamiento aprovisionada para los modelos de Foundry?.
Una estimación de las características de la carga de trabajo: las solicitudes máximas esperadas por minuto (RPM), el tamaño medio del mensaje en los tokens y el tamaño medio de respuesta en los tokens.

Estimación de las PTU necesarias

Hay dos enfoques disponibles para calcular el número de PTUs necesarios para una carga de trabajo:

Usar las fórmulas de ajuste de tamaño para el control total sobre el cálculo
Use la calculadora de capacidad de Foundry para obtener una estimación guiada.

Ambos enfoques usan valores por modelo de las tablas de parámetros de implementación para generar estimaciones. Para obtener los resultados más precisos, realice una prueba comparativa de una implementación con respecto al tráfico representativo en lugar de depender únicamente de las entradas estimadas.

Note

Para los modelos más antiguos (antes de GPT-4o), la distribución de formas de solicitud/llamada afecta al consumo de capacidad: un pequeño número de llamadas grandes puede consumir significativamente más capacidad que muchas llamadas pequeñas con el mismo recuento medio de tokens. En el caso de los modelos GPT-4o y posteriores, los TPM por PTU se establecen por separado para los tokens de entrada y de salida, por lo que este efecto de escalonamiento no se aplica.

Calcular manualmente

Puede calcular las PTUs que requiere la carga de trabajo mediante los valores específicos del modelo de las tablas de parámetros de implementación e información sobre el tráfico esperado de la siguiente manera:

Input	Description
Modelo	El modelo que planea implementar, por ejemplo, `gpt-5.2`. Determina qué valores de TPM de entrada por PTU y de relación de salida a entrada se van a usar desde las tablas de parámetros de implementación.
Tipo de implementación	Tipo de implementación aprovisionado: aprovisionado global, aprovisionado de zona de datos o aprovisionado regional.
Rpm máximas	Número máximo esperado de llamadas por minuto enviadas al modelo.
Promedio de tamaño del mensaje	Número medio de tokens de entrada por solicitud.
Tamaño medio de respuesta	Número medio de tokens de salida por solicitud.
Ratio de caché	El porcentaje de tokens de entrada obtenidos de la caché de indicaciones. Use `0` si no se usa el almacenamiento en caché. Los tokens almacenados en caché se deducen 100% del cálculo de uso y no consumen capacidad de PTU.

TPM normalizado

El cálculo manual de ptUs convierte el volumen de tokens esperado en un único número denominado TPM normalizado. A continuación, el número de PTU necesarios se determina dividiendo el TPM normalizado por el valor de TPM de entrada del modelo por PTU .

Fórmulas:

TPM de entrada = Pico de RPM × tamaño medio de aviso (tokens)
TPM de salida = Pico de RPM × tamaño medio de respuesta (tokens)
TPM normalizado = (TPM de entrada × (1 - velocidad de caché)) + (relación de salida a entrada × TPM de salida)
PTU requerido = TPM normalizado ÷ TPM de entrada por PTU

Ejemplo de trabajo:

Supongamos que su aplicación envía solicitudes a una tasa máxima de 1.000 RPM, con un tamaño medio del mensaje de entrada de 200 tokens y un tamaño medio de respuesta de 20 tokens, con el modelo gpt-5.2 y una implementación con rendimiento aprovisionado de zona de datos. En la tabla, gpt-5.2 tiene un TPM de entrada por PTU de 3400 y una relación de salida a entrada de 8.

TPM de entrada = 1000 × 200 = 200 000
TPM de salida = 1000 × 20 = 20 000
TPM normalizado (sin caché) = 200 000 + (8 × 20 000) = 360 000
PTU requeridas = 360 000 ÷ 3400 = 105,88 (110 PTU redondeadas hasta las 5 PTU más cercanas, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2).

Si el 50 % de los tokens de entrada se obtienen de la caché de indicaciones:

Entrada efectiva TPM = 200 000 × (1 − 0,50) = 100 000
TPM normalizado = 100 000 + (8 × 20 000) = 260 000
PTU requeridas = 360 000 ÷ 3400 = 105,88 (110 PTU redondeadas hasta las 5 PTU más cercanas, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2).

En resumen, las PTUs necesarias para esta forma de llamada de ejemplo con y sin almacenamiento en caché son las siguientes:

Llamadas máximas por minuto (RPM)	Tamaño de la solicitud (tokens)	Tamaño de respuesta (tokens)	Tasa de caché	TPM de entrada	TPM de salida	TPM normalizado	PTU estimados	PTU (redondeado hacia arriba)¹
1,000	200	20	0%	200,000	20,000	360.000	105.88	110
1,000	200	20	50 %	100,000	20,000	260 000	76.47	80

¹ Redondeado hasta los 5 PTU más cercanos, que coinciden con el incremento de escala aprovisionado de zona de datos para gpt-5.2.

Uso de la calculadora de capacidad

Use la calculadora de capacidad en el portal de Foundry para ajustar el tamaño de las formas de carga de trabajo específicas. Busque la calculadora en la página Cuota y escriba los parámetros siguientes en función de la carga de trabajo:

Input	Description
Modelo	El modelo que planea usar.
Version	La versión del modelo que planea usar.
Llamadas máximas por minuto	Número de llamadas por minuto que se espera que se envíen al modelo.
Tokens en la llamada de aviso	Número de tokens en el texto de entrada para cada llamada al modelo. Las llamadas con mensajes más grandes consumen más capacidad de PTU. La calculadora asume un único valor de prompt; para cargas de trabajo con una gran variabilidad en el tamaño de los prompts, evalúe el rendimiento de un despliegue con su tráfico real para obtener una estimación más precisa.
tokens en la respuesta del modelo	Número de tokens generados por llamada, también denominado tamaño de generación. Las llamadas con tamaños de generación mayores consumen más capacidad de PTU. Al igual que con los tokens de solicitud, la calculadora asume un único valor.
Ratio de caché	Porcentaje de tokens de entrada obtenidos de la caché de indicaciones.

Después de rellenar los detalles necesarios, seleccione Calcular. La salida muestra:

Recuento estimado de PTU necesario para la carga de trabajo. Este valor se redondea al incremento de escala de PTU más cercano para el tipo de implementación seleccionado o al número mínimo de PTU del tipo de implementación, dependiendo de cuál sea mayor.
El recuento estimado de PTU en bruto (sin redondear).

Cómo afectan los tokens de entrada y salida al rendimiento

El rendimiento (medido como tokens por minuto o TPM) que una implementación obtiene por PTU depende del modelo y de la combinación de tokens de entrada y salida en un minuto determinado. La generación de tokens de salida requiere más capacidad de procesamiento que consumir tokens de entrada.

Para los modelos GPT-4.1 y versiones posteriores, el sistema determina una relación de salida a entrada para que coincida con la relación de precios estándar global entre los tokens de entrada y salida, con excepciones para algunos modelos. Por ejemplo

Para gpt-5, un token de salida cuenta como ocho tokens de entrada de cara a su límite de uso, en consonancia con la proporción del precio estándar global del modelo.
Para gpt-4.1, un token de salida cuenta como cuatro tokens de entrada.
Los modelos más antiguos usan diferentes ratios.

En todas las implementaciones, los tokens almacenados en caché se deducen al 100 % del cálculo de la utilización, lo que significa que los tokens de solicitud repetidos no consumen capacidad de PTU. Consulte Almacenamiento en caché de indicaciones para obtener más información.

Modelos con una relación de salida a entrada no estándar

Algunos modelos usan una relación de salida a entrada que difiere de su relación de precios estándar global. Por ejemplo, con Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada de cara a su límite de uso, lo que difiere de la proporción de precios estándar de ese modelo. Consulte los precios de los modelos llama para obtener el desglose completo de los precios de entrada y salida.

Parámetros de implementación y valores de rendimiento por modelo

En las tablas de esta sección se enumeran los parámetros de rendimiento e implementación de cada modelo admitido. Para comprender cuáles son los parámetros de cada fila, consulte el Apéndice.

Modelos Azure OpenAI más recientes

Note

gpt-5.4, gpt-4.1, gpt-4.1-mini y gpt-4.1-nano no son compatibles con un contexto extenso (solicitudes que se estima que superan los 128k tokens del prompt).

Tema	gpt-5.5, 2026-04-24	gpt-5.4, 2026-03-05	gpt-5.4-mini, 2026-03-17	gpt-5.3-codex, 2026-02-24	gpt-5.2, 2025-12-11	gpt-5.2-codex, 2026-01-14	gpt-5.1, 2025-11-13	gpt-5.1-codex, 2025-11-13	gpt-5, 2025-08-07	gpt-5-mini, 2025-08-07	gpt-4.1, 2025-04-14	gpt-4.1-mini, 2025-04-14	gpt-4.1-nano, 2025-04-14	o3, 2025-04-16	o4-mini, 2025-04-16
Implementación mínima aprovisionada de la zona global y de datos	15	15	15	15	15	15	15	15	15	15	15	15	15	15	15
Incremento & de escala aprovisionado en la zona de datos y global	5	5	5	5	5	5	5	5	5	5	5	5	5	5	5
Implementación mínima aprovisionada regional	50	50	25	50	50	50	50	50	50	25	50	25	25	50	25
Incremento regional de la escala aprovisionada	50	50	25	50	50	50	50	50	50	25	50	25	25	50	25
TPM de entrada por PTU	1,200	2,400	7,900	3,400	3,400	3,400	4,750	4,750	4,750	23.750	3,000	14,900	59.400	3,000	5,400
Relación de salida a entrada	6	6	6	8	8	8	8	8	8	8	4	4	4	4	4
Valor objetivo de latencia¹	99% > 100 TPS	99% > 50 TPS	99% > 100 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 80 TPS	99% > 80 TPS	99% > 90 TPS	99% > 100 TPS	99% > 80 TPS	99% > 90 TPS

¹ Se calcula como latencia de solicitud p50 por cada 5 minutos. TPS = tokens por segundo.

Modelos anteriores Azure OpenAI

Tema	gpt-4o	gpt-4o-mini	o3-mini	o1
Implementación mínima aprovisionada de la zona global y de datos	15	15	15	15
Incremento & de escala aprovisionado en la zona de datos y global	5	5	5	5
Implementación mínima aprovisionada regional	50	25	25	25
Incremento regional de la escala aprovisionada	50	25	25	50
TPM de entrada por PTU	2,500	37,000	2,500	230
Relación de salida a entrada	4	4	4	4
Valor objetivo de latencia¹	99% > 25 TPS	99% > 33 TPS	99% > 66 TPS	99% > 25 TPS

¹ Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.

Modelos de Foundry comercializados por Azure

En esta sección se enumeran otros modelos de Foundry vendidos por Azure, no incluidos los Azure OpenAI en Foundry Models enumerados en las tablas anteriores.

Tema	Llama-3.3-70B-Instruct	DeepSeek-R1	DeepSeek-V3-0324
Implementación mínima aprovisionada de la zona global y de datos	100	100	100
Incremento & de escala aprovisionado en la zona de datos y global	100	100	100
Implementación mínima aprovisionada regional	NA	NA	NA
Incremento regional de la escala aprovisionada	NA	NA	NA
TPM de entrada por PTU	8,450	4,000	4,000
Relación de salida a entrada	4¹	4	4
Valor objetivo de latencia²	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS

¹ Para Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Consulte Modelos con una relación de salida a entrada no estándar y los precios del modelo Llama.

² Se calcula como la latencia media de la solicitud por minuto a lo largo del mes. TPS = tokens por segundo.

Fuegos artificiales en modelos Microsoft Foundry

Los siguientes modelos Fireworks de Microsoft Foundry admiten el rendimiento aprovisionado de la zona de datos global y de EE. UU.

Tema	DeepSeek v3.1	DeepSeek v3.2	DeepSeek V4 Flash	DeepSeek V4 Pro	Gemma 4 26B A4B IT	Gemma 4 31B IT	GLM-4.7	GLM 5	GLM-5.1	GLM 5.2	gpt-oss-120b	Kimi K2 Instruct 0905	Kimi K2 Thinking	Kimi K2.5	Kimi K2.6	Kimi K2.7 Code	MiniMax M2.5	Ministral 3 3B Instruct 2512	Nemotron Super 120B	Qwen 3.5 9B	Qwen 3.5 35B A3B	Qwen 3.5 112B A10B	Qwen 3.5 397B	Qwen 3.6 27B	Qwen 3.6 35B A3B
Despliegue mínimo	200	300	100	400	200	200	200	300	400	400	40	200	200	200	200	200	400	40	100	40	40	100	100	40	40
Incremento de escala	100	150	50	200	100	100	100	150	200	200	20	100	100	100	100	100	200	20	50	20	20	50	50	20	20
TPM de entrada por PTU	2,100	3,000	2800	200	5,400	2200	6,000	600	900	300	13,500	2,500	1,400	1,060	4,000	2,000	5.300	25,400	4,850	10.700	17,800	5.600	4.250	7,700	31,000
Valor objetivo de latencia¹	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS	99% > 50 TPS