Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Visualización actual:Nueva versión - Cambio a la versión del portal de Foundry clásico
El rendimiento asignado es un tipo de implementación de Microsoft Foundry que proporciona un rendimiento de procesamiento de modelos dedicado para su implementación. A diferencia de las implementaciones estándar, donde la capacidad de inferencia se comparte entre los clientes y el rendimiento puede variar con la demanda, una implementación aprovisionada contiene una cantidad fija de capacidad de procesamiento exclusivamente para el uso de la implementación, tanto si se realizan solicitudes como si no.
En este artículo se presentan los conceptos básicos del rendimiento aprovisionado: qué es, cuándo usarlo, cómo se mide y factura la capacidad, y qué saber sobre la cuota y la capacidad antes de implementar.
Categorías de implementación en comparación
Las implementaciones estándar, las implementaciones por lotes, el procesamiento de prioridad y el rendimiento aprovisionado son formas de implementar modelos en Microsoft Foundry. La elección adecuada depende de los requisitos de latencia, los patrones de tráfico y la tolerancia a costos.
| Tipo de implementación | Billing | Acuerdo de nivel de servicio (SLA) de latencia | Tipo de carga de trabajo y necesidades |
|---|---|---|---|
| Standard | Pago por token | Ninguno | Cargas de trabajo equilibradas: desarrollo, pruebas y producción con tráfico variable o imprevisible |
| Procesamiento prioritario | Pago por token (tarifa del nivel prioritario) | Destino de latencia definida por modelo | Cargas de trabajo de producción sensibles a la latencia que necesitan una latencia baja coherente sin un compromiso a largo plazo |
| Aprovisionado | Por PTU y por hora (o mediante reservas de Azure) | Destino de latencia definida por modelo | Cargas de trabajo de producción críticas y a gran escala que requieren un rendimiento garantizado y una latencia coherente |
| Batch | Pago por token (tasa de lotes con descuento) | Ninguno | Cargas de trabajo de procesamiento masivo sin requisitos de latencia. Los resultados se devuelven de forma asincrónica. |
Cuándo usar el rendimiento aprovisionado
El rendimiento aprovisionado es la opción adecuada cuando la aplicación tiene:
- Patrones de tráfico predecibles: tiene una estimación razonable de solicitudes por minuto y volúmenes de token.
- Requisitos sensibles a la latencia: los usuarios o los sistemas de bajada necesitan respuestas coherentes y de baja latencia.
- Volumen a escala de producción: casos de uso de alto rendimiento en los que la facturación por token resulta costosa.
- Escenarios interactivos o en tiempo real: aplicaciones de chat, copilotos o agentes en los que los tiempos de respuesta variable degradan la experiencia del usuario.
Las implementaciones estándar siguen siendo la mejor opción para el desarrollo, las pruebas, el uso de bajo volumen o el tráfico muy variable que dificulta el tamaño de una implementación de antemano.
Unidades de rendimiento provisionadas
Las unidades de rendimiento aprovisionadas (PTU) son la unidad de medida para el rendimiento aprovisionado. Una PTU representa una cantidad fija de capacidad de procesamiento de modelos. Al crear una implementación aprovisionada, especifique cuántas PTU se van a asignar. Foundry reserva esa cantidad de capacidad de cómputo y la mantiene para tu despliegue.
Características clave de las PTU:
- Independiente del modelo: la misma cuota de PTU se puede usar para implementar cualquier modelo compatible. No compras PTUs para un modelo específico.
- Específico de la región: se concede la cuota de PTU por suscripción, por región y por tipo de implementación. La cuota en el Este de EE. UU. no se transfiere a Oeste de Europa.
- El rendimiento varía según el modelo: los tokens por minuto (TPM) que ofrece un número determinado de PTUs dependen del modelo. Un modelo más pesado requiere más PTU para atender el mismo TPM que uno más ligero. Para conocer las relaciones de PTU a TPM por modelo, consulte Parámetros de rendimiento por modelo.
- Se aplican tamaños de implementación mínimos: cada modelo tiene un recuento mínimo de PTU necesario para crear una implementación. Los mínimos varían según el modelo y se enumeran en Parámetros de implementación y valores de rendimiento por modelo.
Cuota y capacidad
La cuota y la capacidad de PTU son conceptos relacionados, pero distintos, que afectan a la posibilidad de crear o no una implementación. En esta sección se explica qué es cada uno, cómo solicitar cuota adicional y cómo comprobar si la capacidad está disponible en su región.
¿Qué es la cuota de PTU?
La cuota de PTU es el número máximo de PTUs que puede implementar por suscripción, por región y por tipo de implementación. La cuota es un límite de directivas aplicado por Azure y no tiene ningún costo asociado. La cuota se define a nivel de oferta (Global Provisioned, Data Zone Provisioned y Regional Provisioned son grupos de cuotas separados) y a nivel de región (por ejemplo, la cuota en East US no se aplica a West Europe).
Se asigna una cantidad predeterminada de cuota a las suscripciones aptas en varias regiones.
¿Qué es la capacidad?
La capacidad es la cantidad real de PTU por versión del modelo que está disponible para implementarse. La capacidad se asigna en el momento de la implementación y se mantiene durante la vigencia de la implementación.
Importante
Tener cuota de PTU no garantiza que la capacidad esté disponible. Si la capacidad de la región no es suficiente para el recuento de PTU solicitado, se produce un error en la implementación. Compruebe siempre la disponibilidad de la capacidad antes de planear una implementación o comprar una reserva.
Dado que la capacidad es un recurso finito, que cambia dinámicamente:
- La disponibilidad de la capacidad cambia a lo largo del día en función de la demanda del cliente en todas las regiones y modelos.
- Eliminar o reducir un despliegue libera su capacidad y la devuelve a la reserva regional. No hay ninguna garantía de que la misma capacidad esté disponible si vuelve a crear o escalar verticalmente la implementación más adelante.
Obtención de cuota
Se asigna una cantidad predeterminada de cuota aprovisionada global, de zona de datos y regional a suscripciones aptas en varias regiones. Puede solicitar más cuota o capacidad mediante el envío del formulario de solicitud de cuota. El formulario también está disponible en el portal de Foundry en la página Cuota .
La aprobación puede tardar varios días en función de la disponibilidad de la cuota y recibirá una notificación por correo electrónico cuando se apruebe la solicitud.
Comprobación de la capacidad disponible
Para comprobar la disponibilidad de la capacidad en tiempo real:
- Use la experiencia de implementación del portal de Foundry, que indica si la capacidad está disponible al intentar crear una implementación y enumera regiones alternativas con capacidad disponible si la región de destino no tiene suficiente.
- Use la API de capacidades de modelo para consultar mediante programación el número máximo de PTU que se puede implementar para un modelo y una región determinados.
Si la región de destino no tiene capacidad disponible:
- Envíe el formulario de solicitud de cuota para solicitar más cuota o capacidad.
- Pruebe a desplegar con menos PTUs.
- Vuelva a intentarlo más adelante, ya que la disponibilidad de la capacidad cambia dinámicamente a lo largo del día.
Para obtener instrucciones paso a paso sobre cómo crear implementaciones aprovisionadas y controlar las restricciones de capacidad, consulte Introducción a las implementaciones aprovisionadas.
Ajuste del tamaño de PTU
Antes de crear una implementación aprovisionada, calcule cuántas PTUs requiere la carga de trabajo. Tres factores impulsan el cálculo:
- Forma de solicitud: las solicitudes esperadas por minuto (RPM), el tamaño medio del mensaje (tokens de entrada) y el tamaño medio de respuesta (tokens de salida).
- Relación de salida a entrada: los tokens de salida requieren más capacidad de procesamiento que los tokens de entrada. Cada modelo tiene una relación que expresa el número de tokens de entrada que un token de salida equivale a para fines de capacidad. Para los modelos GPT-4.1 y posteriores de Azure OpenAI, esta relación coincide con la relación de precios estándar global del modelo entre los tokens de salida y de entrada. Para obtener más información sobre esta relación, consulte Parámetros de implementación y valores de rendimiento por modelo.
- Tasa de caché: la fracción de los tokens de entrada servidos desde la memoria caché del mensaje. Los tokens almacenados en caché no consumen capacidad de PTU, por lo que una mayor tasa de caché reduce las PTU necesarias.
El cálculo de dimensionamiento usa estos factores para convertir los volúmenes de tokens esperados en un único valor de TPM normalizada y, a continuación, divide ese valor entre el valor de TPM de entrada por PTU del modelo para obtener el número de PTU necesario.
Puede ajustar el tamaño manualmente, mediante las fórmulas y los valores por modelo, o bien usar la calculadora de capacidad en el portal de Foundry (clásico) para obtener una estimación guiada.
Para obtener la metodología de ajuste de tamaño completa, incluidas las fórmulas, los ejemplos trabajados y la referencia de la calculadora de capacidad, consulte Determinar el tamaño de PTU de una carga de trabajo.
Tipos de implementación del rendimiento aprovisionado
El rendimiento aprovisionado está disponible como tres tipos de implementación. Todas proporcionan capacidad dedicada y latencia predecible una vez implementada. La diferencia es donde se procesa el tráfico de inferencia:
| Tipo de implementación |
sku-name en CLI |
Enrutamiento de datos | Más adecuado para |
|---|---|---|---|
| Aprovisionamiento global | GlobalProvisionedManaged |
Enrutado entre regiones de Azure globalmente | Mayor disponibilidad; cuando la región de enrutamiento no está restringida |
| Zona de datos aprovisionada | DataZoneProvisionedManaged |
Permanece dentro de una zona geográfica (EE. UU. o UE) | Residencia de datos en el nivel de zona con mayor disponibilidad que la regional |
| Aprovisionado regional | ProvisionedManaged |
Permanece en la región de Azure específica de la implementación. | Requisitos estrictos de residencia de datos en una única región |
Para obtener una comparación completa de todos los tipos de implementación de Foundry, incluido standard, batch y provisioned, consulte Deployment types for Microsoft Foundry Models.
Modelos compatibles
Para obtener una lista completa de los Modelos de Foundry que admiten capacidad de procesamiento aprovisionada, incluidos los tipos de implementación compatibles con cada modelo y la disponibilidad regional, consulte Disponibilidad regional de los Modelos de Foundry vendidos directamente por Azure.
Desbordamiento
El desvío de tráfico es una configuración opcional para gestionar las fluctuaciones del tráfico en implementaciones con capacidad aprovisionada mediante el enrutamiento automático de las solicitudes excedentes a la implementación estándar correspondiente dentro del mismo recurso de Foundry. Cuando una implementación aprovisionada está totalmente utilizada y devuelve respuestas distintas de 200 (como, por ejemplo, 429 cuando se agotan las PTU), el desbordamiento redirige esas solicitudes a la implementación estándar, lo que ayuda a reducir las interrupciones durante los picos de tráfico.
Todos los Azure OpenAI en Foundry Models que admiten el rendimiento aprovisionado también admiten el desbordamiento. Los modelos foundry de otros proveedores (Azure DeepSeek, Meta Llama) no admiten actualmente el desbordamiento.
El desbordamiento puede configurarse para todas las solicitudes de una implementación o controlarse individualmente para cada solicitud mediante el encabezado de solicitud x-ms-spillover-deployment. Para conocer los pasos de configuración, consulte Gestionar el tráfico con desbordamiento para implementaciones aprovisionadas.
Facturación por hora y reservas de Azure
Las implementaciones aprovisionadas admiten dos modos de facturación: facturación por hora para un uso flexible y a corto plazo, y Azure Reservations para cargas de trabajo de producción sostenidas a una tarifa con descuento.
Facturación por hora
Todos los tipos de implementación aprovisionados se facturan a una tarifa horaria ($/PTU/hr) en función del número de PTUs implementadas, independientemente del número de tokens consumidos. El medidor se inicia cuando se crea la implementación y se detiene cuando se elimina.
La facturación por hora es práctica para escenarios a corto plazo, como realizar pruebas comparativas de un nuevo modelo o escalar verticalmente temporalmente para un evento como un hackathon. Sin embargo, no prevea aumentar y reducir las implementaciones con capacidad aprovisionada en función del tráfico para mantener la facturación por hora por estos motivos:
Puede que la capacidad no esté disponible cuando necesite volver a aumentarla.
La facturación por hora continua con un uso elevado suele superar los precios de la reserva.
Para obtener instrucciones completas sobre la facturación por hora y el escalado de implementaciones aprovisionadas, consulte Facturación por hora.
Reservas de Azure
Las reservas de Azure son un descuento económico aplicado al medidor de facturación de PTU (el contador de uso por hora sobre el que Azure cobra), no a los despliegues individuales. A cambio de un compromiso de 1 mes o 1 año, recibe una tarifa efectiva con descuento de $/PTU/h. Algunos aspectos clave que hay que tener en cuenta sobre las reservas son:
Las reservas se adquieren por tipo de implementación (global, zona de datos o regional) y se pueden limitar a cubrir una o varias suscripciones o grupos de recursos.
Las reservas y los despliegues están débilmente acoplados, lo que significa que puede crear despliegues y reservas de forma independiente.
Las reservas no garantizan la capacidad. En primer lugar, cree implementaciones para confirmar que la capacidad está disponible y, a continuación, compre la reserva para bloquear la tarifa con descuento.
Para obtener instrucciones completas sobre el dimensionamiento, la compra y la administración de reservas, consulte Reservas de Azure para el rendimiento aprovisionado.
Seguimiento de los costos y la facturación de PTU
Use Microsoft Cost Management para realizar un seguimiento y analizar los costos de uso y reserva de PTU:
| Qué desea hacer | Artículo |
|---|---|
| Vea el porcentaje de las PTU reservadas que están en uso activamente en las implementaciones. | Ver el uso de reservas de Azure |
| Revisar el historial de compras y cualquier actividad de reembolso | Ver las transacciones de compra y reembolso de reservas de Azure |
| Comprender el impacto de los costos amortizados de las reservas para obtener una visibilidad más clara de la facturación por implementación | Visualización de los costos de beneficios amortizados |
| Distribuir los costos de reserva entre equipos o proyectos para la atribución de costos internos | Repercutir los costos de la reserva de Azure |
| Configuración de la renovación automática para evitar la expiración de la reserva y mantener la tarifa con descuento | Renueva automáticamente las reservas de Azure |
Contenido relacionado
- Introducción a las implementaciones aprovisionadas
- Costos y facturación de PTU
- Administración del tráfico con desbordamiento para implementaciones aprovisionadas
- Habilitar el procesamiento prioritario para los modelos de Microsoft Foundry
- Ahorra costes con las reservas de rendimiento aprovisionado para Microsoft Foundry
- Cuotas y límites de los modelos de Foundry