Facturación y gestión de costos del rendimiento aprovisionado

Visualización actual:Nueva versión - Cambio a la versión del portal de Foundry clásico

Las implementaciones de ancho de banda aprovisionado en Microsoft Foundry admiten la facturación por horas para un uso flexible a corto plazo, así como Reservas de Azure para cargas de trabajo de producción continuadas a una tarifa reducida. En este artículo se explica cómo funciona la facturación de PTU, le ayuda a elegir entre la facturación por hora y las reservas de Azure, y se explica cómo supervisar y administrar los costos de reserva.

Si no está familiarizado con el rendimiento aprovisionado, comience con ¿Qué es el rendimiento aprovisionado para foundry Models?. Para calcular el número de PTUs que necesita la carga de trabajo, consulte Determinación del tamaño de PTU de una carga de trabajo. Cuando esté listo para crear la primera implementación, consulte Introducción a las implementaciones aprovisionadas.

Funcionamiento de la facturación de PTU

Las unidades de rendimiento aprovisionadas (PTU) son unidades genéricas de capacidad de procesamiento de modelos. Al crear una implementación aprovisionada, especifique cuántas PTU se van a asignar. Foundry reserva y mantiene esa capacidad de PTU para la implementación, y se le cobra por horas, independientemente de si la implementación está administrando solicitudes o no. En otras palabras, se le factura cada hora en función del número de unidades de rendimiento aprovisionadas (PTU) que implemente, en lugar del número de tokens consumidos.

La facturación de PTU tiene dos características importantes:

  • Facturado por capacidad implementada, no consumo de tokens: a diferencia de la facturación de pago por token, paga por capacidad reservada. Las solicitudes que se completan correctamente consumen esa capacidad, pero se le factura el recuento completo de PTU implementado independientemente del uso real.
  • Independiente del modelo: la cuota de PTU se comparte entre todos los modelos admitidos en una región y un tipo de implementación. El mismo grupo de PTU se puede usar para implementar cualquier modelo compatible. No compras PTUs para un modelo específico. La cuota de PTU para cada tipo de implementación aprovisionada aparece en la página Cuota del portal de Foundry.

Las implementaciones aprovisionadas admiten dos modos de facturación: facturación por hora para un uso flexible y a corto plazo, y Azure Reservations para cargas de trabajo de producción sostenidas a una tarifa con descuento.

Note

Los clientes de Foundry aprovisionados y dados de alta antes de la actualización de autoservicio de agosto de 2024 utilizan un modelo de compra denominado modelo de Compromiso. Estos clientes pueden seguir usando el modelo de compromiso junto con la facturación por hora o reserva. El modelo de compromiso no está disponible para clientes nuevos ni para determinados modelos introducidos después de agosto de 2024. Para obtener más información sobre el modelo de compra por compromiso y las opciones de coexistencia y migración, consulte Actualización de agosto de Foundry Provisioned.

Facturación por hora

Las implementaciones aprovisionadas (regionales, de zona de datos y globales) se facturan a una tarifa por hora ($/PTU/h) en función del número de PTU implementadas. Por ejemplo, una implementación de 300 PTU se factura según: tarifa por hora × 300.

Si un despliegue existe solo durante una parte de una hora, se le aplica un cargo prorrateado:

  • Un despliegue que dura 15 minutos se factura a 1/4 de la tarifa horaria.
  • Si cambia el tamaño de la implementación, la facturación se ajusta inmediatamente al nuevo recuento de PTU.

Diagrama que muestra la facturación por hora de las implementaciones aprovisionadas, donde el costo viene determinado por el recuento de PTU y las horas implementadas.

Las implementaciones aprovisionadas no se pueden pausar. La facturación solo se detiene cuando se elimina la implementación.

Para conocer los precios actuales de PTU por familia de modelos, consulte precios de Azure OpenAI, precios del modelo Llama y precios del modelo DeepSeek.

Cuándo usar la facturación por hora

La facturación por hora es adecuada para escenarios a corto plazo, como:

  • Evaluar comparativamente la calidad o el rendimiento del modelo antes de comprometerse con una reserva.
  • Aumento temporal de la capacidad de PTU con motivo de un evento como un hackathon.

La facturación por hora no es adecuada para los despliegues en producción (utilice reservas en su lugar). No deberías usar la facturación por hora para ampliar y reducir los despliegues de producción según cambie el tráfico, por estos motivos:

  • Coste: las reservas de Azure ofrecen importantes descuentos en comparación con la facturación por hora. Mantener una implementación dimensionada para todo el volumen de producción con una reserva suele ser menos costoso que la facturación horaria continua con la implementación ampliada o reducida en función del tráfico entrante.
  • Riesgo de capacidad: la cuota no utilizada no garantiza que la capacidad esté disponible cuando quiera volver a ampliar su despliegue de PTU. La capacidad aprovisionada es un recurso finito que cambia dinámicamente. Una estrategia de reducción y ampliación de capacidad puede dejarte sin capacidad justo cuando más la necesitas.

Escalar implementaciones aprovisionadas

Puede aumentar o disminuir el recuento de PTU de una implementación aprovisionada existente en cualquier momento en el portal de Foundry o a través de la API. La facturación se ajusta inmediatamente al nuevo recuento de PTU.

Tenga en cuenta estas restricciones al escalar:

  • Ampliar la capacidad requiere capacidad disponible: las PTU adicionales dependen de la capacidad disponible en el momento del cambio de tamaño. Si la capacidad de PTU en la región es insuficiente para el nuevo número de PTU, la ampliación falla. Use la experiencia de implementación del portal de Foundry o la API de capacidades del modelo para comprobar la capacidad antes de planear un evento de escalado vertical.
  • La reducción de escala libera capacidad de forma permanente: al reducir el número de PTU de una implementación, la capacidad liberada se devuelve a la reserva regional. No se garantiza que la misma capacidad esté disponible si más adelante vuelve a ampliarla.
  • La facturación se actualiza inmediatamente: se aplica la nueva cantidad de PTU desde el momento en que se completa el redimensionamiento, prorrateada por minuto.
  • Las reservas no se ven afectadas por el redimensionamiento del despliegue: si el despliegue está cubierto por una reserva y reduce su tamaño, la reserva mantiene su cantidad original de PTU. Las PTU desplegadas que quedan por debajo de la cantidad reservada dan lugar a capacidad de la reserva sin utilizar; las PTU desplegadas que superan esa cantidad se facturan a la tarifa horaria. Vea Ejemplo de exceso de reserva.

Reservas de Azure para capacidad de proceso aprovisionada

Una reserva de Azure es un mecanismo de descuento por plazo que comparten muchos productos de Azure, como Azure Compute y Cosmos DB. Las reservas de Azure para el rendimiento aprovisionado (regional, de zona de datos y global) son un descuento financiero aplicado a los medidores de facturación de PTU, no a las interacciones del servicio, como la creación de implementaciones. Con Reservations, usted se compromete a pagar un número fijo de PTU durante un período de un mes o un año, y a cambio, recibirá una tarifa de $/PTU/h con descuento. El descuento hace que las reservas sean significativamente más rentables que la facturación por hora a largo plazo para cargas de trabajo sostenidas.

Las reservas y las implementaciones están acopladas de forma flexible: se crean implementaciones y reservas de forma independiente. Esta flexibilidad le permite cambiar los recursos, las suscripciones o las implementaciones sin cambiar la construcción de facturación.

Importante

Dado que la disponibilidad de la capacidad para las implementaciones de modelos es dinámica y cambia con frecuencia entre regiones y modelos, primero cree implementaciones y, a continuación, compre la reserva de Azure para cubrir las PTUs que ha implementado. Este enfoque le evita comprometerse a reservar PTU que no pueda implementar y le garantiza que se beneficie del descuento completo por reserva.

Datos clave de la reserva

Tema Detalles
Comprado en el portal de Azure Las reservas de Azure se compran a través de la página Reservas de Azure Portal.
Comprado por tipo de implementación Las reservas aprovisionadas globales, de zona de datos y regionales son compras independientes. Una reserva aprovisionada global no cubre una implementación aprovisionada regional.
Las reservas globales no son específicas de la región Una sola reserva global se puede aplicar a las implementaciones de PTU globales en varias regiones, siempre y cuando tenga suficientes unidades reservadas para cubrir el total de PTUs implementados. Aún puede comprar una reserva global por región para mantener una asignación uno a uno si lo prefiere.
Las reservas globales se pueden consolidar Dado que una reserva global beneficia a los despliegues en varias regiones, puede consolidarse en una sola reserva. Por ejemplo, si tiene 50 PTU globales en este de EE. UU., 100 en Oeste de Europa y 200 en el Este de Australia, puede comprar una única reserva global para 350 unidades en cualquier región para cubrir todas las implementaciones en las tres regiones.
Tasa con descuento para un compromiso a plazo A cambio de un compromiso de permanencia de 1 mes o 1 año, obtendrá una tarifa efectiva de $/PTU/h reducida frente a la facturación por horas. El descuento varía según la familia de modelos y la longitud del término. Para conocer las tarifas actuales, consulte Ahorre costes con las reservas de rendimiento aprovisionado de Microsoft Foundry o use la calculadora de precios de Azure.
Ámbito flexible Una reserva puede tener como ámbito cubrir un grupo de recursos individual o una suscripción, un grupo de suscripciones en un grupo de administración o todas las suscripciones de una cuenta de facturación. Todas las implementaciones coincidentes dentro del ámbito cubierto comparten el descuento, hasta la cantidad de PTU de la reserva. Consulte cómo funciona la coincidencia de reservas.
Superpuestos y actualizables Se pueden comprar nuevas reservas para cubrir el mismo ámbito que las reservas existentes, lo que le permite aplicar el descuento a los nuevos despliegues aprovisionados. El ámbito de las reservas existentes se puede actualizar en cualquier momento sin penalización. Por ejemplo, puede actualizar el ámbito de la reserva existente para cubrir una nueva suscripción.
Independiente del modelo El descuento por reserva se aplica a cualquier modelo compatible implementado dentro del ámbito coincidente. No compras una reserva para un modelo específico. Al agregar un nuevo modelo a la cartera de implementación, la reserva existente la cubre automáticamente si está dentro del ámbito.
Activo inmediatamente El descuento por reserva se aplica a las implementaciones coincidentes en cuanto la reserva entra en estado Activo después de la compra. No hay ningún retraso entre la compra y la activación del descuento.
El exceso se factura cada hora Si las PTU implementadas incluidas en el alcance superan la cantidad reservada, las PTU excedentes se facturarán según la tarifa horaria estándar. Vea Ejemplo de exceso de reserva.
Las reservas no garantizan la capacidad La compra de una reserva no reserva capacidad en el servicio. Cree primero implementaciones para confirmar que la capacidad está disponible y, a continuación, compre la reserva.
Cancelable, con límites Las reservas se pueden cancelar o intercambiar después de la compra, pero esas acciones pueden incurrir en cargos. Consulte Ajustar las reservas a medida que cambia la carga de trabajo para obtener más información.

Para comprobar que sus implementaciones existentes están cubiertas después de adquirir una reserva, consulte Compruebe que sus implementaciones están cubiertas.

Cómo funciona el emparejamiento de reservas

El descuento por reserva se aplica automáticamente cuando las tres condiciones coinciden entre una implementación en ejecución y una reserva:

  • Tipo de implementación: el tipo de implementación (Global, Data Zone o Regional) debe coincidir.
  • Region: para implementaciones regionales y de zona de datos, la región Azure de la implementación debe coincidir con la región de la reserva. Las reservas globales no son específicas de la región y una sola reserva global puede cubrir implementaciones de PTU globales en varias regiones, siempre y cuando el número total de PTUs implementados no supere la cantidad de reserva.
  • Ámbito: el ámbito de reserva debe incluir la suscripción o el grupo de recursos de la implementación.

La correspondencia no se basa en el modelo ni en el ID de implementación. Varias implementaciones que cumplen las tres condiciones comparten la misma reserva hasta alcanzar su cantidad de PTU.

Ejemplo de exceso de reserva

Supongamos que adquiere una reserva global aprovisionada de 500 PTU (adquirida en Este de EE. UU. 2) para una suscripción concreta. Dado que se trata de una reserva global, abarca implementaciones de PTU globales coincidentes en todas las regiones dentro del ámbito de la reserva, no solo Este de EE. UU. 2. Si sus implementaciones globales existentes ya consumen 300 PTUs en los modelos de Azure OpenAI en varias regiones y agrega una implementación global de DeepSeek-R1 en Australia Oriental:

Se han agregado PTUs de DeepSeek Cubierto por reserva Uso por encima del límite por hora
200 PTUs Todos los 200 (200 PTU restantes en reserva) Ninguno: cantidad total de PTUs consumidas = 500
300 PTUs 200 (reserva agotada al alcanzar un total de 500) Se facturan 100 PTUs por hora hasta que los tamaños de las implementaciones se reduzcan a 500 PTUs, o se cree una nueva reserva para cubrir las 100 restantes.

El descuento se aplica automáticamente a todos los modelos incluidos. No es necesario reconfigurar la reserva al añadir un modelo nuevo.

Importante

Los requisitos de rol de Azure y de política del inquilino para comprar una reserva difieren de los necesarios para crear una implementación o un recurso de Foundry. Compruebe la autorización para comprar reservas antes de que tenga que hacerlo. Consulte Reservas de rendimiento aprovisionado de Foundry para conocer los requisitos de rol y los pasos para la compra.

Para comprar o administrar reservas, vaya a la página Reservations del portal de Azure.

Para obtener orientación sobre cuántas PTU incluir en una reserva, consulte Dimensione la reserva de capacidad de proceso aprovisionada de Foundry.

Ajuste el tamaño de su reserva de rendimiento aprovisionada de Foundry

La cantidad de PTU en una compra por reserva es independiente de su asignación de cuota y de las PTU utilizadas en sus implementaciones actuales. Puede adquirir una reserva por el número de PTU que desee, pero solo las PTU implementadas que se encuentren dentro del ámbito de la reserva se beneficiarán del descuento. Para protegerse frente a la compra excesiva:

  • Cree las implementaciones antes de comprar una reserva: esto confirma que la capacidad está disponible para la región y el modelo deseados. Comprar una reserva antes de implementar puede hacer que se comprometa con PTU que no puede usar.
  • Alinear el tamaño de la reserva con las PTU desplegadas: Alinee el tamaño de la reserva con las PTU desplegadas actualmente dentro del ámbito de la reserva. Las PTU incluidas que superen la cantidad reservada se cobran a la tarifa horaria. Vea Ejemplo de exceso de reserva.
  • Comprar reservas independientes por tipo de implementación: las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables.
  • Use el ámbito para cubrir varias implementaciones: se pueden adquirir nuevas reservas para cubrir implementaciones adicionales en el mismo ámbito. También puede actualizar el ámbito de una reserva existente en cualquier momento sin penalización.

Comprar una reserva

Una vez que las implementaciones estén en funcionamiento y haya determinado la cantidad de PTU que necesita, compre la reserva en la página Reservas del portal de Azure.

Para obtener instrucciones paso a paso para comprar y administrar reservas de rendimiento aprovisionado de Foundry (como los requisitos de rol, la selección de ámbito y las opciones de plazo), consulte Ahorre costos con las reservas de rendimiento aprovisionado de Microsoft Foundry.

Supervise su reserva y el uso de PTU

La supervisión del uso de reservas le ayuda a identificar el aprovisionamiento excesivo, detectar la facturación inesperada y planear las necesidades futuras de capacidad.

Seguimiento del uso y los costos de la reserva

Use estos recursos de Microsoft Cost Management para realizar un seguimiento y analizar el uso de la reserva:

Qué desea hacer Artículo
Vea el porcentaje de las PTU reservadas que están en uso activamente en las implementaciones. Ver el uso de reservas de Azure
Revisar el historial de compras y cualquier actividad de reembolso Ver las transacciones de compra y reembolso de reservas de Azure
Comprender el impacto de los costos amortizados de las reservas para obtener una visibilidad más clara de la facturación por implementación Visualización de los costos de beneficios amortizados
Distribuir los costos de reserva entre equipos o proyectos para la atribución de costos internos Repercutir los costos de la reserva de Azure
Configuración de la renovación automática para evitar la expiración de la reserva y mantener la tarifa con descuento Renueva automáticamente las reservas de Azure

Compruebe que sus despliegues estén cubiertos

Para comprobar que las implementaciones aprovisionadas están totalmente cubiertas por una reserva, use la página Reservations del portal de Azure:

  1. Abra la página Reservas y seleccione una reserva para ver sus detalles.

  2. Revise el valor De uso (%) :

    • 100%: La cantidad total reservada está siendo consumida por las implementaciones correspondientes; no hay ninguna PTU reservada sin utilizar.
    • Por debajo de 100%: algunas PTUs reservadas no coinciden con una implementación en ejecución. Esto puede significar una compra en exceso o que se eliminó un despliegue sin cancelar la reserva.
  3. Compáralo con las PTU desplegadas. La reserva cubre todas las implementaciones que coincidan dentro del ámbito hasta alcanzar su cantidad de PTU. Las PTU implementadas más allá de esa cantidad se facturan a la tarifa horaria. Consulte Cómo funciona el emparejamiento de reservas y Ejemplo de exceso de reserva.

Para obtener un desglose por implementación de las tendencias de cobertura y utilización, consulte Ver el uso de las reservas de Azure.

Ajustar las reservas a medida que cambia la carga de trabajo

Puede administrar todas las reservas desde la página Reservations del portal de Azure. A medida que aumenta o se reduce la capacidad de implementación aprovisionada, algunas formas de ajustar sus reservas son:

  • Agregar cobertura: compre una reserva adicional para el mismo ámbito para cubrir nuevas implementaciones.

  • Cancelar cobertura: Cancelar una reserva en el portal de Azure. Las cancelaciones pueden conllevar un cargo por terminación anticipada. Consulte Cambios y reembolsos de Azure Reservations para consultar las condiciones de cancelación y las comisiones aplicables.

  • Cobertura del intercambio: intercambie una reserva en el portal de Azure para cambiar la duración del plazo o el número de PTU. Los intercambios restablecen el término de reserva. Dado que las reservas de PTU están limitadas por tipo de implementación, no se admiten intercambios entre tipos de implementación (por ejemplo, aprovisionado global en aprovisionado regional). Para mover la cobertura a otro tipo de implementación o región, cancele la reserva existente y compre una nueva para el tipo de destino y la región. Consulte Exchanges and refunds for Azure Reservations para obtener información sobre idoneidad y tarifas.

  • Ámbito de actualización: cambie el ámbito de una reserva existente en cualquier momento sin penalización. Por ejemplo, para ampliar la cobertura a una nueva suscripción. Consulte Cambio del ámbito de una reserva.

  • Deshabilitar la renovación automática: si ya no necesita una reserva, desactive la renovación automática para evitar que se renueve al final de su período. Consulte Renovar automáticamente las reservas de Azure.