Inicio rápido: Crear una implementación con rendimiento aprovisionado

Visualización actual:Nueva versión - Cambio a la versión del portal de Foundry clásico

En esta guía de inicio rápido, crea una implementación con rendimiento aprovisionado en Microsoft Foundry, realiza una llamada de inferencia para confirmar que funciona y consulta su métrica de utilización.

Una implementación con rendimiento aprovisionado proporciona a su aplicación un rendimiento de procesamiento del modelo dedicado con una latencia predecible. La facturación se realiza por unidad de rendimiento aprovisionada (PTU) por hora. En el caso de las cargas de trabajo a largo plazo, Azure Reservas ofrecen descuentos financieros en comparación con la facturación por hora. Para consultar una introducción conceptual detallada, consulte ¿Qué es el rendimiento preaprovisionado para Foundry Models?.

Prerequisites

  • Una suscripción de Azure con un método de pago válido. Si no tiene una suscripción de Azure, cree una cuenta de Azure de pago para comenzar.
  • El rol de Colaborador de Azure o de Colaborador de Cognitive Services en la suscripción o el grupo de recursos donde planea crear la implementación.
  • Un proyecto de Microsoft Foundry en la región donde tienes cuota de PTU. Un proyecto de Foundry se administra dentro de un recurso de Foundry.
  • Opcionalmente, para el despliegue usando CLI de Azure, tenga CLI de Azure instalado.

Comprobación de la disponibilidad del modelo y la región

Antes de crear una implementación, confirme que el modelo admite el rendimiento aprovisionado en la región de destino.

  1. Consulte la tabla de disponibilidad de modelos y regiones para ver si su modelo admite la implementación con rendimiento aprovisionado en su región de destino.
  2. Filtre por su región y compruebe que el modelo aparece en un tipo de implementación aprovisionado .

Tenga en cuenta también el recuento mínimo de PTU del modelo, ya que necesita esta información al configurar la implementación. Los mínimos varían según el modelo y se enumeran en Parámetros de implementación y valores de rendimiento por modelo.

Comprobación de la cuota de PTU

Antes de seguir este inicio rápido, compruebe que tiene cuota para la región de destino y el tipo de implementación. Para comprobar la cuota:

  1. Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry está activado. Estos pasos hacen referencia a Foundry (new).

  2. Seleccione la suscripción y el recurso Foundry en la región donde tenga cuota de PTU.

  3. Seleccione Operar en el panel de navegación superior derecho y, a continuación, seleccione Cuota en el panel izquierdo.

  4. Seleccione Unidad de rendimiento aprovisionada para ver la cuota disponible. Si no tiene cuota, seleccione Solicitar cuota y complete el formulario. La aprobación de cuota puede tardar varios días y recibirá una notificación por correo electrónico cuando se apruebe la solicitud.

    Sugerencia

    También puede seguir este vínculo directo al formulario de solicitud de cuota.

Crear una implementación aprovisionada

En esta sección, creará una implementación aprovisionada mediante el portal Foundry o CLI de Azure.

Uso del portal de Foundry para la implementación

  1. Seleccione Detectar en el panel de navegación superior derecho y, a continuación, seleccione Modelos en el panel izquierdo.

  2. Seleccione el modelo que desea implementar para abrir su tarjeta de modelo, como gpt-5.1.

  3. Seleccione Implementar>configuración personalizada.

  4. En la lista desplegable Tipo de implementación , seleccione un tipo de implementación aprovisionado: Rendimiento aprovisionado global, Rendimiento aprovisionado de zona de datos o Rendimiento aprovisionado regional.

  5. Rellene los campos de implementación:

    Campo Description
    Nombre de implementación Un nombre que elija. Use este nombre en el código para llamar al modelo.
    Modelo Modelo que se va a implementar, por ejemplo, gpt-5.1.
    Versión del modelo Versión del modelo.
    Unidades de rendimiento aprovisionadas Número de PTU que se van a asignar. Debe cumplir el mínimo del modelo, por ejemplo, 50.
  6. Seleccione Confirmar precios para revisar la tarifa por hora de la implementación. La facturación comienza en cuanto se crea el despliegue, incluso cuando no se envían solicitudes. Para detener la facturación, elimine la implementación. Si no está seguro de los costos, seleccione Cancelar y revise la administración de costos y facturación de PTU antes de continuar.

  7. Confirme y cree el despliegue.

(Opcional) Uso del CLI de Azure para la implementación

Como alternativa, puede crear la implementación mediante el CLI de Azure.

  1. Cree una implementación aprovisionada para GPT-5.1 con un recuento de PTU de 50 PTU.

    az cognitiveservices account deployment create \
    --name <myResourceName> \
    --resource-group <myResourceGroupName> \
    --deployment-name <myDeploymentName> \
    --model-name GPT-5.1 \
    --model-version "2025-11-13" \
    --model-format OpenAI \
    --sku-capacity 50 \
    --sku-name GlobalProvisionedManaged
    
    • Sustituya <myResourceName>, <myResourceGroupName> y <myDeploymentName> por sus valores.

    • --sku-name especifica el tipo de implementación: GlobalProvisionedManaged, DataZoneProvisionedManagedo ProvisionedManaged.

    • --sku-capacity es el número de PTUs. Aquí, se establece en 50.

    Referencia: az cognitiveservices account deployment

  2. Confirme que la implementación se completó correctamente:

    az cognitiveservices account deployment show \
        --deployment-name <myDeploymentName> \
        --name <myResourceName> \
        --resource-group <myResourceGroupName> \
        --query "properties.provisioningState" -o tsv
    

    La salida debe mostrar Succeeded. El modelo está listo para usarse una vez completado el aprovisionamiento.

    Referencia: az cognitiveservices account deployment show

Rest, plantilla de ARM, Bicep y Terraform también se pueden usar para crear implementaciones. Consulte Automatización de implementaciones y reemplazo sku.name por GlobalProvisionedManaged, DataZoneProvisionedManagedo ProvisionedManaged.

Realizar una solicitud de inferencia

El código de inferencia de una implementación aprovisionada es el mismo que para cualquier otro tipo de implementación. Use el nombre de la implementación (no el nombre del modelo) como valor del parámetro model.

El código de esta sección usa la autenticación de clave de API. También puede usar la autenticación de Entra ID. Para obtener más información sobre el uso de Entra ID autenticación al realizar una llamada de inferencia, consulte Cómo generar respuestas de texto con Microsoft Foundry Models.

Antes de ejecutar el ejemplo, establezca la siguiente variable de entorno:

  • AZURE_OPENAI_API_KEY: la clave de API del recurso.

Importante

No codifique las credenciales de forma rígida en la aplicación. En el caso de las cargas de trabajo de producción, use un almacén de credenciales seguro, como Azure Key Vault. Consulte Características de seguridad para Servicios de Azure AI.

  1. Instale el SDK de OpenAI:

    pip install openai
    
  2. Configure el cliente de OpenAI, especifique la implementación y genere respuestas. Reemplace <myResourceName> con el nombre de su recurso Foundry.

    import os
    from openai import OpenAI
    
    client = OpenAI(
        api_key=os.getenv("AZURE_OPENAI_API_KEY"),
        base_url="https://<myResourceName>.openai.azure.com/openai/v1/",
    )
    
    response = client.responses.create(
        model="<myDeploymentName>",  # Your deployment name, not the model name
        input="What is provisioned throughput?",
        max_output_tokens=100,
    )
    
    print(response.output_text)
    

Ver la utilización del despliegue

Después de hacer llamadas, confirme que el tráfico llega a su implementación comprobando su utilización en el Portal de Azure.

  1. Inicie sesión en Azure Portal.
  2. Vaya al recurso Foundry y seleccione Métricas en el panel de navegación izquierdo.
  3. Seleccione la métrica Provisioned-managed utilization V2.
  4. Si tiene más de una implementación en el recurso, filtre por el nombre de implementación para ver el uso por implementación.

Un valor de utilización cercano al 0 % inmediatamente después de tu llamada de prueba es normal: la métrica se actualiza en una ventana de supervisión.

Captura de pantalla de Azure Metrics que muestra el gráfico Provisioned-managed Utilization V2 filtrado por nombre de implementación.

Para obtener una explicación completa de cómo se calcula el uso y qué hacer cuando llega a 100%, consulte Funcionamiento de las implementaciones aprovisionadas en producción.

Considere configurar el desborde

Spillover redirige automáticamente las solicitudes excedentes de su implementación aprovisionada a una implementación estándar dentro del mismo recurso de Foundry. Cuando la implementación aprovisionada se usa por completo y devuelve un código 429, el desbordamiento redirige esas solicitudes excesivas a la implementación estándar en lugar de generar errores, lo que ayuda a reducir las interrupciones durante las ráfagas de tráfico. Para obtener más información sobre cómo habilitar el desbordamiento y supervisar las solicitudes de desbordamiento, consulte Administración del tráfico con desbordamiento para implementaciones con capacidad aprovisionada.

Considere la posibilidad de comprar una reserva

Su despliegue se factura por horas. Si planea mantenerlo en funcionamiento durante más de unos pocos días, la adquisición de una Reserva de Azure reduce su coste efectivo en $/PTU/h en comparación con la facturación por hora.

Si tiene previsto adquirir una reserva después de crear la implementación, compruebe que tiene el rol de propietario o el rol de comprador de reservas en una suscripción de Azure. La función necesaria para adquirir reservas difiere de la función necesaria para crear implementaciones. Consulte Reservas de rendimiento aprovisionadas para conocer los requisitos de rol.

Importante

Cree y confirme siempre su despliegue antes de comprar una reserva. La reserva debe coincidir con el tipo de implementación (global, zona de datos o regional) y el ámbito de la suscripción. En el caso de las implementaciones de zona de datos y regionales, la región de reserva también debe coincidir. En el caso de las implementaciones globales, una sola reserva global puede abarcar implementaciones de PTU globales en varias regiones. Comprometerse con una reserva de capacidad cuya disponibilidad no ha confirmado puede dar lugar a un compromiso financiero que no podrá utilizar.

Para obtener instrucciones de ajuste de tamaño, pasos de compra y administración, consulte Azure Reservations para el rendimiento aprovisionado.

Limpieza de recursos

La eliminación del recurso Foundry no elimina automáticamente sus implementaciones. Elimine siempre todas las implementaciones antes de eliminar el recurso, ya que los cargos por las implementaciones de un recurso eliminado continúan hasta que se purga el recurso. Consulte Limpiar recursos.

Note

La eliminación de una implementación no cancela una reserva de Azure. Si adquirió uno, cancele o intercambie por separado en la página Reservations del portal de Azure. La cancelación puede conllevar un cargo por cancelación anticipada.

Siga estos pasos para detener la facturación por horas eliminando el despliegue.

Eliminar implementación en el portal de Foundry

  1. En el portal de Foundry, diríjase a sus despliegues.
  2. Seleccione la implementación y, a continuación, seleccione Eliminar y confirme.

(Opcional) Eliminación de la implementación con el CLI de Azure

az cognitiveservices account deployment delete \
    --deployment-name <myDeploymentName> \
    --name <myResourceName> \
    --resource-group <myResourceGroupName>

Referencia: az cognitiveservices account deployment delete

Paso siguiente