Implementación de un modelo optimizado para la inferencia (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

Una vez ajustado el modelo, puede implementarlo y usarlo en su propia aplicación.

Al implementar el modelo, se pone el modelo a disposición para realizar inferencias, lo que conlleva un cargo por alojamiento por hora. Sin embargo, los modelos optimizados se pueden almacenar en Microsoft Foundry sin costo alguno hasta que esté listo para usarlos.

Azure OpenAI proporciona opciones de tipos de implementación para modelos ajustados en la estructura de hospedaje que se ajusta a diferentes patrones empresariales y de uso: Standard, Global Standard (versión preliminar) y Pervisioned Throughput (versión preliminar). Obtenga más información sobre los tipos de implementación para modelos optimizados y los conceptos de todos los tipos de implementación.

Implementación del modelo optimizado

Importante

Para implementar modelos, debe tener asignado el rol Foundry Owner o cualquier rol con la acción /Microsoft.CognitiveServices/accounts/deployments/write.

Importante

Recientemente se ha cambiado el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.

Para implementar el modelo personalizado, seleccione el modelo personalizado que se va a implementar y, a continuación, seleccione Implementar.

Se abre el cuadro de diálogo Implementar modelo . En el cuadro de diálogo, escriba el nombre de implementación y seleccione Crear para iniciar la implementación del modelo personalizado.

Captura de pantalla que muestra cómo implementar un modelo personalizado en el portal de Foundry.

Puede supervisar el progreso de la implementación en el panel Implementaciones del portal de Foundry.

El portal no admite la implementación entre regiones. En su lugar, use el SDK de Python o la API REST.

Importante

Después de implementar un modelo personalizado, si en cualquier momento la implementación permanece inactiva durante más de 15 días, se elimina la implementación. La implementación de un modelo personalizado está inactiva si el modelo se implementó hace más de 15 días y no se realizaron finalizaciones de chat ni llamadas API de respuesta durante un período continuo de 15 días.

La eliminación de una implementación inactiva no elimina ni afecta al modelo personalizado subyacente. El modelo personalizado se puede volver a implementar en cualquier momento.

Como se describe en Precios de Azure OpenAI en modelos de Microsoft Foundry, cada modelo personalizado (ajustado a sus preferencias) que se implementa incurre en un coste de hospedaje por hora, independientemente de si se realizan finalizaciones o llamadas a la API de respuesta de chat al modelo. Para obtener más información sobre el planeamiento y la administración de costos con Azure OpenAI, consulte Plan y administración de costos para Azure OpenAI.

Uso del modelo optimizado implementado

Una vez implementado el modelo personalizado, puede usarlo como cualquier otro modelo implementado. Puede usar el área de juegos en el portal de Foundry para experimentar con la nueva implementación. Puede seguir usando los mismos parámetros con el modelo personalizado, como temperature y max_tokens, como puede con otros modelos implementados.

Captura de pantalla del panel Parque infantil en el portal de Foundry, con secciones resaltadas.

Almacenamiento en caché de mensajes

El ajuste preciso de Azure OpenAI admite el almacenamiento en caché de indicaciones con modelos seleccionados. El almacenamiento en caché de mensajes permite reducir la latencia general de las solicitudes y el costo de los mensajes más largos que tienen contenido idéntico al principio del mensaje. Para más información sobre el almacenamiento en caché de mensajes, consulte Introducción al almacenamiento en caché de mensajes.

Tipos de implementación

El ajuste de Azure OpenAI admite los siguientes tipos de implementación.

Estándar

Las implementaciones estándar proporcionan un modelo de facturación de pago por token con residencia de datos definida en la región implementada.

Modelos Este de EE. UU. 2 Centro-norte de EE. UU. Centro de Suecia
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini

Estándar global

Las implementaciones optimizadas según el estándar global ofrecen el ahorro de costos, pero los pesos de modelo personalizados pueden almacenarse temporalmente fuera de la ubicación geográfica de tu recurso de Azure OpenAI.

Las implementaciones estándar globales están disponibles en todas las regiones de OpenAI de Azure para los siguientes modelos:

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Captura de pantalla de la experiencia de usuario de implementación estándar global con un modelo ajustado.

Nivel de desarrollador

Las implementaciones optimizadas para desarrolladores ofrecen una experiencia similar a Global Standard sin una tarifa de hospedaje por hora, pero no ofrecen un Acuerdo de Nivel de Servicio de disponibilidad. Las implementaciones de desarrolladores están diseñadas para la evaluación candidata del modelo y no para su uso en producción.

Las implementaciones de desarrolladores están disponibles en todas las regiones de OpenAI de Azure para los siguientes modelos:

Modelos Disponibilidad
o4-mini Todas las regiones
GPT-4.1 Todas las regiones
GPT-4.1-mini Todas las regiones
GPT-4.1-nano Todas las regiones

Rendimiento aprovisionado

Modelos Centro-norte de EE. UU. Centro de Suecia
GPT-4.1
GPT-4o
GPT-4o-mini

Las implementaciones ajustadas de rendimiento aprovisionado ofrecen un rendimiento predecible en las aplicaciones y los agentes sensibles a la latencia. Usan la misma capacidad de rendimiento aprovisionado regional (PTU) que los modelos base, por lo que si ya tiene cuota de PTU regional, puede implementar el modelo optimizado en regiones de soporte técnico.

Limpieza de la implementación

Para eliminar una implementación, use la API REST Deployments - Delete y envíe una ELIMINACIÓN HTTP al recurso de implementación. Al igual que con la creación de implementaciones, debe incluir los parámetros siguientes:

  • identificador de suscripción de Azure
  • Nombre del grupo de recursos de Azure
  • nombre de recurso de Azure OpenAI
  • Nombre de la implementación que se va a eliminar

A continuación se muestra el ejemplo de la API REST para eliminar una implementación:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

También puede eliminar una implementación en el portal de Foundry o usar CLI de Azure.

Pasos siguientes