Automatización de implementaciones de OpenAI Azure con cuota en Microsoft Foundry

Este artículo contiene plantillas de ejemplo breves para ayudarle a empezar a crear mediante programación Azure implementaciones de OpenAI que usan cuota para establecer límites de velocidad de TPM. Con la introducción de la cuota, debe usar la versión 2023-05-01 de API para las actividades relacionadas con la administración de recursos. Esta versión de API solo es para administrar los recursos y no afecta a la versión de API que se usa para inferencia de llamadas como finalizaciones, finalizaciones de chat, inserción, generación de imágenes, etc.

Prerequisites

Antes de crear implementaciones mediante programación, complete lo siguiente:

En cada pestaña de este artículo se enumeran los requisitos previos específicos de la herramienta, como la versión necesaria del módulo CLI de Azure o Az PowerShell.

Creación de una implementación y uso de consultas

Seleccione la pestaña para la herramienta o el idioma de plantilla que desea usar. Cada pestaña incluye un ejemplo de implementación que establece una capacidad basada en TPM, seguida de una consulta de uso que devuelve la cuota restante en la región especificada.

Deployment

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Parámetros de ruta de acceso

Parámetro Tipo ¿Obligatorio? Description
accountName string Obligatorio Nombre del recurso de Azure OpenAI.
deploymentName string Obligatorio El nombre de implementación que eligió al implementar un modelo existente o el nombre que desea que tenga una nueva implementación de modelos.
resourceGroupName string Obligatorio Nombre del grupo de recursos asociado para esta implementación del modelo.
subscriptionId string Obligatorio Identificador de suscripción para la suscripción asociada.
api-version string Obligatorio Versión de la API que se va a usar para esta operación. Esto sigue el formato YYYY-MM-DD.

Versiones compatibles

Cuerpo de la solicitud

Este es solo un subconjunto de los parámetros del cuerpo de la solicitud disponibles. Para obtener la lista completa de los parámetros, puede consultar la documentación de referencia de la API REST.

Parámetro Tipo Description
sku SKU Definición del modelo de recurso que representa el SKU.
capacity entero Esto representa la cantidad de cuota que va a asignar a esta implementación. Un valor de 1 es igual a 1000 tokens por minuto (TPM). Un valor de 10 equivale a 10 000 tokens por minuto (TPM).

Solicitud de ejemplo

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

Note

Hay varias maneras de generar un token de autorización. El método más sencillo para las pruebas iniciales es iniciar el Cloud Shell desde el portal Azure. A continuación, ejecute az account get-access-token. Puede usar este token como token de autorización temporal para las pruebas de API.

Para más información, consulte la documentación de referencia de la API REST para usos e implementación.

Usage

Para consultar el uso de cuota en una región determinada, para una suscripción específica

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Parámetros de ruta de acceso

Parámetro Tipo ¿Obligatorio? Description
subscriptionId string Obligatorio Identificador de suscripción para la suscripción asociada.
location string Obligatorio Ubicación para ver el uso, ej.: eastus
api-version string Obligatorio Versión de la API que se va a usar para esta operación. Esto sigue el formato YYYY-MM-DD.

Versiones compatibles

Solicitud de ejemplo

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'