Referencia API Azure AI Model Inference REST

La inferencia de modelos de IA de Azure es una API que expone un conjunto común de capacidades para modelos fundamentales y que puede ser utilizada por desarrolladores para consumir predicciones de un conjunto diverso de modelos de manera uniforme y consistente. Los desarrolladores pueden comunicarse con diferentes modelos desplegados en el portal de Fundición de IA de Azure sin cambiar el código subyacente que están utilizando.

Beneficios

Los modelos fundamentales, como los modelos de lenguaje, han logrado avances notables en los últimos años. Estos avances han revolucionado varios campos, incluyendo el procesamiento del lenguaje natural y la visión por ordenador, y han habilitado aplicaciones como chatbots, asistentes virtuales y servicios de traducción de idiomas.

Aunque los modelos fundamentales destacan en dominios específicos, carecen de un conjunto uniforme de capacidades. Algunos modelos son mejores en tareas específicas e incluso en la misma tarea, algunos modelos pueden abordar el problema de una manera mientras que otros de otra. Los desarrolladores pueden beneficiarse de esta diversidad utilizando el modelo adecuado para el trabajo adecuado , permitiéndoles:

  • Mejora el rendimiento en una tarea específica posterior.
  • Utiliza modelos más eficientes para tareas más sencillas.
  • Utiliza modelos más pequeños que puedan funcionar más rápido en tareas específicas.
  • Escribe múltiples modelos para desarrollar experiencias inteligentes.

Contar con una forma uniforme de consumir modelos fundamentales permite a los desarrolladores obtener todos esos beneficios sin sacrificar la portabilidad ni cambiar el código subyacente.

Soporte para SDK de inferencia

El paquete de Inferencia AI de Azure permite consumir todos los modelos que soportan la API de inferencia de modelos de IA de Azure y cambiar fácilmente entre ellos. Azure AI Inference package forma parte del SDK de la Fundición de IA de Azure.

Language Documentation Package Examples
C# Referencia azure-ai-inferencia (NuGet) Ejemplos de C#
Java Referencia Azure-AI-inferencia (Maven) Ejemplos de Java
JavaScript Referencia @azure/IA-inferencia (NPM) Ejemplos de JavaScript
Python Referencia azure-ai-inferencia (PyPi) Ejemplos de Python

Capabilities

La siguiente sección describe algunas de las capacidades que expone la API:

Modalidades

La API indica cómo los desarrolladores pueden consumir predicciones para las siguientes modalidades:

Extensibility

La API de Inferencia de Modelos de IA de Azure especifica un conjunto de modalidades y parámetros a los que los modelos pueden suscribirse. Sin embargo, algunos modelos pueden tener capacidades adicionales a las que indica la API. En esos casos, la API permite al desarrollador pasarlos como parámetros adicionales en la carga útil.

Al establecer un encabezado extra-parameters: pass-through, la API intentará pasar cualquier parámetro desconocido directamente al modelo subyacente. Si el modelo puede manejar ese parámetro, la solicitud se completa.

El siguiente ejemplo muestra una solicitud que pasa el parámetro safe_prompt soportado por Mistral-Large, que no está especificado en la API de Inferencia de Modelos de Modelo de Azure IA.

Solicitud

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through
{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "text" },
    "safe_prompt": true
}

Note

El valor por defecto de extra-parameters es error que devuelve un error si se indica un parámetro adicional en la carga útil. Alternativamente, puedes configurar extra-parameters: drop para eliminar cualquier parámetro desconocido en la solicitud. Utiliza esta capacidad por si envías solicitudes con parámetros extra que sabes que el modelo no soportará, pero que quieres que la solicitud se complete igualmente. Un ejemplo típico de esto es el parámetro indicador seed .

Modelos con conjuntos dispares de capacidades

La API de Inferencia de Modelos de IA de Azure indica un conjunto general de capacidades, pero cada uno de los modelos puede decidir si las implementa o no. Se devuelve un error específico en aquellos casos en los que el modelo no puede soportar un parámetro específico.

El siguiente ejemplo muestra la respuesta a una solicitud de finalización de chat indicando el parámetro reponse_format y solicitando una respuesta en JSON formato. En el ejemplo, dado que el modelo no soporta tal capacidad, se devuelve un error 422 al usuario.

Solicitud

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "json_object" },
}

Respuesta

{
    "status": 422,
    "code": "parameter_not_supported",
    "detail": {
        "loc": [ "body", "response_format" ],
        "input": "json_object"
    },
    "message": "One of the parameters contain invalid values."
}

Tip

Puedes inspeccionar la propiedad details.loc para entender la ubicación del parámetro que afecta y details.input ver el valor que se ha pasado en la solicitud.

Seguridad del contenido

La API de inferencia de modelos de IA Azure soporta Seguridad del contenido de Azure AI. Al utilizar despliegues con Seguridad del contenido de Azure AI activado, las entradas y salidas pasan por un conjunto de modelos de clasificación destinados a detectar y prevenir la salida de contenido dañino. El sistema de filtrado de contenido (vista previa) detecta y actúa sobre categorías específicas de contenido potencialmente dañino tanto en prompts de entrada como en las finalizaciones de salida.

El siguiente ejemplo muestra la respuesta a una solicitud de finalización de chat que ha activado la seguridad de contenido.

Solicitud

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
    }
    ],
    "temperature": 0,
    "top_p": 1,
}

Respuesta

{
    "status": 400,
    "code": "content_filter",
    "message": "The response was filtered",
    "param": "messages",
    "type": null
}

Cómo empezar

La API de inferencia de modelos de IA de Azure está disponible en los recursos de Azure AI Services. Puedes empezar con él igual que con cualquier otro producto Azure, donde crear y configurar tu recurso para Azure inferencia del modelo de IA o instancia del servicio, en tu suscripción Azure. Puedes crear tantos recursos como necesites y configurarlos de forma independiente en caso de que tengas varios equipos con diferentes requisitos.

Una vez que crees un recurso de Azure AI Services, debes desplegar un modelo antes de poder empezar a hacer llamadas a la API. Por defecto, no hay modelos disponibles, así que puedes controlar desde cuáles empezar. Consulta el tutorial Crea tu primer despliegue de modelo en Azure inferencia de modelos de IA.