Implementación y uso de modelos de imágenes MAI en Microsoft Foundry (versión preliminar)

Los modelos mai Image son una familia de modelos de imagen desarrollados por Microsoft IA que ofrecen generación de texto a imagen de última generación y para algunos modelos, ediciones de imagen a imagen. Estos modelos se ofrecen como parte de Microsoft Foundry Models vendidos por Azure, lo que proporciona acceso seguro y de nivel empresarial a través de Microsoft Foundry.

En este artículo, aprenderá a:

  • Implementación de modelos de imagen MAI en Microsoft Foundry
  • Autenticación mediante claves de API o Microsoft Entra ID
  • Generación de imágenes mediante la API de generaciones de imágenes MAI
  • Ejecución de una edición de imágenes mediante la API de edición de imágenes MAI

Los modelos de imágenes MAI en Microsoft Foundry incluyen:

Nombre del modelo Versión del modelo Tipo
MAI-Image-2.5-Flash (Versión preliminar) 2026-06-02 Generación de texto a imagen
Ediciones de imagen a imagen
MAI-Image-2.5 (Versión preliminar) 2026-06-02 Generación de texto a imagen
Ediciones de imagen a imagen
MAI-Image-2e (Versión preliminar) 2026-04-09 Generación de texto a imagen
MAI-Image-2 (Versión preliminar) 2026-02-20 Generación de texto a imagen

Para más información sobre los modelos individuales, consulte Modelos de imagen MAI disponibles.

Requisitos previos

  • Una suscripción Azure con un método de pago válido. Si no tiene una suscripción de Azure, cree un cuenta de Azure de pago.
  • Acceso a Microsoft Foundry con los permisos adecuados para crear y administrar recursos.
  • Un proyecto Microsoft Foundry. Los modelos de imágenes MAI están disponibles para la implementación estándar global (Centro-oeste de EE. UU., Este de EE. UU., Oeste de EE. UU., Oeste de Europa, Centro de Suecia, Sur de la India y Norte de Emiratos Árabes Unidos).
  • Cognitive Services Contributor rol en el recurso de Fundición de IA de Azure para implementar modelos. Para obtener más información, consulte Roles de RBAC de Azure.

Implementación de modelos de imagen MAI

Para implementar un modelo de imagen MAI, siga las instrucciones de Deploy Microsoft Foundry Models en el portal de Foundry.

Como alternativa, puede implementar el modelo mediante el CLI de Azure. El código siguiente muestra la implementación de MAI-Image-2.5 Para implementar un modelo diferente, reemplace el nombre y la versión del modelo en las líneas --model-name MAI-Image-2.5 y --model-version 2026-06-02 por los valores del modelo deseado.

Sustituya <ACCOUNT_NAME>, <RESOURCE_GROUP> y <DEPLOYMENT_NAME> por sus valores.

az cognitiveservices account deployment create \
  --name <ACCOUNT_NAME> \
  --resource-group <RESOURCE_GROUP> \
  --deployment-name <DEPLOYMENT_NAME> \
  --model-name "MAI-Image-2.5" \
  --model-format Microsoft \
  --model-version 2026-06-02 \
  --sku-name GlobalStandard \
  --sku-capacity 1

Referencia:az cognitiveservices account deployment create

Para enumerar todas las implementaciones disponibles en el recurso:

az cognitiveservices account deployment list \ 
  --resource-group <RESOURCE_GROUP> \ 
  --name <ACCOUNT_NAME> \ 
  -o table 

Referencia:az cognitiveservices account deployment list

Después de la implementación, use el área de juegos de Foundry para probar interactivamente el modelo.

Ejecución de la generación de texto a imagen

En el ejemplo siguiente se muestra cómo generar una imagen a partir de un mensaje de texto mediante un modelo de imagen MAI con la API de generaciones de imágenes MAI.

Uso de la autenticación de clave de API

  1. Instale la requests biblioteca:

    pip install requests
    
  2. Establecer variables de entorno:

    export AZURE_ENDPOINT="https://<resource-name>.services.ai.azure.com"
    export AZURE_API_KEY="<your-api-key>"
    export DEPLOYMENT_NAME="<your-deployment-name>"
    
  3. Ejecute el código siguiente:

    import os
    import base64
    import requests
    
    endpoint = os.environ["AZURE_ENDPOINT"]
    api_key = os.environ["AZURE_API_KEY"]
    deployment_name = os.environ["DEPLOYMENT_NAME"]
    
    width = 1024
    height = 1024
    
    url = f"{endpoint}/mai/v1/images/generations"
    
    payload = {
        "model": deployment_name,
        "prompt": "A photorealistic concept art poster of a university at sunset, cinematic lighting",
        "width": width,
        "height": height
    }
    
    response = requests.post(
        url,
        headers={
            "Content-Type": "application/json",
            "api-key": api_key,
        },
        json=payload,
    )
    response.raise_for_status()
    
    result = response.json()
    print(result)
    
    image_data = [
        output
        for output in result.get("data", [])
        if "b64_json" in output
    ]
    
    if image_data:
        image_base64 = image_data[0]["b64_json"]
        output_path = "output.png"
        with open(output_path, "wb") as f:
            f.write(base64.b64decode(image_base64))
        print(f"Image saved to {output_path}")
    else:
        print("Unexpected response format:", result)
    

    Salida esperada: Respuesta JSON que contiene los datos de imagen generados en formato base64. La imagen se descodifica y se guarda como output.png en el directorio actual.

Uso de la autenticación de Microsoft Entra ID

Para usar Microsoft Entra ID en lugar de una clave de API, reemplace el encabezado api-key por un bearer token obtenido mediante el DefaultAzureCredential:

  1. Instalar la biblioteca de identidades de Azure:

    pip install azure-identity
    
  2. Actualice los encabezados de solicitud en el código de autenticación de clave de API:

    from azure.identity import DefaultAzureCredential, get_bearer_token_provider
    
    token_provider = get_bearer_token_provider(
        DefaultAzureCredential(), "https://cognitiveservices.azure.com/.default"
    )
    token = token_provider()
    
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Bearer {token}",
    }
    

    Reference:DefaultAzureCredential

Ejecución de una edición de imagen a imagen

En el ejemplo siguiente se muestra cómo realizar una edición de imagen a imagen mediante un modelo de imagen MAI con la API de edición de imágenes MAI.

MAI-Image-2.5-Flash (Versión preliminar) y MAI-Image-2.5 (versión preliminar) admiten modificaciones de imagen a imagen mediante image edits API.

Nota

Las solicitudes de modificaciones de imagen a imagen usan datos de formulario de varias partes.

Uso de la autenticación de clave de API

  1. Instale la requests biblioteca:

    pip install requests
    
  2. Establecer variables de entorno:

    export AZURE_ENDPOINT="https://<resource-name>.services.ai.azure.com"
    export AZURE_API_KEY="<your-api-key>"
    export DEPLOYMENT_NAME="<your-deployment-name>"
    
  3. Ejecute el código siguiente:

    import os
    import base64
    import requests
    
    endpoint = os.environ["AZURE_ENDPOINT"]
    api_key = os.environ["AZURE_API_KEY"]
    deployment_name = os.environ["DEPLOYMENT_NAME"]
    
    width = 1024
    height = 1024
    
    url = f"{endpoint}/mai/v1/images/edits"
    
    # Replace the file name and type.
    reference_image = <path_to_your_image.png>
    image_type = "image/png" # or "image/jpeg" based on format of your image. 
    
    files = [
        ("image", (reference_image, open(reference_image, "rb"), image_type))
    ]
    
    payload={
        "model": deployment_name,
        "prompt": "Turn this image into a clean futuristic product shot with studio lighting",
    }
    
    response = requests.post(
        url,
        headers={
            "api-key": api_key,
        },
        data=payload,
        files=files
    )
    
    response.raise_for_status()
    
    result = response.json()
    print(result)
    
    
    image_data = [
        output
        for output in result.get("data", [])
        if "b64_json" in output
    ]
    
    if image_data:
        image_base64 = image_data[0]["b64_json"]
        output_path = "output.png"
        with open(output_path, "wb") as f:
            f.write(base64.b64decode(image_base64))
        print(f"Image saved to {output_path}")
    else:
        print("Unexpected response format:", result)
    

    Salida esperada: Respuesta JSON que contiene los datos de imagen editados en formato base64. La imagen se descodifica y se guarda como output.png en el directorio actual.

Para usar Microsoft Entra ID en lugar de una clave de API, modifique este código como se describe en la sección anterior: Usar la autenticación de Microsoft Entra ID.

Modelos de imágenes MAI disponibles

Foundry admite el uso de MAI-Image-2.5-Flash (versión preliminar), MAI-Image-2.5 (versión preliminar), MAI-Image-2 (versión preliminar) y MAI-Image-2e (versión preliminar). Cada uno de estos modelos es adecuado para los siguientes casos de uso clave:

  • Generación de texto a imagen: Genere imágenes de alta calidad a partir de mensajes de lenguaje natural, lo que permite a los usuarios traducir descripciones textuales en salidas visualmente coherentes adecuadas para una amplia gama de casos de uso creativos y de diseño.
  • Síntesis de imágenes fotorealistas: Capaz de generar imágenes realistas con una estructura visual coherente, lo que hace que sea adecuado para escenarios de visualización de concepto y creación de contenido.
  • Producto, personalización de marca y diseño comercial: Adecuado para imágenes de producto, objetos visuales de marketing, activos de marca y flujos de trabajo creativos comerciales.

MAI-Image-2.5-Flash (versión preliminar) y MAI-Image-2.5 (versión preliminar) destacan aún más en estos casos de uso clave:

  • Edición de imagen a imagen: Permite realizar ediciones precisas y controlables en imágenes existentes, como la eliminación y sustitución de objetos, cambios de atributos, relleno de zonas, actualización de texto y eliminación de artefactos, preservando la composición y la disposición.
  • Retratos de alta fidelidad: Genere retratos expresivos y de aspecto natural con una estructura facial precisa, iluminación y textura.
  • Representación precisa del texto: Se ha mejorado la representación del texto dentro de las imágenes generadas, incluidas etiquetas, pósteres, empaquetados y señalización.
  • Razonamiento visual: Razonar sobre objetos, la estructura de la escena, la iluminación, la escala y el posicionamiento espacial para generar resultados coherentes, incluso a partir de instrucciones ambiguas.

Para obtener más información sobre las funcionalidades del modelo, consulte las funcionalidades de los modelos de Microsoft en Foundry Models sold by Azure.

MAI-Image-2.5-Flash (versión preliminar)

MAI-Image-2.5-Flash (versión preliminar) es un modelo de generación de texto a imagen y edición de imágenes a imagen diseñado para crear imágenes de alta calidad, visualmente enriquecidas a partir de mensajes de lenguaje natural y para realizar modificaciones precisas y controlables en imágenes existentes. Usa un enfoque generativo basado en la difusión para refinar progresivamente las imágenes, lo que permite una alineación fuerte entre el texto de entrada y la salida generada. El modelo está optimizado para generar imágenes diversas y coherentes en una amplia gama de escenarios creativos y de diseño, lo que resulta adecuado para tareas como la visualización de conceptos, la generación de contenido creativo, los flujos de trabajo de edición de imágenes y el diseño de producción.

MAI-Image-2.5 (versión preliminar)

MAI-Image-2.5 (versión preliminar) es un modelo de generación de texto a imagen y edición de imágenes a imagen diseñado para crear imágenes de alta calidad, visualmente enriquecidas a partir de mensajes de lenguaje natural y para realizar modificaciones precisas y controlables en imágenes existentes. Usa un enfoque generativo basado en la difusión para refinar progresivamente las imágenes, lo que permite una alineación fuerte entre el texto de entrada y la salida generada. El modelo destaca en ediciones precisas y quirúrgicas, de forma coherente, lo que permite a usuarios y desarrolladores realizar ediciones específicas de objetos, adaptar composiciones, actualizar texto, limpiar artefactos como el desenfoque de movimiento y preservar la coherencia visual a lo largo de las iteraciones.

MAI-Image-2e (versión preliminar)

MAI-Image-2e (versión preliminar) ofrece una generación de imágenes de alta calidad, al igual que MAI-Image-2, pero hasta 22% más rápido y cuatro veces más eficiente que MAI-Image-2, lo que lo convierte en una opción inteligente para los desarrolladores que compilan a escala. MAI-Image-2e es más adecuado para escenarios de alto volumen y solución rápida, por ejemplo, imágenes de producto a escala, variaciones de marketing, activos de marca o cualquier flujo de trabajo en el que la eficiencia y el costo por imagen sean clave.

MAI-Image-2 (versión preliminar)

MAI-Image-2 (versión preliminar) es un modelo de generación de texto a imagen diseñado para crear imágenes de alta calidad, visualmente enriquecidas a partir de mensajes de lenguaje natural. Usa un enfoque generativo basado en la difusión para refinar progresivamente las imágenes, lo que permite una alineación fuerte entre el texto de entrada y la salida generada. El modelo está optimizado para generar imágenes diversas y coherentes en una amplia gama de escenarios creativos y de diseño, lo que resulta adecuado para tareas como la visualización de conceptos, la generación de contenido creativo y los flujos de trabajo de diseño de imágenes.

Puntos de conexión de API

Después de implementar un modelo de imagen MAI, use la API de generación de imágenes MAI para generar imágenes y la API de edición de imágenes MAI para las ediciones de imagen a imagen.

  • Punto de conexión de API de generación de imágenes: punto de conexión administrado Microsoft que acepta un mensaje de texto y devuelve una imagen PNG. El punto de conexión de API tiene el siguiente formato:

    https://<resource-name>.services.ai.azure.com/mai/v1/images/generations
    
  • Image edita el punto de conexión de API: un punto de conexión administrado Microsoft que acepta una imagen JPEG o PNG y devuelve una imagen PNG. El punto de conexión de API tiene el siguiente formato:

    https://<resource-name>.services.ai.azure.com/mai/v1/images/edits
    

Para autenticarse, necesita el punto de conexión del recurso y un token de Microsoft Entra ID o una clave API. Puede encontrar estos valores en la sección Keys y Endpoint del recurso en el portal de Azure o en la página de detalles de implementación del portal Foundry.

Parámetros de solicitud

En la tabla siguiente se enumeran los parámetros de solicitud de las API de imagen:

Parámetro API Tipo Descripción
model Ambas string El nombre de implementación que asignó al implementar el modelo.
prompt Ambas string La indicación de texto que describe la imagen que se va a generar o las ediciones que se van a realizar.
Longitud máxima del contexto: 32 000 tokens.
image Modificaciones de imágenes string Ruta de acceso a la imagen que desea editar. La imagen se pasa como datos de formulario de varias partes. Debe estar en formato JPEG o PNG.
width Generaciones de imágenes entero Ancho de la imagen de salida en píxeles.
Mínimo: 768. El producto de width × height no debe superar los 1.048.576.
height Generaciones de imágenes entero Altura de la imagen de salida en píxeles.
Mínimo: 768. El producto de width × height no debe superar los 1.048.576.

Nota

El formato de salida siempre es PNG. El número máximo de píxeles totales es de 1048 576 (equivalente a 1024×1024). Ambos width y height deben tener al menos 768 píxeles cada uno. Cualquiera de las dimensiones puede superar 1024 siempre que el recuento total de píxeles permanezca dentro del límite.

Límites y cuotas de API

Los modelos de imágenes MAI tienen los siguientes límites de velocidad medidos en Solicitudes por minuto (RPM). El nivel disponible depende de la configuración de suscripción e implementación.

Tipo de implementación Nivel MAI-Image-2.5-Flash
(RPM)
MAI-Image-2.5
(RPM)
MAI-Image-2e
(RPM)
MAI-Image-2
(RPM)
Estándar global 0
(Gratis)
0 0 0 0
Estándar global 1 2 2 18 9
Estándar global 2 4 4 30 15
Estándar global 3 6 6 60 30
Estándar global 4 8 8 90 45
Estándar global 5 10 10 120 60
Estándar global 6 12 12 180 90

Para solicitar un aumento de cuota, envíe el formulario de solicitud de aumento de cuota. Las solicitudes se procesan en el orden en que se reciben y la prioridad va a los clientes que usan activamente su asignación de cuota existente.

Solución de problemas

Use la tabla siguiente para resolver errores comunes al trabajar con modelos de imagen MAI:

Error Causa Corrección
401 Unauthorized Clave de API no válida o token expirado Vuelva a generar la clave en el portal de Azure. Para la autenticación de Entra ID, verifique que el ámbito del token es https://cognitiveservices.azure.com/.default.
404 Not Found Nombre de implementación incorrecto o dirección URL del punto de conexión Compruebe el nombre de implementación y el punto de conexión en el portal de Foundry en Implementaciones.
400 Bad Request width o height por debajo del mínimo, o el recuento total de píxeles supera el máximo Asegúrese de que width y height sean cada uno al menos 768, y que width × height ≤ 1,048,576.
429 Too Many Requests Límite de tasa excedido Espere y vuelva a intentarlo o solicite un aumento de cuota.

Consideraciones de inteligencia artificial responsable

Al usar modelos de imágenes MAI en Foundry, tenga en cuenta estas prácticas de inteligencia artificial responsables:

  • Tenga en cuenta las limitaciones conocidas: a pesar de las mitigaciones técnicas, como el filtrado de datos y los clasificadores de contenido aplicados en el nivel del sistema, los modelos de generación de imágenes pueden producir contenido dañino o inesperado en función de las solicitudes del usuario. Las áreas de riesgo comunes incluyen contenido violento o gorio, contenido sexual o nudidad, representaciones de figuras públicas y replicación de marcas registradas u otro material protegido.
  • Configurar la seguridad del contenido: aplique mitigaciones adicionales adecuadas para su caso de uso, ya que ningún modelo generativo es inmune a los mensajes adversarios.
  • Cumplir con los términos aplicables: Asegúrese de que el uso de imágenes generadas cumple con los términos de servicio de Microsoft y las leyes de propiedad intelectual y derechos de autor aplicables.
  • Ser transparente: divulga que el contenido se genera mediante ia al compartir o publicar imágenes.
  • Evitar contenido perjudicial: no genere contenido que pueda ser perjudicial, engañoso o infringa la privacidad.