Conceptos del modelo de chat habilitado por Vision (clásico)

Solo se aplica a:portal Foundry (clásico). Este artículo no está disponible para el nuevo portal de Foundry. Obtenga más información sobre el nuevo portal.

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

Los modelos de chat habilitados para la visión son grandes modelos bidireccionales (LMM) desarrollados por OpenAI que analizan imágenes y proporcionan respuestas textuales a preguntas sobre ellos. Incorporan tanto el procesamiento del lenguaje natural como la comprensión visual. En esta guía se proporcionan detalles sobre sus funcionalidades y limitaciones. Para ver qué modelos admiten la entrada de imagen, consulte la página Modelos.

Para probar los modelos de chat con capacidades de visión, consulte la guía rápida.

Chats con tecnología de visión.

Los modelos con capacidad visual responden a preguntas generales sobre lo que está presente en las imágenes que subes.

Limitaciones de entrada

En esta sección se describen las limitaciones de los modelos de chat con capacidades de visión.

Compatibilidad con imágenes

Tamaño máximo de la imagen de entrada: el tamaño máximo de las imágenes de entrada está restringido a 20 MB.
Precisión de baja resolución: cuando las imágenes se analizan mediante la configuración de "baja resolución", permite respuestas más rápidas y usa menos tokens de entrada para determinados casos de uso. Sin embargo, esto podría afectar a la precisión del reconocimiento de objetos y texto dentro de la imagen.
Restricción de imágenes en el chat: Cuando se suben imágenes en el portal de Microsoft Foundry o la API, hay un límite de 10 imágenes por sesión de chat.

Información de precios especiales

Importante

El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.

Los modelos habilitados para Vision acumulan cargos como otros modelos de chat de OpenAI Azure. Se paga una tarifa por token para las solicitudes y finalizaciones, que se puede ver de forma detallada en la página Precios. Los cargos base y otras características se describen aquí:

Precios base para GPT-4 Turbo con Visión son:

Entrada: 0,01 USD por 1000 tokens
Salida: 0,03 USD por 1000 tokens

Consulte la sección Tokens de la información general para obtener información sobre cómo se traducen texto e imágenes a tokens.

Cálculo del precio de la imagen de ejemplo

Para un caso de uso típico, tome una imagen con objetos visibles y texto y una entrada de aviso de 100 tokens. Cuando el servicio procesa el mensaje, genera 100 tokens de salida. En la imagen, se pueden detectar texto y objetos. El precio de esta transacción sería:

Elemento	Detalle	Costo
Entrada de mensaje de texto	100 tokens de texto	0,001 USD
Entrada de imagen de ejemplo (consulte Etiquetas de imagen)	170 + 85 tokens de imagen	0,00255 USD
Características de complemento mejoradas para OCR	1,50 USD / 1,000 transacciones	0,0015 USD
Características mejoradas del complemento para la puesta en tierra de objetos	1,50 USD / 1,000 transacciones	0,0015 USD
Tokens de salida	100 tokens (se supone)	0,003 USD
Total		0,00955 USD

Para comenzar a utilizar modelos con capacidad de visión, siga la guía de inicio rápido.
Para obtener una visión más detallada de las API, siga la guía paso a paso.
Consulte la referencia de la API de finalizaciones e incrustaciones.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-19