Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Solo se aplica a:Portal Foundry (clásico). Este artículo no está disponible para el nuevo portal de Foundry.
Obtenga más información sobre el nuevo portal.
Nota
Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.
En este artículo se proporciona un resumen de las versiones más recientes y las actualizaciones de documentación principales para Azure OpenAI.
Mayo de 2026
Artículos sobre el concepto de GPT Realtime 2.0
En los artículos de concepto nuevos se describen las funcionalidades y los conceptos clave del modelo en tiempo real más reciente:
- Descripción general de GPT Realtime 2.0 (versión preliminar) — cubre el soporte para el razonamiento, las fases de respuesta (preámbulo y respuesta final) y un seguimiento más estricto de las instrucciones.
GPT Realtime Translate y GPT Realtime Whisper
En los artículos de concepto nuevos se describen las funcionalidades y los casos de uso de los modelos de traducción y transcripción en tiempo real más recientes:
- GPT Realtime Translate : cubre la traducción continua de audio basada en secuencias para eventos multilingües en directo, asistencia al cliente y asistentes de voz.
- GPT Realtime Whisper : cubre la transcripción de streaming de baja latencia para subtítulos en directo, supervisión y flujos de trabajo de archivado.
Febrero de 2026
Modelos GPT-Realtime-1.5 y GPT-Audio-1.5 publicados
Los gpt-realtime-1.5 modelos y gpt-audio-1.5 ahora están disponibles.
- Estos modelos se basan en la GPT-Realtime del año pasado y GPT-Audio con mejoras en las instrucciones siguientes, compatibilidad multilingüe y llamadas a herramientas, a la vez que conservan las interacciones de baja latencia y en tiempo real que los desarrolladores necesitan para las aplicaciones de primera voz.
- Pruébelos con las API de finalización de chat existentes en Microsoft Foundry.
Diciembre de 2025
El modelo GPT-image-1.5 ya está disponible
GPT-image-1.5 es el último modelo de generación de imágenes de vanguardia de OpenAI. Cuenta con un rendimiento mejorado, calidad, controles de edición y conservación facial. En el modo de edición, el modelo admite una alta input_fidelity y permite agregar o eliminar un aspecto de la imagen de entrada mientras mantiene otros intactos.
Solicitud de acceso: aplicación de modelo de acceso limitado
Funcionalidades clave del modelo:
- Incluye todas las funcionalidades de GPT-image-1:
- Generación de texto a imagen
- Generación de imagen a imagen (edición)
- Inpainting
- Generaciones de imágenes de alta calidad, hasta 1024 x 1536 y 1536 x 1024 píxeles
- Conservación de caras
Siga la guía paso a paso de generación de imágenes para empezar a trabajar con este modelo.
Actualización automática del modelo de reconocimiento de voz (ASR)
gpt-4o-mini-transcribe-2025-12-15
- Se ha mejorado la precisión y la solidez de la transcripción para escenarios en tiempo real, con aproximadamente 50% menor tasa de errores de palabras (WER) que el modelo anterior
gpt-4o-transcribe-minien las pruebas comparativas en inglés. - Mejora el rendimiento multilingüe en japonés, lenguas indias y otros idiomas.
- Reduce las alucinaciones en silencio hasta 4×, lo que lo convierte en una opción más confiable para entornos ruidosos y secuencias de audio del mundo real.
- La entrada es audio, con texto como salida, y la implementación es solo API.
Actualización del modelo Realtime-mini (modelo de conversión de voz a voz)
gpt-realtime-mini-2025-12-15
- Paridad de características con el modelo completo gpt-realtime en el seguimiento de instrucciones y la realización de llamadas a funciones.
- La entrada y la salida son audio, y la implementación es solo API.
Actualización del modelo de texto a voz
gpt-4o-mini-tts-2025-12-15
- Establece un nuevo punto de referencia para la síntesis de voz multilingüe.
- Produce voz más natural y similar a la humana con menos artefactos y una similitud mejorada del hablante.
- La entrada es texto, la salida es audio y la implementación es solo api.
Octubre de 2025
Compatibilidad con la API en tiempo real para SIP
La API en tiempo real ahora admite SIP, lo que permite conexiones de telefonía a realtimeapi. Para obtener más información, consulte la documentación del SIP en tiempo real.
Modelo de audio GPT-4o lanzado
- Se publica el
gpt-4o-transcribe-diarizemodelo de conversión de voz en texto. Este modelo es un modelo de reconocimiento automático de voz (ASR) que convierte el idioma hablado en texto en tiempo real. Permite a las organizaciones desbloquear información de conversaciones de forma instantánea con latencia ultra baja y alta precisión en más de 100 idiomas. Esta funcionalidad es esencial para los flujos de trabajo en los que los datos de voz impulsan decisiones, como el soporte técnico al cliente, las reuniones virtuales y los eventos en directo.
La diarización es el proceso de identificación de quién habló y cuándo en una secuencia de audio. Transforma las conversaciones en transcripciones con atributos de hablante, lo que permite a las empresas extraer información procesable de reuniones, llamadas al cliente y eventos en directo. Con modelos avanzados como gpt-4o-transcribe-diarize, las organizaciones obtienen claridad y contexto en tiempo real, convirtiendo la voz en datos estructurados que impulsan decisiones más inteligentes y mejoran la productividad, lo que admite el reconocimiento automático de voz.
Use este modelo a través de las /audio API y /realtime .
GPT-image-1-mini
El gpt-image-1-mini modelo ya está disponible para las implementaciones globales. Es una versión más pequeña del modelo que ofrece un buen equilibrio entre el rendimiento y el gpt-image-1 costo. Actualmente se admiten todos los casos de uso, excepto las modificaciones de imagen y la fidelidad de entrada.
Solicitud de acceso: aplicación de modelo de acceso limitado
Siga la guía paso a paso de generación de imágenes para empezar a trabajar con este modelo.
Filtro de detección de contenido PII
La detección de información de identificación personal (PII) ahora está disponible como filtro de contenido integrado. Esta característica permite identificar y bloquear la información confidencial en las salidas de LLM, lo que mejora la privacidad de los datos. Para obtener más información, consulte la documentación de detección de PII .
Septiembre de 2025
GPT-5-codex ya está disponible
Para más información sobre
gpt-5-codex, consulte la página introducción a los modelos de razonamiento.gpt-5-codexestá diseñado para su uso con la CLI de Codex y la extensión Visual Studio Code Codex.El registro es necesario para acceder al modelo gpt-5-codex. Si previamente ha registrado y obtenido acceso a otros modelos de acceso limitado, como
gpt-5, no es necesario volver a aplicar y se le concederá acceso automáticamente.
Compatibilidad con vídeo a vídeo de Sora
El modelo sora de OpenAI ahora admite la generación de vídeo a vídeo. Puede proporcionar un vídeo corto como entrada para generar un vídeo nuevo y más largo que incorpore el vídeo de entrada. Consulte el inicio rápido para empezar.
Agosto de 2025
Compatibilidad de imágenes a video de Sora
El modelo de Sora de OpenAI ahora admite la generación de imágenes a vídeo. Puede proporcionar una imagen como entrada al modelo para generar un vídeo que incorpore el contenido de la imagen. También puede especificar el marco del vídeo en el que debería aparecer la imagen: no es necesario que sea el principio. Consulte el inicio rápido para empezar.
Este modelo de Sora ya está disponible en la región Centro de Suecia y Este de EE. UU. 2.
Disponibilidad general del modelo de audio de API en tiempo real
Los modelos GPT RealTime y Audio de OpenAI ahora están disponibles con carácter general en Microsoft Foundry Models.
Mejoras del modelo:
- Mejora en el seguimiento de instrucciones: Capacidades mejoradas para seguir instrucciones de tono, ritmo y escalación de forma más precisa y fiable. También puede cambiar los idiomas.
- Nuevas voces estándar, Marin y Cedar, que aportan una mejor naturalidad y claridad a la síntesis de voz.
- Calidad de audio mejorada: salida sin glitch, reproducción alfanumérica mejorada y control de modalidad.
Mejoras del servicio de API en tiempo real:
- Entrada de imagen: agregue y analice imágenes a través de voz sin requisitos de vídeo.
- Llamada a funciones mejoradas: capacidad mejorada para llamar al código personalizado definido por los desarrolladores. Se admite la llamada a funciones asincrónicas, lo que permite que las sesiones continúen mientras una llamada de función está pendiente.
- Modo de conversación: comportamiento de turnos de habla en el mundo real para interacciones naturales. El modo de conversación usa VAD para preguntar a los usuarios si no se detecta ninguna respuesta, lo que mejora la facilidad de uso real para las interacciones de tipo teléfono.
Se recomienda encarecidamente que todos los clientes realicen la transición a los modelos de disponibilidad general recién lanzados para aprovechar al máximo las características más recientes. Visite la documentación de Azure OpenAI y Microsoft Portal de Foundry para explorar las funcionalidades e integrarlas en las aplicaciones.
Disponibilidad general de desbordamiento aprovisionada (GA)
Spillover ahora está generalmente disponible. La gestión de desbordamiento administra las fluctuaciones del tráfico en las implementaciones aprovisionadas mediante el enrutamiento de los excesos a una implementación estándar designada. Para más información sobre cómo maximizar el uso de las implementaciones aprovisionadas con desbordamiento, consulte Administración del tráfico con desbordamiento para implementaciones aprovisionadas.
Modelos GPT-5 disponibles
gpt-5, ,gpt-5-mini,gpt-5-nanopara obtener más información, consulte la página introducción a los modelos de razonamiento.gpt-5-chatahora está disponible. Para más información, consulte la página modelos.gpt-5ahora está disponible para Unidades de rendimiento aprovisionadas (PTU).gpt-5-mini,gpt-5-nanoygpt-5-chatno requieren registro.
Nueva versión del enrutador de modelos
El router modelo ahora es compatible con la serie de modelos GPT-5.
El enrutador de modelos para Microsoft Foundry es un modelo de chat de IA desplegable que selecciona automáticamente el mejor modelo de chat subyacente para responder a un indicador dado. Para obtener más información sobre cómo funciona el enrutador de modelos y sus ventajas y limitaciones, consulte la guía conceptos del enrutador de modelos. Para usar el enrutador de modelos con la API de finalizaciones, consulte la Guía paso a paso.
Julio de 2025
Actualización gpT-image-1 (versión preliminar)
Parámetro de fidelidad de entrada: el
input_fidelityparámetro de la API de edición de imágenes le permite controlar con qué precisión el modelo transmite el estilo y las características de los temas en la imagen original (entrada). Esto es útil para:- Editar fotos conservando las características faciales; crear avatares que se parezcan a la persona original en diferentes estilos; combinar caras de varias personas en una imagen.
- Mantener la identidad de marca en imágenes generadas para activos de marketing, bocetos, fotografía de productos.
- Comercio electrónico y moda, donde necesita editar imágenes de trajes o detalles del producto sin comprometer el realismo.
Streaming parcial de imágenes: las API de generación de imágenes y ediciones de imágenes admiten streaming de imágenes parciales, donde devuelven imágenes con contenido representado parcialmente durante todo el proceso de generación de imágenes. Muestre estas imágenes al usuario para proporcionar comentarios visuales anteriores y mostrar el progreso de la operación de generación de imágenes.
Junio de 2025
Nuevos modelos códice mini y o3-pro lanzados
-
codex-miniyo3-proahora están disponibles. Para más información, consulte la página introducción a los modelos de razonamiento.
Mayo de 2025
Lanzamiento de la generación de vídeos de Sora (versión preliminar)
El modelo sora (2025-05-02) es un modelo de generación de vídeo de OpenAI que puede crear escenas de vídeo realistas e imaginativas a partir de instrucciones de texto.
Siga el inicio rápido de generación de vídeos para empezar. Para obtener más información, consulte la guía de conceptos de generación de vídeos .
Resaltado para escudos de indicación (versión preliminar)
Spotlighting (destacado) es una subcaracterística de escudos de indicación que mejora la protección contra ataques indirectos (documentos incrustados) mediante el etiquetado de los documentos de entrada con un formato especial para indicar al modelo un menor nivel de confianza. Para obtener más información, consulte la documentación del filtro de prompt shields.
Enrutador de modelos (versión preliminar)
El enrutador de modelos para Microsoft Foundry es un modelo de chat de IA desplegable que selecciona automáticamente el mejor modelo de chat subyacente para responder a un indicador dado. Para obtener más información sobre cómo funciona el enrutador de modelos y sus ventajas y limitaciones, consulte la guía conceptos del enrutador de modelos. Para usar el enrutador de modelos con la API de finalizaciones, consulte la Guía paso a paso.
Abril de 2025
Compatibilidad con la API en tiempo real (versión preliminar) para WebRTC
La API en tiempo real (versión preliminar) ahora admite WebRTC, lo que permite la transmisión de audio en tiempo real y las interacciones de baja latencia. Esta característica es ideal para las aplicaciones que requieren comentarios inmediatos, como soporte técnico al cliente dinámico o asistentes de voz interactivos. Para más información, consulte la documentación de la API en tiempo real (versión preliminar).
GPT-image-1 publicado (versión preliminar, acceso limitado)
GPT-image-1 (2025-04-15) es el modelo de generación de imágenes más reciente de Azure OpenAI. Incluye mejoras importantes en DALL-E, entre las que se incluyen:
- Mejor al responder a instrucciones precisas.
- Representa texto de forma confiable.
- Acepta imágenes como entrada, lo que permite las nuevas funcionalidades de edición y relleno de imágenes.
Solicitud de acceso: aplicación de modelo de acceso limitado
Siga la guía paso a paso de generación de imágenes para empezar a trabajar con el nuevo modelo.
Modelos o4-mini y o3 publicados
o4-mini y o3 los modelos ya están disponibles. Estos modelos son los modelos de razonamiento más recientes de Azure OpenAI que ofrecen un razonamiento, una calidad y un rendimiento mejorados. Para obtener más información, consulte la página introducción a los modelos de razonamiento.
GPT-4.1 publicado
GPT 4.1 y GPT 4.1-nano ya están disponibles. Estos modelos son los modelos más recientes de Azure OpenAI. GPT 4.1 tiene un límite de contexto de 1 millón de tokens. Para obtener más información, consulte la página modelos.
Modelos de audio gpt-4o lanzados
Los nuevos modelos de audio con tecnología GPT-4o ya están disponibles.
Se publican los modelos de voz a texto
gpt-4o-transcribeygpt-4o-mini-transcribe. Use estos modelos a través de las/audioAPI y/realtime.Se ha liberado el modelo de texto a voz
gpt-4o-mini-tts. Use elgpt-4o-mini-ttsmodelo para la generación de texto a voz a través de la/audioAPI.
Para obtener más información sobre los modelos disponibles, consulte la documentación sobre modelos y versiones.
Marzo de 2025
API de respuestas y modelo de vista previa de uso de computadora
La API Responses es una nueva API con estado de Azure OpenAI. Reúne las mejores funcionalidades de las finalizaciones de chat y la API de asistentes en una experiencia unificada. La API de respuestas también agrega compatibilidad con el nuevo computer-use-preview modelo, que potencia la funcionalidad Uso del equipo .
computer-use-preview. Los clientes que tienen acceso a otros modelos de acceso limitado todavía necesitan solicitar acceso a este modelo.
Solicitud de acceso: computer-use-preview aplicación de modelo de acceso limitado
Para obtener más información sobre las funcionalidades del modelo y la disponibilidad de regiones, consulte la documentación de los modelos.
Código de demostración de integración de Playwright.
Desbordamiento aprovisionado (versión preliminar)
La gestión de desbordamiento administra las fluctuaciones del tráfico en las implementaciones aprovisionadas mediante el enrutamiento de los excesos a una implementación estándar designada. Para más información sobre cómo maximizar el uso de las implementaciones aprovisionadas con desbordamiento, consulte Administración del tráfico con desbordamiento para implementaciones aprovisionadas (versión preliminar).
Especificar configuraciones de filtrado de contenido
Además de la configuración de filtrado de contenido de nivel de implementación, ahora también se proporciona un encabezado de solicitud que le permite especificar la configuración personalizada en el momento de la solicitud para cada llamada API. Para obtener más información, consulte Uso de filtros de contenido (versión preliminar).
Febrero de 2025
Versión preliminar de GPT-4.5
El modelo GPT más reciente que destaca en diversas tareas de texto e imagen ya está disponible en Azure OpenAI.
Para obtener más información sobre las funcionalidades del modelo y la disponibilidad de regiones, consulte la documentación de los modelos.
API de finalizaciones almacenadas
Las finalizaciones almacenadas permiten capturar el historial de conversaciones de las sesiones de finalizaciones de chat para usarlas como conjuntos de datos para evaluaciones y ajuste preciso.
Implementaciones estándar de zona de datos o3-mini
o3-mini ya está disponible para implementaciones estándar globales y estándar de zona de datos para clientes con acceso limitado registrado.
Para obtener más información, consulte nuestra guía del modelo de razonamiento.
gpt-4o Mini Audio lanzado
El gpt-4o-mini-audio-preview modelo (2024-12-17) es el modelo de finalizaciones de audio más reciente. Para obtener más información, consulte el inicio rápido de generación de audio.
El modelo gpt-4o-mini-realtime-preview (2024-12-17) es el más reciente para audio en tiempo real. Los modelos de tiempo real usan el mismo modelo de audio GPT-4o subyacente que la API de finalizaciones, pero está optimizada para interacciones de audio en tiempo real y de baja latencia. Para obtener más información, consulte el inicio rápido de audio en tiempo real.
Para obtener más información sobre los modelos disponibles, consulte la documentación sobre modelos y versiones.
Enero de 2025
o3-mini ha sido lanzado
o3-mini (2025-01-31) es el modelo de razonamiento más reciente, ofreciendo capacidades de razonamiento mejoradas. Para obtener más información, consulte nuestra guía del modelo de razonamiento.
Completaciones de audio de GPT-4o
El gpt-4o-audio-preview modelo ya está disponible para las implementaciones globales en las regiones Este de EE. UU. 2 y Centro de Suecia. Use el gpt-4o-audio-preview modelo para la generación de audio.
El modelo gpt-4o-audio-preview introduce la modalidad de audio en la API existente /chat/completions. El modelo de audio amplía el potencial de las aplicaciones de inteligencia artificial en interacciones basadas en texto y voz y análisis de audio. Las modalidades admitidas en gpt-4o-audio-preview el modelo incluyen: texto, audio y texto + audio. Para obtener más información, consulte el inicio rápido de generación de audio.
Nota
La API de Realtime utiliza el mismo modelo de audio subyacente GPT-4o que la API de completions, pero está optimizada para interacciones de audio en tiempo real con baja latencia.
GPT Realtime API 2024-12-17
La gpt-4o-realtime-preview versión del modelo 2024-12-17 está disponible para implementaciones globales en las regiones Este de EE. UU. 2 y Centro de Suecia. Use la gpt-4o-realtime-preview versión 2024-12-17 en lugar del gpt-4o-realtime-preview modelo 2024-10-01-preview para interacciones de audio en tiempo real.
- Se ha agregado compatibilidad para el almacenamiento en caché de mensajes con el
gpt-4o-realtime-previewmodelo. - Se ha agregado compatibilidad con nuevas voces. Los
gpt-4o-realtime-previewmodelos ahora admiten las siguientes voces:alloy, ,ashballadcoralechosage, , .shimmerverse - Los límites de velocidad ya no se basan en conexiones por minuto. La limitación de velocidad se basa ahora en RPM (solicitudes por minuto) y TPM (tokens por minuto) para el
gpt-4o-realtime-previewmodelo. Los límites de velocidad de cadagpt-4o-realtime-previewimplementación del modelo son 100 K TPM y 1 K RPM. Durante la versión preliminar, Fundición de IA de Azure portal y las API podrían mostrar inexactamente distintos límites de velocidad. Incluso si intenta establecer un límite de velocidad diferente, el límite de velocidad real es de 100 K TPM y 1 K RPM.
Para obtener más información, consulte el inicio rápido de audio en tiempo real de GPT y la guía paso a paso.
Diciembre de 2024
Modelo de razonamiento de o1 publicado para acceso limitado
El modelo más reciente o1 ya está disponible para el acceso a la API y la implementación del modelo.
Se requiere registro, y se concederá acceso en función de los criterios de idoneidad de Microsoft. Los clientes que solicitaron y recibieron acceso previamente a o1-preview, no necesitan volver a solicitar, ya que se encuentran automáticamente en la lista de espera para el modelo más nuevo.
Solicitud de acceso: aplicación de modelo de acceso limitado
Para obtener más información sobre los modelos de serie avanzados o1 , consulte Introducción a los modelos de razonamiento de la serie o1.
Disponibilidad de regiones
| Modelo | Región |
|---|---|
o1 (Versión: 2024-12-17) |
Región Este de EE. UU. 2 (Estándar global) Centro de Suecia (estándar global) |
Ajuste de preferencias (versión preliminar)
La optimización de preferencias directas (DPO) es una nueva técnica de alineación para modelos de lenguaje grandes, diseñados para ajustar los pesos del modelo en función de las preferencias humanas. A diferencia del aprendizaje por refuerzo del feedback humano (RLHF), DPO no requiere ajustar un modelo de recompensa y usa datos más sencillos (preferencias binarias) para el entrenamiento. Este método es computacionalmente más ligero y más rápido, lo que hace que sea igualmente eficaz en la alineación, mientras que es más eficaz. El DPO es especialmente útil en escenarios en los que los elementos subjetivas, como el tono, el estilo o las preferencias de contenido específicas son importantes. Nos complace anunciar la versión preliminar pública del DPO en Azure OpenAI, empezando por el modelo gpt-4o-2024-08-06.
Para obtener información sobre la disponibilidad de regiones de modelos para ajuste fino, consulte la página de modelos.
Finalizaciones almacenadas y destilación
Las finalizaciones almacenadas permiten capturar el historial de conversaciones de las sesiones de finalizaciones de chat para usarlas como conjuntos de datos para evaluaciones y ajuste preciso.
GPT-4o 2024-11-20
gpt-4o-2024-11-20 ahora está disponible para la implementación estándar global en:
- Este de EE. UU.
- Este de EE. UU. 2
- Centro-norte de EE. UU.
- Centro-sur de EE. UU.
- Oeste de EE. UU.
- Oeste de EE. UU. 3
- Centro de Suecia
NUEVO tipo de implementación aprovisionada de zona de datos
Las implementaciones en la zona de datos aprovisionadas están disponibles en el mismo recurso de Azure OpenAI que todos los demás tipos de implementación de Azure OpenAI, pero permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Las implementaciones aprovisionadas de zonas de datos proporcionan capacidad reservada de procesamiento de modelos para un alto y predecible rendimiento mediante la infraestructura de Azure dentro de las zonas de datos especificadas por Microsoft. Las implementaciones aprovisionadas de zona de datos se admiten en modelos gpt-4o-2024-08-06, gpt-4o-2024-05-13 y gpt-4o-mini-2024-07-18.
Para obtener más información, consulte la guía de tipos de implementación.
Pasos siguientes
Obtenga más información sobre los modelos subyacentes que potencian Azure OpenAI.