Introducción a GPT Realtime 2.0 (versión preliminar) (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

GPT Realtime 2 es un modelo de voz a voz con razonamiento integrado. Acepta la entrada de audio y genera una salida de audio. Está diseñado para experiencias de voz interactivas y de baja latencia en las que se necesita un mayor seguimiento de instrucciones y capacidad de razonamiento que en los modelos de tiempo real anteriores.

Nota:

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

Novedades de GPT Realtime 2

Soporte de razonamiento con un control ajustable reasoning.effort.
Fases de respuesta que distinguen los preámbulos ("comentario") de la respuesta final ("final_answer").
Ventana de contexto más larga (256 000 tokens).

Conceptos clave

Esfuerzo de razonamiento

Controlar la intensidad del razonamiento con el reasoning.effort parámetro de sesión. Los valores válidos son minimal, low, medium y high.

Preámbulos y fases de respuesta

Las respuestas en tiempo real pueden incluir varios elementos de salida por turno. Cada elemento tiene un phase que indica su rol:

Fase	Descripción
`commentary`	Un preámbulo que se puede solicitar, que a menudo se usa antes de un razonamiento más largo.
`final_answer`	La respuesta final después de que el modelo complete el razonamiento.

Los preámbulos pueden reducir la latencia percibida (por ejemplo, "Déjame pensar en eso...") y también se pueden usar para anuncios de herramientas o rellenos de silencio. Si el modelo se interrumpe durante el pensamiento, descarta la cadena de pensamiento actual e inicia un nuevo turno.

Instrucciones siguientes

El seguimiento de instrucciones es más estricto que en los modelos anteriores de tiempo real. Si la solicitud del sistema contiene palabras estrechas (por ejemplo, distinguir "id. de pedido" del "código de confirmación"), es posible que tenga que ampliar o volver a escribir instrucciones para que coincidan con expresiones de usuario reales.

Empieza ahora

Los patrones de conexión y uso de GPT Realtime 2 son los mismos que los de las versiones anteriores; basta con implementar el nuevo modelo y hacer que el código existente apunte a él. Elija el transporte que se adapte a su escenario:

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-20