Almacenamiento en caché de solicitudes (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

El almacenamiento en caché de mensajes reduce la latencia general de las solicitudes y el costo de los mensajes más largos que tienen contenido idéntico al principio del mensaje. En este contexto, "prompt" hace referencia a la entrada que envía al modelo como parte de las finalizaciones del chat o las solicitudes de creación de respuestas. En lugar de volver a procesar los mismos tokens de entrada de nuevo, el servicio conserva una caché temporal de cálculos de token de entrada procesados para mejorar el rendimiento general. El almacenamiento en caché de las instrucciones no afecta al contenido del resultado devuelto en la respuesta del modelo, aparte de reducir la latencia y los costes.

En el caso de los modelos compatibles, los tokens almacenados en caché se facturan con un descuento en los precios del token de entrada para los tipos de implementación estándar y hasta 100% descuento en los tokens de entrada para los tipos de implementación aprovisionados. Los precios de la caché de las instrucciones son los mismos para las dos directivas de retención.

Retención rápida de caché

El almacenamiento en caché de las instrucciones puede utilizar directivas de retención en memoria o ampliadas. Cuando está disponible, el almacenamiento en caché extendido de prompts tiene como objetivo mantener la caché durante más tiempo, de modo que las solicitudes posteriores tengan más probabilidades de coincidir con la caché.

Para configurar la directiva de retención de la caché de instrucciones, defina el parámetro prompt_cache_retention en la API de respuestas o autocompletado de chat.

Retención de la caché de instrucciones en la memoria

Normalmente, el sistema borra las memorias caché en un plazo de 5 a 10 minutos de inactividad y siempre las quita dentro de una hora del último uso de la memoria caché. El sistema no comparte cachés de mensajes entre suscripciones de Azure.

Todos los modelos GPT-4o o posteriores de Azure OpenAI admiten la retención de la caché de instrucciones en memoria. Se aplica a los modelos que tienen sugerencias de autocompletado de chat, autocompletado de respuestas, respuestas u operaciones en tiempo real. En el caso de los modelos que no tienen estas operaciones, esta característica no está disponible.

Retención extendida de caché de instrucciones

La retención extendida de la caché de indicaciones mantiene activos los prefijos almacenados en caché durante más tiempo, hasta un máximo de 24 horas. El almacenamiento en caché de mensajes extendido funciona descargando los tensores de clave y valor en el almacenamiento local de GPU cuando la memoria está llena, lo que aumenta de manera considerable la capacidad de almacenamiento disponible para el almacenamiento en caché.

La retención extendida de la caché de mensajes está disponible para los siguientes modelos:

  • gpt-5.4
  • gpt-5.3-codex
  • gpt-5.2
  • gp5-5.1-codex-max
  • gpt-5.1
  • gpt-5.1-codex
  • gpt-5.1-codex-mini
  • gpt-5.1-chat
  • gpt-5
  • gpt-5-codex
  • gpt-4.1

Configuración por solicitud

Para gpt-5.4 y los modelos anteriores, si no especifica una directiva de retención, el valor predeterminado es in_memory. Los valores permitidos son in_memory y 24h. Para todos los modelos más recientes, el valor predeterminado es 24h y in_memory no se admite.

{
  "model": "gpt-5.4",
  "input": "Your prompt goes here...",
  "prompt_cache_retention": "24h"
}

Comenzar

Para aprovechar el almacenamiento en caché de mensajes, una solicitud debe cumplir estos dos requisitos:

  • Un mínimo de 1024 tokens de longitud.
  • Los primeros 1.024 "tokens" en el mensaje deben ser idénticos.

Las solicitudes se enrutan en función de un hash del prefijo inicial de un símbolo del sistema. Normalmente, el hash usa los primeros 256 tokens, aunque la longitud exacta varía en función del modelo.

Cuando los datos procesados mediante tokens de una instrucción coinciden con el contenido actual de la instrucción almacenado en la caché, se conoce como acierto de caché. Los aciertos de caché se mostrarán como cached_tokens en prompt_tokens_details en la respuesta de finalizaciones de chat.

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Después de los primeros 1024 tokens, los aciertos de caché se producen por cada 128 tokens idénticos adicionales.

Una diferencia de un solo carácter en los primeros 1.024 tokens provoca un fallo de caché, que se caracteriza por un valor de cached_tokens de 0. El almacenamiento en caché de mensajes está habilitado de forma predeterminada sin necesidad de configuración adicional para los modelos admitidos.

Si proporciona el parámetro prompt_cache_key, se combina con el hash del prefijo, lo que afecta al enrutamiento y mejora la frecuencia de aciertos de caché. Esta ventaja es especialmente beneficiosa cuando muchas solicitudes comparten prefijos largos y comunes. Si las solicitudes para el mismo prefijo y prompt_cache_key combinación superan una velocidad determinada (aproximadamente 15 solicitudes por minuto), algunas solicitudes se desbordan y se enrutan a máquinas adicionales, lo que reduce la eficacia de la memoria caché.

Preguntas más frecuentes

¿Qué se almacena en caché?

La compatibilidad de características con los modelos de la serie o1 varía según el modelo. Para obtener más información, consulte la guía de modelos de razonamiento dedicado.

El almacenamiento en caché de prompts admite:

Almacenamiento en caché admitido Descripción
Mensajes Matriz de mensajes completa: contenido del sistema, del desarrollador, del usuario y del asistente
Imágenes Imágenes incluidas en los mensajes de usuario, tanto como vínculos como datos codificados en base64. El parámetro detalles debe configurarse de forma idéntica en todas las solicitudes.
Uso de herramientas Tanto la matriz de mensajes como las definiciones de herramientas.
Salidas estructuradas El esquema de salida estructurado se anexa como prefijo al mensaje del sistema.

Para mejorar la probabilidad de aciertos de caché, estructure las solicitudes para que el contenido repetitivo se produzca al principio de la matriz de mensajes.

¿Puedo deshabilitar el almacenamiento en caché de las instrucciones?

El almacenamiento en caché de mensajes está habilitado de forma predeterminada para todos los modelos admitidos. No hay compatibilidad con la exclusión para el almacenamiento en caché de instrucciones.

¿El almacenamiento en caché de instrucciones funciona con la residencia de datos?

El almacenamiento en caché de instrucciones en la memoria es compatible en todas las regiones con residencia de datos. El almacenamiento en caché ampliado de instrucciones almacena temporalmente los datos en máquinas con GPU y mantiene los datos dentro de la región únicamente cuando se utilizan los tipos de implementación estándar regional o aprovisionada en la región.