Estimación y administración de la capacidad de un servicio de búsqueda

Búsqueda de Azure AI ofrece dos modelos de precios que controlan la capacidad de forma diferente:

Dedicado: Planifique la capacidad dimensionando las réplicas y las particiones, y seleccionando una categoría de servicio.
- Preaprovisione capacidad directamente mediante réplicas y particiones.
- Calcule el almacenamiento necesario (particiones) y el rendimiento necesario (réplicas).
- Elija un nivel de servicio para aprovisionar la capacidad necesaria en función de la demanda máxima esperada.
- Una vez configurada la capacidad por adelantado, paga una tarifa por hora medida por unidades de búsqueda (SU), independientemente del uso.
Sin servidor (versión preliminar): el servicio administra automáticamente la capacidad en función de los límites de uso y servicio. No es necesario aprovisionar previamente la capacidad. En su lugar, optimice la eficacia de la carga de trabajo para administrar el costo.
- La capacidad se escala automáticamente con demanda (puede escalar a cero cuando está inactiva).
- Se le factura según el uso real medido por unidades de proceso (RU) y almacenamiento.
- En lugar de la infraestructura, el planeamiento se centra en estos controladores de costos: patrones de consulta, tamaño y crecimiento del índice y patrones de ingesta de datos. Consulte Optimización del costo del modelo sin servidor.

Dimension	Dedicated	Serverless
Modelo de capacidad	Aprovisionado (réplicas × particiones)	Basado en el consumo
Scaling	Manual	Automatic
Control de usuario	Explícito (configurar réplicas y particiones)	Indirecto (influenciado por las características de la carga de trabajo)
Billing	Tarifa por hora fija por unidades de búsqueda (SU)	Pagos basados en el consumo para unidades de proceso (RU) y almacenamiento
Costo de inactividad	Se incurre siempre (capacidad aprovisionada mínima)	Se reduce a cero cuando está inactivo
Foco de optimización	Dimensionamiento de la infraestructura	Eficiencia de la carga de trabajo
Más adecuado para	Cargas de trabajo predecibles y estables	Cargas de trabajo variables, por ráfagas o multiinquilino, incluidos escenarios impulsados por agentes
Enfoque de planeamiento de capacidad	Dimensionar y escalar la infraestructura (réplicas y particiones)	Optimización de los patrones de uso y eficiencia de la carga de trabajo
Impacto en la ineficiencia	Latencia y presión de escalado	Aumento directo del costo

Importante

El nivel Desarrollador sin servidor está actualmente en versión preliminar. Esta versión preliminar se ofrece sin contrato de nivel de servicio y no es aconsejable usarla en las cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

La facturación del nivel Desarrollador sin servidor aún no está habilitada durante la versión preliminar. Los costos estimados del uso están disponibles en el portal de Azure y la telemetría, pero ese uso no aparecerá en la factura de Azure durante este período inicial. Microsoft proporcionará al menos 30 días de aviso antes de que comience la facturación. El aplazamiento de la facturación durante esta versión preliminar es temporal. El desarrollador sin servidor es un nivel de pago y será responsable de los cargos acumulados una vez que comience la facturación.

El nivel Desarrollador sin servidor no admite la migración a ni desde otros planes de tarifa y algunas características disponibles en otros niveles no se admiten durante la versión preliminar pública. Los límites de servicio, las características admitidas y los detalles de precios pueden cambiar antes de la disponibilidad general.

La versión preliminar solo está disponible actualmente en centro-oeste de EE. UU., Norte de Suiza y Este de Japón.

Para más información, consulte cómo:

Planeamiento de la capacidad del modelo dedicado

En el modelo dedicado, se aprovisiona la capacidad mediante unidades de búsqueda (SU)::

Unidad de búsqueda (SU) = réplicas × particiones
Réplica: copias del motor de búsqueda. Proporciona rendimiento de consultas y alta disponibilidad.
Partición: unidades de almacenamiento. Proporciona rendimiento de almacenamiento e indexación.

Cada servicio comienza con 1 réplica × 1 partición (1 SU). Puede agregar o quitar réplicas y particiones de forma independiente para dar cabida a cargas de trabajo fluctuantes. La incorporación de capacidad aumenta el costo de ejecutar un servicio de búsqueda.

Concepto	Definición
Unidad de búsqueda	Un único incremento de la capacidad total disponible. Se requiere un mínimo de una unidad de búsqueda para ejecutar el servicio. Dependiendo del plan de tarifa, el rango máximo es de una a 36 unidades. El número de unidades de búsqueda es igual al número de réplicas multiplicadas por el número de particiones: R × P = SU. Cada servicio comienza con una réplica y una partición, que consume una unidad: 1 × 1 = 1. Agregar una segunda réplica consume dos unidades: 2 × 1 = 2. Una unidad de búsqueda también es la unidad de facturación de un servicio de búsqueda.
Réplica	Instancias del servicio de búsqueda, que se utilizan principalmente para equilibrar la carga de las operaciones de consulta. Cada réplica hospeda una copia de un índice. Si asigna tres réplicas, tendrá tres copias de un índice disponibles para atender las solicitudes de consulta.
Partición	Almacenamiento físico y E/S para operaciones de lectura y escritura (por ejemplo, al volver a compilar o actualizar un índice). Cada partición tiene un segmento del índice total. Si asigna tres particiones, el índice se divide en tercios.

Revise la tabla de particiones y réplicas para ver las posibles combinaciones que permanecen por debajo del límite de 36 unidades.

Las características físicas de las réplicas y las particiones, como la velocidad de procesamiento y la E/S de disco, varían según el nivel de servicio. En un servicio de búsqueda estándar, las réplicas y las particiones son más rápidas y de mayor tamaño que las de un servicio básico.

Cuándo agregar capacidad para el modelo dedicado

Considere la posibilidad de agregar réplicas o particiones cuando:

La latencia de las consultas aumenta o no se cumplen los criterios del acuerdo de nivel de servicio (SLA).
Aumenta la frecuencia de errores HTTP 503 (servicio no disponible).
La frecuencia de errores HTTP 429 (Demasiadas solicitudes) aumenta, lo que indica la limitación de solicitudes.
Se esperan volúmenes de consultas grandes.
Las tareas de indexación son lentas o se están retrasando.
El rendimiento de almacenamiento o indexación no es suficiente.

Guía de escalabilidad:

Agregue réplicas para aumentar el rendimiento y la disponibilidad de las consultas.
Agregue particiones para aumentar el rendimiento de almacenamiento e indexación.
Las cargas de trabajo con mucha consulta suelen requerir más réplicas.
Los índices grandes pueden requerir réplicas adicionales para mantener el rendimiento.

Importante

Las operaciones de escalado pueden tardar tiempo en completarse y aumentar el costo. Valide siempre los cambios mediante las pruebas de rendimiento y las estimaciones de precios.

El nivel de servicio que elija determina el tamaño y la velocidad de la partición. Cada nivel está optimizado en torno a un conjunto de características que se ajustan a varios escenarios. Si elige un plan de gama superior, puede que necesite menos particiones que si elige S1. Una de las preguntas que necesita responder a través de pruebas autodirigidas es si una partición más grande y costosa produce un mejor rendimiento que dos particiones más baratas en un servicio aprovisionado en un nivel inferior.

Un único servicio debe tener recursos suficientes para controlar todas las cargas de trabajo (indexación y consultas). Ninguna carga de trabajo se ejecuta en segundo plano. Puede programar la indexación para las horas en las que las solicitudes de consulta son naturalmente menos frecuentes, pero el servicio no da prioridad a una tarea por encima de otra. Además, una determinada cantidad de redundancia suaviza el rendimiento de la consulta cuando los servicios o nodos se están actualizando internamente.

Como norma general, las aplicaciones de búsqueda tienden a necesitar más réplicas que particiones, sobre todo cuando las operaciones de servicio están orientadas a las cargas de trabajo de consulta. Cada réplica es una copia del índice, por lo que el servicio puede cargar las solicitudes de equilibrio en varias copias. Búsqueda de Azure AI administra todo el equilibrio de carga y la replicación de un índice. Puede cambiar el número de réplicas asignadas para el servicio en cualquier momento. Puede asignar hasta 12 réplicas en un servicio de búsqueda estándar y 3 réplicas en un servicio de búsqueda básico. Puede asignar réplicas desde el Azure portal o mediante cualquiera de las opciones programáticas.

Las particiones adicionales son útiles para cargas de trabajo de indexación intensivas. Las particiones adicionales propagan las operaciones de lectura y escritura en un mayor número de recursos de proceso.

Por último, las consultas en índices de mayor tamaño tardan más tiempo en realizarse. Por lo tanto, es posible que con cada aumento incremental de las particiones sea necesario también un aumento menor, pero proporcional, de las réplicas. La complejidad de sus consultas y el volumen de las consultas afectan a la rapidez con que se completa la ejecución de las consultas.

Para conocer los límites de servicio y los intervalos de escalado válidos, consulte:

Nota:

La adición de más réplicas o particiones aumenta el costo de ejecución del servicio y puede generar pequeñas variaciones en cómo se ordenan los resultados. Asegúrese de activar la calculadora de precios para comprender las implicaciones que tiene en la facturación el agregar más nodos. La tabla de combinaciones de particiones y réplicas puede ayudarle a hacer referencia cruzada al número de unidades de búsqueda necesarias para una configuración específica. Para obtener más información sobre cómo afectan las réplicas adicionales al procesamiento de consultas, consulte Ordenación de resultados.

Administración y ajuste de la capacidad

El cambio de capacidad no es instantáneo. Según el volumen de datos y el tipo de operación, el escalado puede tardar de minutos a varias horas.

Al escalar un servicio de búsqueda, puede elegir entre las siguientes herramientas y enfoques:

Nota:

Si el servicio de búsqueda se creó antes de abril o mayo de 2024, podría ser apto para una actualización única a una infraestructura más reciente con tamaños de partición más grandes sin costo adicional. Esta actualización puede aumentar el almacenamiento disponible por partición y reducir el número de particiones necesarias para la carga de trabajo. Para obtener más información, consulte Actualización del servicio de búsqueda.

Para aumentar o disminuir la capacidad del servicio, tiene dos opciones:

Agregar o quitar particiones y réplicas
Cambiar el plan de tarifa

Agregar o quitar particiones y réplicas

Vaya al servicio de búsqueda en el portal Azure.
En el panel izquierdo, seleccione Configuración>Escalar.

En la siguiente captura de pantalla se muestra un servicio estándar aprovisionado con una réplica y una partición. La fórmula de la parte inferior indica cuántas unidades de búsqueda se usan (1). Si el precio por unidad era de 100 USD (no un precio real), el costo de ejecución de este servicio sería, de media, de 100 USD.
Use el control deslizante para aumentar o disminuir el número de particiones y, a continuación, seleccione Guardar.

En este ejemplo se agrega una segunda réplica y otra partición. Observe el recuento de unidades de búsqueda; ahora es cuatro porque la fórmula de facturación son las réplicas multiplicadas por las particiones (2 x 2). Cuanto más se duplica la capacidad, más se duplica el costo de ejecución del servicio. Si el costo de la unidad de búsqueda era de 100 USD, la nueva factura mensual sería ahora de 400 USD.

Para los costos actuales por unidad de cada plan, visite la página de precios.
Compruebe las notificaciones para confirmar que se inició la operación.

Esta operación puede tardar varias horas en completarse. Se produce en segundo plano, por lo que el servicio de búsqueda permanece totalmente operativo y disponible para las operaciones de lectura y escritura.

No puede cancelar la operación ni supervisar su progreso. Sin embargo, el mensaje siguiente se muestra mientras están en curso los cambios.

Cambiar el nivel de tarifa

Nota:

El portal de Azure y Services - Update (API REST) admite cambios entre los niveles Básico y Estándar (S1, S2 y S3). Puede actualizar o cambiar a una versión anterior de los niveles, siempre que la configuración del servicio actual no supere los límites del nivel de destino. La región tampoco puede tener restricciones de capacidad en el nivel de destino.

El plan de tarifa determina el almacenamiento máximo del servicio de búsqueda para el modelo de precios dedicado. Si necesita más o menos capacidad, puede cambiar a otro plan de tarifa que se adapte a sus necesidades de almacenamiento. (Esto solo se aplica a los planes de modelo de tarifa dedicados. El nivel Desarrollador del modelo sin servidor no se puede cambiar una vez seleccionado).

Además de la capacidad, los planes de tarifa determinan los límites de índices, indexadores y otros objetos de búsqueda. Compare los límites de servicio del nivel actual y el nivel deseado antes de continuar. Por lo general, cambiar a un nivel superior aumenta el límite de almacenamiento y el límite de vectores, aumenta el rendimiento de las solicitudes y disminuye la latencia, mientras que el cambio a un nivel inferior tiene el efecto opuesto.

Cambiar a un plan de tarifa superior también aumenta el costo de ejecutar el servicio de búsqueda. Consulte la página de preciospara obtener más información.

Para cambiar su nivel de precios:

Vaya al servicio de búsqueda en el portal Azure.
En el panel izquierdo, seleccione Configuración>Escalar.
En el nivel actual, seleccione Cambiar plan de tarifa.
En la página Seleccionar plan de tarifa, elija otro nivel de la lista.

Puede cambiar entre Basic, S1, S2 y S3, pero no puede cambiar a o desde Free, S3HD, L1 o L2. Estos niveles no se pueden seleccionar y aparecen atenuados.
Para iniciar la operación de escalado, seleccione Guardar.

Esta operación puede tardar varias horas en completarse. Se produce en segundo plano, por lo que el servicio de búsqueda permanece totalmente operativo y disponible para las operaciones de lectura y escritura.

No puede cancelar la operación ni supervisar su progreso. Sin embargo, el mensaje siguiente se muestra mientras están en curso los cambios.

Cómo se controlan las solicitudes de escalado para el modelo dedicado

Cuando el servicio de búsqueda recibe una solicitud de escalado, hace lo siguiente:

Comprueba si la solicitud es válida.
Inicia la copia de seguridad de los datos y la información del sistema.
Comprueba si el servicio ya está en estado de aprovisionamiento (agregando o eliminando actualmente réplicas o particiones).
Inicia el aprovisionamiento.

El escalado de un servicio puede tardar varios minutos en varias horas, según el tamaño del servicio y el ámbito de la solicitud. La duración de la copia de seguridad también varía en función de la cantidad de datos y el número de particiones y réplicas.

Los pasos anteriores no son completamente consecutivos. Por ejemplo, el sistema inicia el aprovisionamiento cuando puede hacerlo de forma segura, que podría ser mientras se está completando la copia de seguridad.

Errores durante el escalado

En la tabla siguiente se enumeran las causas y las soluciones de los errores que pueden producirse durante las operaciones de escalado.

Mensaje de error	Causa	Solución
"Las operaciones de actualización del servicio no se permiten en este momento porque estamos procesando una solicitud anterior".	Otra operación de escalado está en curso.	Compruebe la página Overview en el portal de Azure o use Search Management REST API, Azure PowerShell o CLI de Azure para obtener el estado del servicio de búsqueda. Si el estado es "Aprovisionamiento", espere hasta que se convierta en "Correcto" o "Error" antes de intentarlo de nuevo. ^{1, 2}
"No se pudo escalar el servicename del servicio de búsqueda. Error: El número de objetosActualCount supera el límite permitido: MaximumCount".	La configuración actual del servicio supera los límites del plan de tarifa de destino.	Compruebe que el uso del almacenamiento, el uso de vectores, los índices, los indexadores y otros objetos se ajusten a los límites de servicio del nivel inferior. Por ejemplo, el nivel Básico admite hasta 15 índices, por lo que no puede cambiar de S1 a Básico si tiene 16 índices. Ajuste los recursos antes de intentarlo de nuevo.

¹ No hay ningún estado para las copias de seguridad, que son operaciones internas que probablemente no interrumpan un ejercicio de escalado.

² Si el servicio de búsqueda parece estar detenido en un estado de aprovisionamiento, compruebe si hay índices huérfanos que no se pueden usar, sin volúmenes de consulta ni actualizaciones de índices. Un índice inutilizable puede bloquear los cambios en la capacidad del servicio. En concreto, busque índices cifrados por CMK cuyas claves ya no sean válidas. Elimine el índice o restaure las claves para volver a poner el índice en línea y desbloquear la operación de escalado.

Combinaciones de particiones y réplicas

El gráfico siguiente se aplica al nivel Estándar y superior. Muestra todas las combinaciones posibles de particiones y réplicas, sujeto al máximo de 36 unidades de búsqueda por servicio.

	1 partición	2 particiones	3 particiones	4 particiones	6 particiones	12 particiones
1 réplica	1 SU	2 unidades de búsqueda	3 unidades de búsqueda	4 unidades de búsqueda	6 unidades de búsqueda	12 unidades de búsqueda
2 réplicas	2 unidades de búsqueda	4 unidades de búsqueda	6 unidades de búsqueda	8 unidades de búsqueda	12 unidades de búsqueda	24 unidades de búsqueda
3 réplicas	3 unidades de búsqueda	6 unidades de búsqueda	9 unidades de búsqueda	12 unidades de búsqueda	18 unidades de búsqueda	36 unidades de búsqueda
4 réplicas	4 unidades de búsqueda	8 unidades de búsqueda	12 unidades de búsqueda	16 unidades de búsqueda	24 unidades de búsqueda	N/A
5 réplicas	5 unidades de búsqueda	10 SU	15 unidades de búsqueda	20 unidades de búsqueda	30 unidades de búsqueda	N/A
6 réplicas	6 unidades de búsqueda	12 unidades de búsqueda	18 unidades de búsqueda	24 unidades de búsqueda	36 unidades de búsqueda	N/A
12 réplicas	12 unidades de búsqueda	24 unidades de búsqueda	36 unidades de búsqueda	N/A	N/A	N/A

Los servicios de búsqueda básicos tienen menores recuentos de unidades de búsqueda.

En los servicios de búsqueda creados antes del 3 de abril de 2024: Nivel básico puede tener exactamente una partición y hasta tres réplicas, para un límite máximo de tres SU. El único recurso que puede ajustarse son las réplicas. Sin embargo, es posible que pueda aumentar el número de particiones mediante la actualización del servicio.
En los servicios de búsqueda creados después del 3 de abril de 2024 en regiones admitidas, los servicios básicos pueden tener hasta tres particiones y tres réplicas. El límite máximo de SU es nueve para admitir un complemento completo de particiones y réplicas.

Para los servicios de búsqueda en cualquier nivel facturable, independientemente de la fecha de creación, necesita un mínimo de dos réplicas para alta disponibilidad en las consultas.

Para obtener tarifas de facturación por nivel y moneda, consulte la página de precios Búsqueda de Azure AI.

Estimar la capacidad mediante un nivel de modelo de precios dedicado

Las necesidades de almacenamiento dependen del tamaño de los índices que espera compilar. No hay ninguna heurística sólida ni directrices generales que ayuden con estimaciones. La única manera de determinar el tamaño de un índice es crear uno. Su tamaño depende de la tokenización y las incrustaciones, y de si habilita sugerencias, filtrado y ordenación, o de si puede aprovechar la compresión de vectores.

Calcule la capacidad en un nivel facturable, Básico o superior. El nivel Gratis se ejecuta en recursos físicos compartidos por varios clientes y está sujeto a factores más allá del control. Sólo los recursos dedicados de un servicio de búsqueda facturable pueden acomodar mayores tiempos de muestreo y procesamiento para estimaciones más realistas de la cantidad, el tamaño y los volúmenes de consulta del índice durante el desarrollo.

Revise los límites del servicio en cada nivel para determinar si los niveles más bajos pueden admitir la cantidad de índices que necesita. Considere si necesita varias copias de un índice para el desarrollo, las pruebas y la producción activos.

Un servicio de búsqueda está sujeto a límites de objetos (número máximo de índices, indexadores, conjuntos de aptitudes, etc.) y límites de almacenamiento. El límite que se alcance primero es el vigente.
Cree un servicio en un nivel facturable. Los niveles están optimizados para determinadas cargas de trabajo. Por ejemplo, el nivel Optimizado para almacenamiento tiene un límite de 10 índices porque está diseñado para admitir un número bajo de índices grandes.
- Comience por abajo, en Básico o S1, si no está seguro de la carga proyectada.
- Comience alto, en S2 o incluso S3, si las pruebas incluyen indexación a gran escala y cargas de consulta.
- Empiece con Almacenamiento optimizado, en L1 o L2, si va a indexar una gran cantidad de datos y la carga de consultas es relativamente baja, como con una aplicación empresarial interna.
Genere un índice inicial para determinar cómo se traducen los datos de origen a un índice. Esta es la única manera de calcular el tamaño del índice. Los atributos de las definiciones de campo afectan a los requisitos de almacenamiento físico:
- Para la búsqueda de palabras clave, marcar campos como filtrables y ordenables aumenta el tamaño del índice.
- Para la búsqueda de vectores, puede establecer parámetros para reducir el tamaño de vector.
Supervise el almacenamiento, los límites de servicio, el volumen de consultas y la latencia en el portal de Azure. En el portal de Azure se muestran las consultas por segundo, las consultas limitadas y la latencia de búsqueda. Estos valores pueden ayudarle a decidir si seleccionó el nivel correcto.
Agregue réplicas para lograr una alta disponibilidad o para mitigar el rendimiento lento de las consultas.

No hay instrucciones sobre cuántas réplicas se necesitan para acomodar las cargas de consulta. El rendimiento de consulta depende de la complejidad de la consulta y de las cargas de trabajo competitivas. Si bien la adición de réplicas genera claramente un mejor rendimiento, el resultado final no será estrictamente lineal: la adición de tres réplicas no garantiza el triple rendimiento. Para obtener instrucciones sobre la estimación de QPS para la solución, consulte Análisis del rendimiento y Supervisión de consultas.

Para un índice invertido, el tamaño y la complejidad vienen determinados por el contenido, y no necesariamente por la cantidad de datos que se incorporan. Un origen de datos de gran tamaño con mucha redundancia podría dar lugar a un índice más pequeño que un conjunto de datos más pequeño que incluya contenido muy variable. Así que es poco probable deducir el tamaño del índice en función del tamaño del conjunto de datos original.

Los requisitos de almacenamiento se pueden inflar si incluye datos que nunca se buscan. Lo ideal es que los documentos contengan solo los datos que necesita para la experiencia de búsqueda.

Consideraciones sobre el contrato de nivel de servicio

Los contratos de nivel de servicio (SLA) no cubren las características del nivel Gratis y la versión preliminar. Para todos los niveles facturables, los SLA tomarán efecto cuando se aprovisione suficiente redundancia para el servicio.

Dos o más réplicas satisfacen los Acuerdos de Nivel de Servicio de consulta (lectura).
Tres o más réplicas satisfacen los acuerdos de nivel de servicio de consulta e indexación (lectura y escritura).

El número de particiones no afecta a los SLA.

Optimización del costo del modelo sin servidor

En el modelo de precios sin servidor:

El servicio administra automáticamente la capacidad.
No es necesario configurar réplicas, particiones ni unidades de búsqueda.
La capacidad de proceso se escala dinámicamente en función de la carga de trabajo (demanda de consultas e indexación) y puede escalar a cero cuando no hay actividad.

Para más información sobre las limitaciones del modelo sin servidor, consulte Límites de servicio.

La facturación se basa en dos dimensiones:

Uso de proceso (RU): Se cobra en función de las operaciones de consulta e indexación.
Almacenamiento indexado: Se cobra por GB al mes.

Dado que la facturación se basa en el consumo, el costo está directamente vinculado al uso:

Las consultas complejas consumen más recursos de cómputo.
El diseño de esquemas ineficaz aumenta los costos de indexación y consulta.
Los patrones de consulta deficientes con índices grandes o actualizados con frecuencia aumentan el uso de almacenamiento y proceso.

Optimización de la eficiencia de la carga de trabajo

Dado que la ineficiencia se muestra como costo en el modelo sin servidor, paga más por el mismo trabajo si no practica el diseño compatible con la carga de trabajo. La mejor manera de controlar el gasto sin servidor es diseñar los índices y consultas de forma eficaz desde el principio.

Para diseñar cargas de trabajo de eficiencia al usar el modelo de precios sin servidor, tenga en cuenta lo siguiente:

Diseño del índice

Incluya solo los campos usados en las consultas.
Reduzca las dimensiones vectoriales siempre que sea posible.
Evite atributos filtrables, ordenables o facetables innecesarios.

Patrones de consulta

Use $select para limitar los campos devueltos.
Aplique filtros al principio para reducir los conjuntos de resultados.
Evite la paginación profunda ($skip).
Prefiera consultas específicas en lugar de consultas amplias de texto completo.
Use la búsqueda híbrida cuidadosamente debido a un mayor costo de proceso.

Monitoring

Supervise el consumo de CU para identificar consultas costosas.
Realice un seguimiento del crecimiento del almacenamiento y quite los datos sin usar.

En Sin servidor, mejorar el rendimiento (consultas más rápidas y dirigidas) normalmente reduce el costo.

Para obtener más información, consulte Optimizar los costos con el modelo de precios sin servidor en Búsqueda de Azure AI.

Consideraciones sobre la capacidad regional

La capacidad y la disponibilidad pueden variar según la región admitida. Algunas regiones pueden tener restricciones en el aprovisionamiento de nuevos servicios o el escalado de los existentes.

Nota:

Durante la versión preliminar pública, el modelo de precios sin servidor solo está disponible en un conjunto limitado de regiones. Consulte el aviso de vista previa al principio de este artículo.

Si la región de Búsqueda de Azure AI preferida no está disponible debido a restricciones de capacidad, consulte Cómo controlar las restricciones de capacidad regional en Búsqueda de Azure AI.

Pasos siguientes

Planificación y administración de costos

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-03

Estimación y administración de la capacidad de un servicio de búsqueda

Planeamiento de la capacidad del modelo dedicado

Cuándo agregar capacidad para el modelo dedicado

Administración y ajuste de la capacidad

Agregar o quitar particiones y réplicas

Cambiar el nivel de tarifa

Cómo se controlan las solicitudes de escalado para el modelo dedicado

Errores durante el escalado

Combinaciones de particiones y réplicas

Estimar la capacidad mediante un nivel de modelo de precios dedicado

Consideraciones sobre el contrato de nivel de servicio

Optimización del costo del modelo sin servidor

Optimización de la eficiencia de la carga de trabajo

Consideraciones sobre la capacidad regional

Pasos siguientes

Comentarios

Recursos adicionales