Estrategias de arquitectura para diseñar un sistema de supervisión

Aplicable a esta recomendación de la lista de comprobación de excelencia operativa del marco Azure Well-Architected:

OE:07 Diseñe una pila de supervisión que capture datos de telemetría, métricas y registros operativos de la infraestructura y el código de la carga de trabajo para validar las decisiones de diseño y guiar las mejoras futuras.

La observabilidad, o la supervisión, es una práctica operativa clave que proporciona al equipo de carga de trabajo la capacidad de comprender el estado interno de un sistema en función de los datos externos que genera. A diferencia de la pila funcional, que implementa la lógica de negocios y las características principales, la pila de supervisión se ejecuta en paralelo. Recopila y analiza métricas, registros, seguimientos y eventos que muestran cómo se comportan las cargas de trabajo en condiciones reales.

El diseño de la pila de supervisión requiere una planeación cuidadosa, ya que proporciona visibilidad sobre cuestiones transversales, como la confiabilidad, el rendimiento, la seguridad y el costo. Una pila de supervisión bien diseñada permite la detección temprana de problemas, la respuesta a incidentes eficaz y las decisiones operativas fundamentadas. Constituye la base para la administración proactiva y la mejora continua.

En esta guía se describen las estrategias clave para diseñar una pila de supervisión que admita funciones de supervisión, detección y alertas. Para obtener instrucciones de implementación, incluidos procesos en pasos y cuadernos de estrategias, consulte el artículo complementario: Crear un sistema de monitoreo para cargas de trabajo de Azure.

Definiciones

Término Definición
Telemetría Un término colectivo para registros, métricas, seguimientos y eventos. La telemetría proporciona la base para la observabilidad.
Registros Eventos del sistema registrados que capturan lo que ha ocurrido en el sistema. Los registros pueden ser texto estructurado o de forma libre con marcas de tiempo. Son útiles para detectar e investigar anomalías.
Metrics Valores numéricos recopilados a intervalos regulares que describen el rendimiento del sistema. Las métricas ayudan a identificar las tendencias en el rendimiento y la confiabilidad de las cargas de trabajo.
Observabilidad Práctica que ayuda a los equipos a detectar problemas, realizar un seguimiento de las tendencias de rendimiento y tomar decisiones operativas.
Identificadores de correlación Identificadores únicos que realizan un seguimiento de eventos relacionados entre varios componentes para habilitar el seguimiento integral de transacciones en sistemas distribuidos.
Instrumentación Adición de funcionalidades de supervisión a aplicaciones e infraestructura para capturar telemetría. La telemetría capturada incluye el registro, la recopilación de métricas y el seguimiento.
Modelo de salud Marco para medir el estado de la carga de trabajo mediante indicadores, KPI y métricas que reflejan los objetivos empresariales y operativos.
Indicadores clave de rendimiento (KPI) Valores medibles que muestran hasta qué punto una carga de trabajo logra los objetivos empresariales y operativos. Los KPI guían la recopilación y el análisis de telemetría.
Administración del rendimiento de aplicaciones (APM) Herramientas y prácticas para supervisar el rendimiento, la disponibilidad y la experiencia del usuario de las aplicaciones. Las herramientas de APM proporcionan visibilidad histórica y en tiempo real de las métricas importantes.
Traces Registros que muestran las rutas de acceso de las solicitudes a través de sistemas distribuidos. Las trazas ayudan a diagnosticar problemas que abarcan varios servicios.

Alinear telemetría con modelos de estado y KPI

Defina indicadores de estado de carga de trabajo, Indicadores Clave de Rendimiento (KPIs), y métricas de rendimiento para que las estrategias de recopilación de telemetría reflejen estos objetivos. Realice un seguimiento de estos indicadores para detectar anomalías para que pueda tomar decisiones sobre la acción correctiva.

Vincule la telemetría a los flujos del sistema y de usuario, y modele esos flujos como entidades en su modelo de estado. Este enfoque conecta el estado a nivel de aplicación con las señales a nivel de recurso y con el estado general de la carga de trabajo, de modo que la degradación de una dependencia se manifiesta en el nivel en el que el impacto en el negocio es visible.

Oportunidad de IA: Los equipos dedican tiempo a definir manualmente KPI y telemetría. Las herramientas asistidas por IA pueden sugerir telemetría usada habitualmente en función de la arquitectura, las dependencias del servicio y el código. Herramientas como GitHub Copilot o Claude Code también pueden ayudar a agregar instrumentación y generar consultas o plantillas de infraestructura como código (IaC). Incluya supervisión humana para asegurarse de que la observabilidad controlada por inteligencia artificial permanece precisa y alineada con los estándares.

Emisión de telemetría a partir de componentes de carga de trabajo

Capture señales significativas de las aplicaciones, la infraestructura y las operaciones. Registre excepciones críticas con detalles suficientes, pero permita ajustar la verbosidad para gestionar el ruido.

Se prefiere la telemetría estructurada para que los datos se puedan consultar y buscar. Use esquemas coherentes e incluya información contextual como el componente de origen, las marcas de tiempo, etc. Se esfuerza por la coherencia, ya que esto permite un análisis más preciso de los eventos y una correlación más clara con las solicitudes de usuario. Para ello, adopte un marco de registro configurable que normalice cómo se captura la información en todo el sistema.

Inconveniente: aumente el detalle de los registros para mejorar la depuración y la trazabilidad, pero tenga en cuenta que se incrementarán los costes de almacenamiento y procesamiento. Para administrar este inconveniente, use el registro detallado en el desarrollo y el nivel de detalle reducido en producción, y utilice identificadores de correlación para mantener la visibilidad de las transacciones de extremo a extremo sin un volumen de registro excesivo.

Tenga una manera de clasificar la telemetría por motivos operativos, como auditoría, seguridad, depuración y rendimiento, para simplificar el filtrado y aplicar los controles de acceso adecuados. Asegúrese de que los datos de carga de trabajo no se mezclan con la telemetría. Limpie la información confidencial del sistema o del usuario antes del registro de datos, mientras conserva suficiente contexto para los diagnósticos.

Asegúrese de que las prácticas de instrumentación sean operativas seguras. El registro debe ser de activación y olvido para que no bloquee las operaciones empresariales, salvo para escenarios de auditoría críticos. Mantenga la instrumentación extensible y desacoplada de backends específicos y asegúrese de que los errores en la telemetría no se propagan como fallos en la aplicación.

Trate la instrumentación como una materia iterativa. Revise y refina la telemetría periódicamente para mantener la claridad, la relevancia y el rendimiento a medida que evoluciona el sistema.

Nota:

La generación de perfiles de aplicaciones puede ser otra manera de analizar cómo una aplicación en ejecución usa recursos del sistema, como CPU, memoria, E/S de disco y red. Un generador de perfiles se asocia a la aplicación (durante el desarrollo o en producción) y recopila datos detallados en tiempo de ejecución. Hay dos enfoques: generación de perfiles completa o basada en muestras. El perfil completo es más preciso, pero puede agregar una carga significativa y ralentizar el sistema. Opte por la muestra en la que los datos se recopilan en función del tiempo, como una vez cada n segundos o frecuencia, como una vez cada n solicitudes. Si los eventos son frecuentes, use el muestreo para reducir la sobrecarga. Si los eventos son poco frecuentes, utilice un perfilado más exhaustivo para no pasarlos por alto.

Recopilación de telemetría en toda la carga de trabajo

Los sistemas de telemetría usan dos modelos de recopilación fundamentales. En un modelo de extracción, un componente recopila telemetría consultando un sistema de destino. En un modelo de inserción, los componentes emiten telemetría a medida que envían datos al exterior. Elija un modelo basado en factores que se apliquen a la carga de trabajo. Por ejemplo, ¿son suficientes las instantáneas periódicas o necesita datos casi en tiempo real? ¿Cuál es el volumen de telemetría esperado? ¿Cuál es el tipo de dato: basado en estado o registros, eventos y trazas?

Es habitual usar un enfoque combinado. Por ejemplo, los agentes de supervisión pueden usar un modelo de extracción, que se ejecuta localmente junto con cada instancia de aplicación para recopilar datos periódicamente y escribirlos en el almacenamiento compartido. Al mismo tiempo, puede usar un modelo de envío para la telemetría de la aplicación, donde cada instancia emite registros, seguimientos y métricas a una cola de mensajes o a un eventstream a medida que se producen eventos.

Priorice la transferencia de datos en función de la importancia. Los datos menos urgentes se pueden transferir en lotes, pero se debe enviar información confidencial inmediatamente.

Estandarización de la consolidación de datos

Mueva la telemetría fuera de los silos locales y consolide en un repositorio central, si la organización lo exige. En el caso de las soluciones de varias regiones, recopile y almacene primero los datos de forma regional y, a continuación, agregaciónelo de forma centralizada. Sin embargo, para cargas de trabajo críticas para la empresa, se recomienda el almacenamiento autónomo de datos.

Use formatos coherentes y métodos de recopilación para que se pueda acceder a los datos para el análisis, los paneles, las alertas y los informes. Evite la recuperación manual de los componentes, ya que agrega sobrecarga e incoherencias.

Use los servicios de consolidación de datos para:

  • Eliminar datos duplicados.
  • Combine eventos relacionados mediante identificadores de correlación.
  • Filtre la información innecesaria.

Riesgo: Tenga en cuenta que hay implicaciones de costos para tener almacenes de datos regionales y centralizados.

Adaptar el almacenamiento y la retención para los patrones de uso

Seleccione soluciones de almacenamiento basadas principalmente en las necesidades de consulta y los patrones de acceso. Por ejemplo, se debe acceder rápidamente a los datos que generan alertas, por lo que debe mantenerse en un almacenamiento de datos rápido e indexado o estructurado para optimizar las consultas.

Use la persistencia políglota para almacenar diferentes tipos de datos en tecnologías adecuadas para su uso:

  • Bases de datos SQL para contadores de rendimiento
  • registros de Azure Monitor o Azure Data Explorer para los registros de seguimiento
  • Sistema de archivos distribuido de Hadoop (HDFS) para obtener información de seguridad

Además, separe el almacenamiento de datos por entorno. Esta separación impide que los datos del entorno no crítico complican la supervisión de producción.

Planee la retención en función de cómo usará los datos. Mantenga los datos de alta resolución para el análisis y la depuración a corto plazo y conserve los agregados de menor resolución para las tendencias a largo plazo. Mueva datos más antiguos o a los que se accede con poca frecuencia al almacenamiento más barato y mantenga los datos recientes en sistemas más rápidos para un análisis rápido. Esto equilibra el rendimiento con el costo. Establezca períodos de retención para que coincidan con las necesidades operativas y los requisitos de cumplimiento, por lo que los datos están disponibles cuando es necesario sin sobrecarga de almacenamiento innecesaria.

Trate los datos de supervisión como cualquier otro dato crítico. Aplicar la protección adecuada: control de acceso, eliminación temporal y medidas de seguridad contra cambios accidentales.

Correlación de datos para perspectivas de extremo a extremo

Diseñe la observabilidad para conectar la telemetría a partir de métricas, registros y seguimientos en todos los componentes. Este diseño permite el seguimiento distribuido de operaciones entre servicios, lo que le ayuda a diagnosticar problemas que abarcan varios niveles.

Use los identificadores de correlación de forma coherente para realizar un seguimiento de las transacciones a través de los niveles de presentación, intermedio y de datos.

Agregue registros de nivel de aplicación y de nivel de recurso para mejorar la solución de problemas y acelerar la detección de problemas. Considere una solución unificada, como Azure Log Analytics, para consultar y analizar datos entre niveles.

Alinee la telemetría con los flujos de usuario y del sistema para correlacionar el estado del flujo con el estado general de la carga de trabajo. Comprender estos flujos le ayuda a garantizar que la estrategia de observabilidad refleje tanto el comportamiento del sistema de nivel de componente como de un extremo a otro.

Análisis y visualización para respaldar decisiones ejecutables

Diseñe paneles e informes en torno a modelos de estado operativo. Las visualizaciones deben permitir a los equipos identificar rápidamente problemas, comprender las tendencias y priorizar las respuestas.

Un modelo de estado proporciona la capa semántica entre la telemetría y las decisiones operativas. En lugar de paneles basados en métricas, visualice estados de mantenimiento que permitan profundizar desde el estado de mantenimiento de cargas de trabajo hasta los recursos individuales. Aproveche los modelos de estado de Azure Monitor para obtener visualizaciones integradas del estado de salud en toda la jerarquía de entidades y acceso a la API para integrar datos de estado de salud en herramientas como Grafana.

Use arquitecturas y patrones de supervisión probados en lugar de implementaciones personalizadas o soluciones ad hoc. Asegúrese de que los paneles sean significativos y accionables. Los analistas pueden usar paneles con parámetros para explorar los datos subyacentes.

En el caso de las cargas de trabajo de base de datos, evalúe los paneles de supervisión integrados que proporcionan los servicios en la nube. Por ejemplo, Azure Database for PostgreSQL ofrece paneles de Grafana integrados en el portal de Azure mediante la integración con Azure Monitor. Estos paneles muestran el uso de CPU, el almacenamiento, las conexiones activas y el rendimiento de las consultas con correlación de registros, lo que reduce la necesidad de implementaciones de supervisión independientes.

Oportunidad de IA: Los paneles suelen centrarse en métricas empresariales o de ingeniería. La inteligencia artificial puede analizar datos de todos los orígenes pertinentes y ayudarle a diseñar paneles integrados con las configuraciones y la visualización adecuadas. Este diseño reduce el esfuerzo manual y expone información que, de lo contrario, podría pasarse por alto.

Definición de alertas en torno a condiciones operativas significativas

Establezca alertas basadas en el estado de la carga de trabajo, no en valores arbitrarios. Las alertas deben ser accionables y proporcionar contexto. Establezca un proceso de alerta claro y responsable que defina los propietarios, las acciones y el ámbito. Configure alertas con granularidad y detalle adecuados para minimizar el ruido, a la vez que se garantiza que se detecten rápidamente problemas críticos.

Use un modelo de mantenimiento que agregue varias señales correlacionadas en estados de salud y, a continuación, genere alertas sobre transiciones de estado, no sobre umbrales aislados de métricas.

Valide los umbrales en función de la experiencia pasada y las pruebas periódicas. Utilice almacenamiento rápido para datos que generan alertas con el fin de habilitar notificaciones rápidas. Configure alertas para ámbitos bien definidos y ajuste la verbosidad para minimizar el ruido.

Automatice las alertas y vincule las alertas a los sistemas de vales. Supervise el estado del servicio de la plataforma en la nube, las interrupciones, el mantenimiento y los avisos.

Las herramientas de operaciones con tecnología de inteligencia artificial, como Azure SRE Agent, pueden analizar patrones de alerta y diagnosticar problemas comunes, como bucles de fallo de pod o tasas de error elevadas. Estas herramientas admiten la autonomía configurable, empezando por las acciones recomendadas y habilitando progresivamente las respuestas automatizadas dentro de límites de protección definidos.

Oportunidad de la IA: Puede utilizar la IA para definir dinámicamente el comportamiento "saludable" del sistema. Use inteligencia artificial para aprender patrones en contextos empresariales, como el tráfico máximo, las promociones, los períodos silenciosos y las variaciones regionales. Después, la inteligencia artificial puede analizar métricas, registros y datos de incidentes para predecir problemas y recomendar umbrales.

Diseño de canalizaciones de telemetría escalables y duraderas

Los sistemas de observabilidad deben manejarse a alta escala sin cuellos de botella ni pérdida de datos. Incluya almacenamiento en búfer, puesta en cola y rutas de ingesta escalables para mantener el flujo de telemetría bajo la carga.

Utilice mecanismos de puesta en cola para entornos a gran escala para controlar los picos. Implemente redundancia para evitar la pérdida de datos importantes. Planee el escalado durante el diseño para garantizar que los sistemas de supervisión crezcan con las demandas de carga de trabajo.

Para cargas de trabajo complejas, use colas de mensajes con semántica de al menos una vez. Ejecute varios servicios de escritura de almacenamiento para manejar grandes volúmenes. Considere la posibilidad de usar Azure Event Hubs para distribuir el procesamiento de telemetría y evitar cuellos de botella de entrada/salida en un único punto.

Usar la observabilidad para apoyar la mejora continua

Trate la observabilidad como un bucle de retroalimentación. Use datos de producción para refinar el diseño de la carga de trabajo, la captura de telemetría y los umbrales de supervisión.

Equilibre la automatización y la supervisión humana para garantizar la precisión. Revise y evolucione continuamente los enfoques de supervisión a medida que cambian las cargas de trabajo. Use la telemetría para identificar las oportunidades de optimización, validar las decisiones de arquitectura y guiar los diseños futuros.

Incluya supervisión y alertas en las pruebas generales de cargas de trabajo. Automatice las funciones al tiempo que mantiene la capacidad de analizar tendencias para predecir problemas operativos y planear la capacidad.

Atención a los antipatrones

Muchos errores de supervisión proceden de opciones arquitectónicas deficientes en lugar de limitaciones de herramientas.

No solo corrija los síntomas, sino que analice por qué surgió el antipatrón y abordará la debilidad subyacente del diseño. A continuación, aplique mitigación tanto si usa estándares de telemetría claros como si impulsa métricas alineadas con la empresa o reconocimiento de costes.

Se recomienda leer esta sección en la guía de implementación complementaria: Antipatrones y cómo evitarlas.

facilitación de Azure

  • Azure Monitor es una solución de supervisión para recopilar, analizar y responder a los datos de supervisión de los entornos locales y en la nube.

  • Los modelos de estado de Azure Monitor ayudan a definir, medir y visualizar el estado de la carga de trabajo mediante la correlación de métricas, registros y trazas para obtener estados de estado procesables en los recursos y componentes de Azure.

  • Log Analytics es una herramienta del portal de Azure que puede usar para editar y ejecutar consultas de registro en los datos del área de trabajo de Log Analytics.

    Si usa varias áreas de trabajo, consulte la guía de arquitectura del espacio de trabajo de Log Analytics para conocer los procedimientos recomendados.

  • Application Insights es una extensión de Azure Monitor. Proporciona funcionalidades de APM.

  • Azure Monitor Insights son herramientas de análisis avanzadas para tecnologías de Azure específicas (como máquinas virtuales, servicios de aplicaciones y contenedores). Estas herramientas forman parte de Azure Monitor y Log Analytics.

  • Azure Monitor para soluciones de SAP es una herramienta de supervisión de Azure para entornos de SAP que se ejecutan en Azure.

  • Azure Policy puede ayudarle a aplicar los estándares de la organización y evaluar el cumplimiento a escala.

  • Azure Network Watcher es una herramienta que supervisa, administra y audita la red para garantizar la seguridad, el cumplimiento y el rendimiento.

  • Solución de problemas de conexión es una herramienta de diagnóstico en Network Watcher. Proporciona diagnósticos a petición y captura de paquetes (PCAP) para ayudar a investigar problemas de conectividad.

  • Connection monitor es una herramienta de supervisión en Network Watcher. Ejecuta pruebas sintéticas continuas y envía alertas en tiempo real para problemas de conectividad y rendimiento.

  • Traffic analytics es una solución de análisis de tráfico en Network Watcher. Visualiza la distribución del tráfico, identifica a los principales conversadores y revela las tendencias de uso del ancho de banda. Estas funcionalidades proporcionan una vista unificada del estado de la red.

  • Los registros de flujo de red virtual ahora tienen un conector de Microsoft Sentinel nativo que exporta la telemetría de red al SIEM de la organización. Esta integración aporta datos de flujo en el mismo plano de análisis que las señales de identidad y punto de conexión, lo que mejora la correlación durante las investigaciones de seguridad. Controle los costes del volumen de registros y de la analítica a medida que aumenta la ingesta.

  • Azure Monitor Alertas de línea base (AMBA) es un repositorio central de definiciones de alertas que los clientes y asociados pueden usar para mejorar su experiencia de observabilidad a través de la adopción de Azure Monitor.

Lista de comprobación de excelencia operativa

Consulte el conjunto completo de recomendaciones.