problemas de Azure Monitor

El agente de observabilidad de Azure Copilot le ayuda a identificar, investigar y explicar las degradaciones del servicio. Cuando se producen estas degradaciones, a menudo quiere conservar el contexto, compartir conclusiones con su equipo y seguir trabajando en el problema a lo largo del tiempo.

Un problema es el registro persistente que hace que esto sea posible. Mantiene las señales relacionadas juntas y proporciona a su equipo un lugar compartido para continuar con la solución de problemas en lugar de empezar a partir de alertas, recursos o sesiones de investigación independientes.

Problemas frente a alertas

Las alertas y los problemas sirven para diferentes propósitos.

Una alerta representa una señal específica observada en un recurso. Se desencadena cuando los datos supervisados cumplen las condiciones de una regla de alerta.

Un problema es el registro persistente que se usa para investigar, administrar y resolver una degradación del servicio. Aunque las alertas ayudan a identificar síntomas individuales, los problemas ayudan a los equipos a comprender y administrar el problema operativo más amplio. Un único problema puede abarcar varias alertas y recursos, lo que proporciona una vista unificada del incidente a lo largo de su ciclo de vida.

Cómo se crean los problemas

Puede crear un problema de dos maneras:

Cada incidencia se guarda en un área de trabajo de Azure Monitor (AMW).

Necesita el rol Colaborador, Colaborador de supervisión o Colaborador de problemas en el área de trabajo de Azure Monitor para crear un problema. Para más información sobre la administración de roles, consulte Asignación de roles de Azure mediante Azure Portal.

Qué contiene un problema

Un problema conserva el contexto de una degradación del servicio a medida que pasa de la detección inicial a la investigación y respuesta en curso. Dependiendo de cómo se creó el problema, puede incluir:

  • Emita metadatos como el título, la gravedad, el estado y el tiempo de impacto.
  • Información general que resume el problema, su impacto y el contexto recopilados hasta ahora.
  • Las investigaciones realizadas por el agente de observabilidad de Azure Copilot, incluidos los resultados de la investigación, el análisis, los pasos siguientes recomendados y la capacidad de seguir refinando la investigación con el Agente de observabilidad.
  • Alertas relacionadas asociadas al problema.
  • Recursos relacionados afectados por o conectados al problema.

Este modelo convierte las incidencias en el punto de transferencia persistente entre la investigación impulsada por agentes y el flujo de trabajo de respuesta humana.

Visualización de problemas

Puede ver una lista de problemas en las siguientes ubicaciones:

  • Azure Monitor : muestra problemas en todas las áreas de trabajo de Azure Monitor (AMW) en las suscripciones seleccionadas.
  • Área de trabajo de Azure Monitor : muestra problemas que se almacenan dentro de un AMW específico.

Área de trabajo de Azure Monitor como un contenedor de problemas

Las áreas de trabajo (AMW) de Azure Monitor actúan como contenedores para problemas.

Puede configurar un AMW como contenedor predeterminado para todas las incidencias de una suscripción. Cuando configuras un AMW predeterminado, el proceso de investigación guarda los problemas en el mismo espacio de trabajo cuando las alertas se activan en los recursos de esa suscripción. Guardarlos en la misma área de trabajo ayuda a garantizar que todos los problemas relacionados se almacenan y administran en una ubicación coherente.

Para obtener información sobre cómo asociar una suscripción a un área de trabajo de Azure Monitor, consulte Uso de problemas de Azure Monitor.

Este es un ejemplo de un problema contenido en un AMW.

Captura de pantalla del área de trabajo de Azure Monitor que contiene problemas.

Acciones del problema

Cuando se crea o actualiza un problema, las acciones de problema permiten desencadenar notificaciones o flujos de trabajo automatizados en ese momento en el flujo de respuesta. Dado que las acciones se basan en un problema correlacionado y enriquecido, en lugar de en alertas individuales, llevan contexto consolidado: gravedad, recursos afectados e hallazgos de investigación. Esto proporciona a los flujos de trabajo de bajada suficiente información para aplicar respuestas dirigidas y coherentes en lugar de reaccionar a señales aisladas.

Cuando se desencadenan las notificaciones

Las notificaciones se envían en las siguientes situaciones:

  • Se crea un nuevo problema , ya sea como resultado de una investigación guardada o por un agente autónomo.
  • Se actualiza un problema existente , cuando cambia la gravedad o el estado del problema.

Tipos de acción admitidos

Se admiten los siguientes tipos de acción:

  • Correo electrónico (destinatarios individuales o roles de Azure Resource Manager)
  • SMS/mensaje de texto
  • Voice
  • Logic Apps
  • Event Hubs
  • Azure Functions
  • Libro de procedimientos para automatización
  • Webhook seguro
  • Webhook

Configuración de acciones

Configure las acciones mediante grupos de acciones en el área de trabajo de Azure Monitor (AMW) en la que se almacena la incidencia. Puede configurar uno o varios grupos de acciones como acciones predeterminadas para esa área de trabajo.

Cuando se crea o actualiza un problema, los grupos de acciones configurados en el AMW asociado se desencadenan automáticamente.

También puede definir acciones a través de la configuración de recursos del Agente de observabilidad de Azure Copilot. Para obtener más información, consulte Creación de un recurso del Agente de observabilidad de Azure Copilot en el portal de Azure.

Para obtener más información sobre los grupos de acciones, consulte Grupos de acciones.

Escenarios de ejemplo

En los ejemplos siguientes se muestra cómo las acciones de problema pueden admitir diferentes escenarios de respuesta:

  • Creación de tickets e integración del flujo de trabajo — Use una Logic App para crear o actualizar un elemento de trabajo en sistemas como Azure DevOps o Jira cuando se crea o actualiza una incidencia. El elemento de trabajo puede incluir detalles del problema, como la gravedad, los recursos afectados y el contexto operativo, lo que ayuda a los equipos a realizar un seguimiento de la propiedad, coordinar el trabajo y administrar la resolución a través de sus procesos de ingeniería existentes.

  • Enrutamiento inteligente: use una función de Azure o una aplicación lógica para inspeccionar las propiedades del problema, como la gravedad, el servicio afectado o los recursos afectados y enrutar el problema al equipo, canal o flujo de trabajo adecuado. Por ejemplo, dirigir las incidencias que afectan a una aplicación de cara al cliente a un equipo de ingeniería de guardia, mientras que las incidencias que afectan a los sistemas internos se dirigen a un flujo de trabajo operativo distinto.

  • Transmisión de datos de problemas a sistemas de bajada: envíe eventos de ciclo de vida de problemas a Azure Event Hubs para su procesamiento por sistemas externos. Utiliza este enfoque para impulsar paneles personalizados, análisis operativos, canalizaciones de generación de informes, lagos de datos o plataformas internas que consumen y analizan datos de incidencias junto con otras señales operativas.