Mantenimiento de la nube privada de Azure VMware Solution

Azure VMware Solution realiza un mantenimiento periódico de la nube privada. Este mantenimiento incluye revisiones de seguridad, actualizaciones secundarias y principales de la pila de software de VMware. En esta página se describen la supervisión del host, la remediación, y los pasos obligatorios que mantienen la nube privada preparada para el mantenimiento.

Mantenimiento y administración del ciclo de vida de hosts

Una de las ventajas de las nubes privadas de Azure VMware Solution es que la plataforma se mantiene automáticamente. Microsoft es responsable de la administración del ciclo de vida del software de VMware (ESXi, vCenter Server y vSAN) y de los dispositivos NSX. También se encarga de la configuración de la red de arranque, como la creación de la puerta de enlace de nivel 0 y la habilitación del enrutamiento vertical de arriba abajo. Usted es responsable de la configuración de NSX SDN: segmentos de red, reglas de firewall distribuidas, puertas de enlace de nivel 1 y equilibradores de carga.

Nota:

Se crea y configura una puerta de enlace T0 como parte de una implementación de nube privada. Cualquier modificación en el enrutador lógico o en las máquinas virtuales del nodo perimetral de NSX podría afectar a la conectividad con la nube privada, por lo que se debe evitar.

Microsoft es responsable de aplicar revisiones, actualizaciones o actualizaciones a ESXi, vCenter Server, vSAN y NSX en la nube privada. El impacto de las revisiones, actualizaciones y actualizaciones en ESXi, vCenter Server y NSX tiene las siguientes consideraciones:

  • ESXi: no se produce ningún impacto en las cargas de trabajo que se ejecutan en la nube privada. El acceso a vCenter Server y NSX no se bloquea durante este tiempo. Durante este tiempo, se recomienda no planear otras actividades, como: el escalado vertical de la nube privada, la programación o inicio de migraciones de HCX activas y los cambios de configuración en HCX, entre otras, en la nube privada.

  • vCenter Server: no se produce ningún impacto en las cargas de trabajo que se ejecutan en la nube privada. Durante este tiempo, vCenter Server no estará disponible y no será posible administrar máquinas virtuales (detener, iniciar, crear o eliminar). Se recomienda no planear otras actividades, como el escalado vertical de la nube privada o la creación de redes nuevas, entre otras, en la nube privada. Al usar VMware Site Recovery Manager o interfaces de usuario de replicación de vSphere, se recomienda no realizar ninguna de las siguientes acciones: configurar las replicaciones de vSphere, así como configurar o ejecutar planes de Site Recovery, durante la actualización de vCenter Server.

  • NSX: Microsoft sigue el flujo de trabajo de actualización estándar de Broadcom NSX. Las actualizaciones de NSX Edge se realizan primero y de una en una, lo que puede provocar pérdidas transitorias de paquetes mientras Edge realiza la transición de forma ordenada a otro Edge activo durante la actualización. Normalmente, esto no afecta a las aplicaciones finales, ya que la retransmisión en la capa TCP suele solucionar el problema. En el caso de los hosts, Azure VMware Solution usa actualizaciones del modo de mantenimiento de host para evitar cualquier impacto durante las actualizaciones del host; este proceso mueve todas las máquinas virtuales a otros hosts del clúster y coloca los hosts en modo de mantenimiento antes de actualizar. Durante la actualización, no se puede realizar el acceso al plano de administración de NSX y no se pueden realizar cambios de configuración en el entorno de NSX. Le recomendamos que no planifique otras actividades, como ampliar la capacidad, entre otras, en su nube privada. Otras actividades pueden impedir que se inicie la actualización o pueda tener efectos negativos en la actualización y el entorno.

Recibirá una notificación mediante Azure Service Health incluyendo la escala de tiempo de la actualización. En esta notificación también se proporcionan detalles sobre el componente actualizado, su efecto en las cargas de trabajo, el acceso a la nube privada y otros servicios de Azure. Puede volver a programar una actualización según sea necesario.

Entre las actualizaciones de software se incluyen las siguientes:

  • Revisiones: revisiones de seguridad o correcciones de errores publicadas por VMware.

  • Actualizaciones: cambio de versión secundaria de un componente de la pila de VMware.

  • Actualizaciones: cambio de versión principal de un componente de la pila de VMware.

Nota:

Microsoft prueba una revisión de seguridad crítica en cuanto está disponible desde VMware.

Se implementan soluciones documentadas de VMware en lugar de instalar una revisión correspondiente hasta que se implementan las siguientes actualizaciones programadas.

Supervisión y corrección de host

Azure VMware Solution supervisa continuamente el estado de los subyacentes y los componentes de VMware. Cuando Azure VMware Solution detecta un error, toma medidas para reparar los componentes que no funcionan. Cuando Azure VMware Solution detecta una degradación o un error en un nodo de Azure VMware Solution, desencadena el proceso de corrección del host.

La corrección del host implica reemplazar el nodo defectuoso por un nuevo nodo en buen estado en el clúster. A continuación, cuando sea posible, el host defectuoso se coloca en el modo de mantenimiento VMware vSphere. VMware vSphere vMotion mueve las máquinas virtuales fuera del host defectuoso a otros servidores disponibles del clúster, lo que podría permitir un tiempo de inactividad cero para la migración en vivo de cargas de trabajo. Si el host defectuoso no se puede poner en modo de mantenimiento, se quita del clúster. Antes de quitar el host defectuoso, las cargas de trabajo del cliente se migran a un host recién agregado.

Sugerencia

Comunicación con el cliente: se envía un correo electrónico a la dirección de correo electrónico del cliente antes de que se inicie el reemplazo y, nuevamente, después de que el reemplazo se realice correctamente.

Para recibir correos electrónicos relacionados con el reemplazo de host, debe agregarse a uno de los siguientes roles de Azure Role-Based Access Control (RBAC) en la suscripción: "ServiceAdmin", "CoAdmin", "Propietario" o "Colaborador".

Azure VMware Solution supervisa las siguientes condiciones en el host:

  • Estado del procesador
  • Estado de la memoria
  • Estado de conexión y energía
  • Estado del ventilador de hardware
  • Pérdida de conectividad de red
  • Estado de la placa del sistema de hardware
  • Errores en uno o varios discos de un host de vSAN
  • Voltaje de hardware
  • Estado de la temperatura de hardware
  • Estado de la energía de hardware
  • Estado de almacenamiento
  • Error de conexión

Acciones para asegurarse de que la nube privada está lista para el mantenimiento

Las siguientes acciones son necesarias para garantizar que las operaciones de mantenimiento del host se realicen correctamente:

  • Uso del almacenamiento de vSAN: Para mantener el Acuerdo de Nivel de Servicio (SLA), asegúrese de que el uso del espacio de almacenamiento del clúster de vSphere sigue siendo inferior a 75%. Si el uso supera los 75%, las actualizaciones pueden tardar más de lo esperado o producir un error por completo. Si el uso del almacenamiento supera los 75%, considere la posibilidad de agregar un nodo para expandir el clúster y evitar posibles tiempos de inactividad durante las actualizaciones.
  • Reglas del Distributed Resource Scheduler (DRS): Las reglas de antiafinidad DRS VM-VM deben configurarse de modo que haya al menos (N+1) hosts en el clúster, donde N es el número de máquinas virtuales en la regla de DRS.
  • Incumplimiento de Failures To Tolerate (FTT): Evite la pérdida de datos cambiando las máquinas virtuales configuradas con una directiva de almacenamiento de vSAN con un valor de Failures To Tolerate (FTT) de 0 por una directiva de almacenamiento de vSAN compatible con el Microsoft SLA (FTT=1 para hasta cinco hosts en un clúster y FTT=2 para seis o más hosts en un clúster). Asegúrese de que las operaciones de mantenimiento del host se pueden realizar sin problemas.
  • Quite los montajes de CD-ROM de la máquina virtual: las máquinas virtuales montadas con CD-ROM en "modo Emular" bloquean el mantenimiento del host. Asegúrese de que los CD-ROM estén montados en "Modo de acceso directo".
  • Puerto serie/paralelo o dispositivo externo: Si usa un archivo de imagen (ISO, FLP, etc.), asegúrese de que es accesible desde todos los hosts ESXi del clúster. Almacene los archivos en un almacén de datos que se comparta entre todos los servidores ESXi que participan en vMotion de la máquina virtual (VM). Para obtener más información, consulte el artículo broadcom KB.
  • Máquinas virtuales huérfanas: En el caso de las máquinas virtuales huérfanas, deben volver a registrarse si aún no se han eliminado o quitado del inventario. Para obtener más información, consulte el artículo broadcom KB.
  • Controlador compartido SCSI: Cuando se utilice el uso compartido del bus SCSI, asegúrese de que el tipo de bus sea "Físico" para las máquinas virtuales. Las máquinas virtuales conectadas a controladores SCSI virtuales están apagadas. Para obtener más información, consulte el artículo broadcom KB.
  • Aplicaciones y máquinas virtuales de terceros: Para máquinas virtuales y aplicaciones de terceros:
    • Asegúrese de que las soluciones de terceros implementadas en Azure VMware Solution son compatibles y no interfieren con las operaciones de mantenimiento.
    • Asegúrese de que la máquina virtual no está instalada con una regla de DRS "Debe ejecutarse" de VM-Host. Además, compruebe que estas aplicaciones son compatibles con las próximas versiones del conjunto de VMware.
    • Consulte con el proveedor de la solución y actualice con antelación si es necesario para mantener la compatibilidad después de la actualización.

Importante

Si existen configuraciones de bloqueo de mantenimiento en un host de Azure VMware Solution, recibirá alertas en el panel de Resource Health. Para garantizar que los hosts en mal estado se sustituyan y que las actualizaciones se completen correctamente, los efectos de estas configuraciones de bloqueo se mitigan adoptando las medidas correctivas adecuadas para mantener la disponibilidad de su nube privada. En algunos casos, estos pasos de corrección incluirían apagar una máquina virtual y migrarla a otro host y, a continuación, encenderla, lo que podría interrumpir brevemente la aplicación que se ejecuta en la máquina virtual.

Tabla de códigos de alerta y corrección

Código de error Detalles del error Acción recomendada
EPC_CDROM_EMULATEMODE Se produce un error cuando CD-ROM en la máquina virtual usa el modo emular, cuya imagen ISO no es accesible. Siga este artículo de KB para retirar cualquier CDROM montado en una máquina virtual de carga de trabajo de un cliente en modo de emulación o ISO de desasociación. La recomendación es usar el "modo de acceso directo" para montar cualquier CD-ROM.
EPC_DRSOVERRIDERULE Se produce un error cuando existe una máquina virtual con la anulación de DRS establecida en modo "Deshabilitado". La máquina virtual no debe bloquear vMotion al colocar el host en mantenimiento. Establezca reglas de DRS parcialmente automatizadas para la máquina virtual. Consulte este documento para más información sobre las directivas de selección de ubicación de máquinas virtuales.
EPC_SCSIDEVICE_SHARINGMODE Se produce un error cuando una máquina virtual está configurada para usar el controlador SCSI con el uso compartido de bus en modo "virtual". Lea el este artículo de la base de conocimientos para eliminar cualquier controlador SCSI conectado a máquinas virtuales cuando esté dedicado al uso compartido de bus en modo virtual.
EPC_DATASTORE_INACCESSIBLE Se produce un error cuando cualquier almacén de datos externo asociado a Azure VMware Solution nube privada deja de estar accesible. Siga este artículo para la eliminación de cualquier almacén de datos obsoleto asociado al clúster.
EPC_NWADAPTER_STALE Se produce un error cuando la interfaz de red conectada de la máquina virtual utiliza un adaptador de red que deja de ser accesible. Siga este artículo de KB para la eliminación de los adaptadores de N/W obsoletos conectados a las máquinas virtuales.
EPC_SERIAL_PORT Se produce un error cuando un puerto serie de máquina virtual está conectado a un dispositivo al que no se puede acceder en el host de destino. Si usa un archivo de imagen (ISO, FLP, etc.), asegúrese de que es accesible desde todos los servidores ESXi del clúster. Almacene los archivos en un almacén de datos que se comparte entre todos los servidores ESXi que participan en vMotion de la máquina virtual. Para obtener más información, consulte este artículo de KB de Broadcom.
EPC_HARDWARE_DEVICE Se produce un error cuando no se puede acceder, en el host de destino, a un dispositivo conectado a un puerto paralelo o dispositivo USB de la máquina virtual. Si usa un archivo de imagen (ISO, FLP, etc.), asegúrese de que es accesible desde todos los servidores ESXi del clúster. Almacene los archivos en un almacén de datos que se comparte entre todos los servidores ESXi que participan en vMotion de la máquina virtual. Obtenga más información sobre Broadcom y sobre por qué VMotion falla con el error de compatibilidad.
EPC_INVALIDVM / EPC_ORPHANVM Se produce un error cuando hay una máquina virtual huérfana o no válida en el inventario. Asegúrese de que todas las máquinas virtuales son accesibles para vCenter. Obtenga más información sobre Broadcom y las máquinas virtuales que aparecen como no válidas, huérfanas o inaccesibles.
EPC_VMHOSTDRSRULE Se produce un error cuando hay una máquina virtual con una regla DRS de afinidad/antiafinidad de host. La máquina virtual no debe bloquear VMware vMotion al colocar un host en modo de mantenimiento. Establezca reglas preferentes para la afinidad entre VM y host. Obtenga más información sobre la creación de una directiva de selección de ubicación.
EPC_FTT_ZERO Se produce un error cuando una máquina virtual tiene "Fallos que se pueden tolerar" establecido en 0 o "Sin redundancia de datos". Obtenga más información sobre Broadcom y cómo configurar FTT como 1 o 2 para la máquina virtual.
EPC_FTTVIOLATION Se produce un error cuando un clúster no tiene el número mínimo de hosts que necesita la directiva de almacenamiento. Agregue hosts según sea necesario mediante la directiva de almacenamiento o cambie la directiva de FTT de máquina virtual para permitir poner el host en modo de mantenimiento. Más información sobre Broadcom y la directiva de FTT.
EPC_VSANSTORAGEUTILIZATION Se produce un error cuando el uso de vSAN en el clúster es superior a 75%, lo que podría provocar una degradación del rendimiento y haría que el clúster fuera incontenible. Si el uso de vSAN en el clúster es superior a 75%, puede agregar nodos para aumentar la capacidad disponible o reducir el uso de datos en el clúster. Siga este documento Tutorial: Escalar clústeres en una nube privada para aumentar vSAN. Siga las instrucciones de Backup solutions for Azure VMware Solution virtual machines para obtener información sobre cómo realizar copias de seguridad y quitar máquinas virtuales que no son esenciales.
ERECOMMENDATION_CLUSTER_SIZE Esta recomendación indica que un clúster de la nube privada tiene 14 o más hosts. Azure VMware Solution admite un máximo de 16 hosts en un clúster. Cree un nuevo clúster para los nuevos hosts que podrían ser necesarios.
ERECOMMENDATION_PRIVATECLOUD_SIZE Esta recomendación indica que una nube privada tiene 90 o más hosts. Azure VMware Solution admite un máximo de 96 hosts en una nube privada. Considere crear una nueva nube privada para cualquier nuevo host y distribuya los hosts entre las nubes privadas según sea necesario.
ERECOMMENDATION_VCENTER_SCALE Esta recomendación identifica que la máquina virtual de vCenter se aprovisiona con menos núcleos de CPU o menos memoria que la recomendada para el recuento de máquinas virtuales actual dentro de la nube privada. Abra una solicitud de soporte técnico para que aumente la memoria y la CPU de vCenter.

Nota:

Los administradores de inquilinos de Azure VMware Solution no deben editar ni eliminar las alarmas de VMware vCenter Server definidas previamente, porque el plano de control de Azure VMware Solution en vCenter Server las administra. La funcionalidad de supervisión de Azure VMware Solution usa estas alarmas para desencadenar el proceso de corrección del host de Azure VMware Solution.

Pasos siguientes

Aprendió a garantizar el mantenimiento sin interrupciones de la nube privada de Azure VMware Solution. El siguiente paso podría ser obtener más información sobre: