Modelo de madurez de excelencia operativa

El camino hacia la Excelencia Operativa es un proceso de mejora continua, donde cada etapa se basa en la anterior para impulsar una mayor eficiencia y efectividad en el diseño, implementación y soporte de cargas de trabajo.

En su núcleo, se trata de simplificar las prácticas clave, como la implementación, la supervisión, las pruebas y la automatización. El recorrido comienza con una base sólida: un vocabulario compartido, prácticas estandarizadas y una mentalidad de DevOps que fomenta la colaboración y la estabilidad. A partir de ahí, la estandarización introduce la coherencia y la previsibilidad en los procesos. A medida que los equipos crecen más expertos, las tareas individuales evolucionan en flujos de trabajo integrados, compatibles con funcionalidades listas para producción, como pruebas automatizadas, supervisión inteligente e integración continua.

Cuando los sistemas entran en producción, las operaciones se vuelven aún más avanzadas. Los equipos están equipados para gestionar cambios de forma rápida y confiable, cumplir con los estándares de calidad e implementar solicitudes de funcionalidades de los dueños de productos con confianza.

La fase más madura consiste en la optimización y la innovación. Aquí, los equipos operan a escala, adaptando continuamente los sistemas en tiempo real para satisfacer las necesidades empresariales en constante evolución y los cambios tecnológicos. Sin embargo, esto no es un destino fijo; es una mentalidad dinámica de mejorar siempre, siempre adaptarse.

El modelo se estructura en cinco niveles de madurez distintos, cada uno con un objetivo principal y un conjunto de estrategias principales. Para obtener mejoras significativas en la productividad, empiece a evaluar dónde se puede insertar inteligencia artificial en sus operaciones desde el principio. Use las vistas con pestañas siguientes para explorar cada nivel. Asegúrese de revisar también las ventajas y los riesgos asociados resaltados a medida que avanza.

Icono objetivo Modernizar las operaciones mediante la inserción intencionada de herramientas controladas por IA para reducir el esfuerzo manual, propenso a errores y ofrecer un valor medible.

Evalúe los flujos de trabajo operativos de un extremo a otro para identificar dónde la inteligencia artificial puede mejorar la coherencia y la productividad, a la vez que equilibra pragmáticamente el costo, el riesgo y el tiempo de valor.

Compra: Soluciones de GenAI listas para usar

Las herramientas de GenAI disponibles en el mercado tienen capacidades de inteligencia artificial integradas. Pueden clasificarse ampliamente por intención. Una categoría es herramientas genéricas de asistencia interactiva, como GitHub Copilot, que dependen del contexto y se pueden usar para una variedad de tareas. Estas herramientas requieren poca o ninguna configuración y proporcionan asistencia contextual que se integra directamente en los flujos de trabajo existentes de los desarrolladores. La otra categoría es herramientas y agentes diseñados específicamente, como agentes de implementación y agentes de ingeniería de confiabilidad de sitios (SRE), que están diseñados para funciones específicas. Se pueden integrar para la productividad del desarrollador a través del IDE y los asistentes de la CLI.

Algunos servicios Azure también tienen características integradas de inteligencia artificial, lo que puede incurrir en costos adicionales.

Construcción: GenAI con implementación personalizada

GenAI personalizado inserta inteligencia artificial directamente en flujos de trabajo operativos y de desarrollo adaptados a una carga de trabajo específica. Los agentes personalizados pueden extraer contexto de incidencias, repositorios de código, métricas y sistemas de supervisión para generar información que refleje el estado actual de las operaciones y actuar dentro de los límites definidos.

Las implementaciones más avanzadas pueden generar y validar código o infraestructura con estándares internos, enrutar el trabajo en función de la experiencia o la disponibilidad, y aplicar modelos de aprendizaje automático personalizados para predicciones especializadas. Este enfoque permite una mayor automatización y una alineación más estrecha con los procesos de la organización, pero requiere una inversión continua en ingeniería, calidad de los datos, gobernanza, seguridad y mantenimiento.

Patrones funcionales de IA

A continuación se muestran algunas de las funcionalidades de inteligencia artificial más comunes y accesibles que se usan en la práctica, pero esta lista no es exhaustiva. Use esta lista para evaluar dónde en las operaciones puede insertar inteligencia artificial para obtener mejoras en la productividad.

Nota:

La adopción debe avanzar deliberadamente con el tiempo. Comience con casos de uso centrados como resumen o generación de contenido y, a continuación, introduzca interfaces agenteicas que razonan sobre tareas y flujos de trabajo a medida que aumentan la capacidad y la confianza. En niveles más altos de madurez, los sistemas multiagente funcionan en sistemas integrados y datos para admitir escenarios operativos más complejos.

Resumen. Herramientas de inteligencia artificial que leen y condensan información de documentos, informes, registros o conversaciones y generan resúmenes concisos y puntos clave que usan lenguaje y terminología que comprenderán los usuarios.
Recomendaciones. Herramientas de inteligencia artificial que analizan varios orígenes de datos juntos para detectar patrones y proporcionar recomendaciones basadas en contexto para tomar decisiones operativas.
Generación de artefactos. Herramientas de inteligencia artificial que convierten los requisitos escritos en código ejecutable, definiciones de infraestructura y pruebas automatizadas mientras se adhieren a estándares definidos.
Validación de directivas. Herramientas de inteligencia artificial que revisan el código, las configuraciones y los flujos de trabajo con directivas, estándares y documentos de diseño para aplicar el cumplimiento.
Acciones de optimización. Herramientas de inteligencia artificial que usan información sobre artefactos para enrutar el trabajo y tomar medidas sobre las decisiones.

Precaución

Las medidas de seguridad no son hipotéticas cuando se usan agentes. Un modelo no activado, una automatización incorrecta o una configuración de acceso excesivamente permisiva puede propagar errores, filtrar datos confidenciales o poner en peligro la integridad operativa a escala.

Para proteger los datos sensibles, todas las plataformas deben aplicar un enmascaramiento estricto de los datos personales y un filtrado de seguridad. Los usuarios deben ver solo las salidas a las que están autorizados para acceder. Como resultado, el resultado de la IA podría estar incompleto, pero tener visibilidad completa conlleva el riesgo de una posible exposición.

La revisión humana sigue siendo un requisito, especialmente para los problemas arquitectónicos, de seguridad y operativos. Las revisiones deben centrarse en la intención y el riesgo, y ajustarse a los estándares de la organización en lugar de la sintaxis de bajo nivel. Debe recopilar la retroalimentación de las revisiones para poder mejorar continuamente las indicaciones, las plantillas y los estándares.

✓ Agentes de resumen

Los agentes de resumen suelen usar una arquitectura sencilla de estilo Copilot con recuperación y generación de respuestas sencillas, lo que hace que sean relativamente fáciles de implementar y operar.

Riesgo: El resumen conlleva un riesgo inherente de incorrección, especialmente cuando el agente sintetiza información de varios documentos. Aunque no se pueden eliminar por completo los errores, puede reducir el riesgo operativo mediante la implementación de la explicación y la navegación incremental. Los sistemas deben indicar claramente qué contenido se ha resumido y permitir a los usuarios profundizar en el material de origen para la validación.

Los costos de inferencia pueden acumularse con el tiempo. Enrutar solicitudes sencillas a modelos más pequeños y de menor costo y reservar modelos más avanzados para la síntesis compleja de varios documentos, aceptando la orquestación adicional que podría requerir este enfoque. Proporcione resúmenes iniciales concisos y permita a los usuarios explorar en profundidad detalles auxiliares y contenido de origen.

La administración de datos presenta costos ocultos adicionales. Administre activamente el ciclo de vida de los datos para evitar el sobredimensionamiento de índices causado por documentos obsoletos o versiones redundantes. Cuando sea necesario el contexto histórico, conserve el contenido anterior a través del control de versiones deliberado en lugar de la duplicación no controlada.

Los comentarios directos de los usuarios son valiosos. Capture la entrada sobre la calidad y la utilidad del resumen, y úsela para evaluar las decisiones de enrutamiento del modelo, la eficacia del índice y el impacto de las estrategias de almacenamiento en caché o preprocesamiento.

Examples

Cultura DevOps de OE:01. Extraiga elementos estructurados como elementos de acción, propietarios, fechas límite y declaraciones de riesgo de documentos no estructurados.
Respuesta a incidentes OE:08. Resumir los incidentes, las operaciones posteriores, los resultados de seguridad y los informes de auditoría para comprender rápidamente el ámbito, el impacto y los resultados.

✓ Agentes de recomendación

Los agentes de inteligencia artificial que proporcionan recomendaciones se basan en modelos orientados al razonamiento que pueden analizar varios orígenes de datos. Estos modelos deben tener suficiente profundidad analítica para admitir la correlación entre orígenes en lugar de basarse en enfoques ligeros o puramente generativos.

Contrapartida: Aunque un alcance más amplio puede aportar valor, las fuentes con referencias cruzadas podrían estar mal ponderadas o no ajustarse a la intención original. La dependencia excesiva de estas respuestas generadas por la inteligencia artificial corre el riesgo de amplificar los errores y, posiblemente, complicar el problema con las llamadas iterativas.

Los orígenes a los que se hace referencia cruzada suelen aumentar el costo por solicitud y la latencia de inferencia. Minimice las llamadas externas, favoreciendo menos consultas más ricas en lugar de muchas consultas más detalladas. El acceso y la correlación de varios orígenes externos en tiempo de ejecución pueden ser costosos, por lo que paralelizar el acceso a los datos y, cuando sea factible, precargar los datos en índices compartidos.

Trabajar con varios orígenes agrega complejidad de integración. Los errores de un único origen se pueden propagar a través del pipeline de recomendaciones. Aplique límites de validación y protección de seguridad al combinar entradas. Cuando se requiere una baja latencia, consulta los orígenes en paralelo. Pasos de preprocesamiento que no dependen de la solicitud específica, como la clasificación, el enriquecimiento y las búsquedas. Almacene en caché los resultados intermedios y las características usadas con frecuencia para reducir el cálculo repetido.

Trate los motores de recomendaciones como sistemas de soporte de decisión en lugar de cajas negras. La explicación es fundamental para crear confianza y confiabilidad operativa. Los sistemas deben proporcionar lógicas claras para las recomendaciones, resaltar las señales clave y contribuir a los orígenes de datos. Considere la posibilidad de incluir indicadores de confianza (por ejemplo, de 0 a 100%) para ayudar a los sistemas de bajada o a los usuarios a medir la confiabilidad.

Examples

OE:06 Diseño de una cadena de suministro de cargas de trabajo. Busque escenarios y casos perimetrales centrados en el cliente que son difíciles de detectar y que a menudo se pasan por alto para incluir en el conjunto de pruebas.
OE:08 Administración de incidentes. Valide los planes de transición del proveedor utilizando IA para simular al equipo de soporte del proveedor usando únicamente la documentación proporcionada, los procedimientos, los modelos de estado y las vías de escalado. La simulación resalta las brechas y las dependencias ocultas antes de la entrega.
Diseño de automatización de OE:10. Evalúe el código de automatización, la telemetría y los datos de incidentes para recomendar qué automatizaciones deben mejorarse, retirarse o expandirse.

✓ Agentes de generación de artefactos

Los agentes de inteligencia artificial pueden ayudar a generar código, definiciones de infraestructura y pruebas, pero sus salidas podrían formar parte de una carga de trabajo de producción. La generación de código es intrínsecamente no determinista y la traducción de requisitos de lenguaje natural en artefactos ejecutables puede producir resultados que se diferencian de la intención original. Por este motivo, la propiedad clara, los controles explícitos y la integración en las prácticas de ingeniería existentes son esenciales. La inteligencia artificial es más eficaz cuando el espacio del problema se entiende bien y la variación es limitada, por ejemplo, tareas de codificación repetitivas o estandarizadas, y se deben aplicar límites de protección para guiar sus salidas.

Seleccionar los modelos adecuados es fundamental. Use modelos adecuados para la generación de código y la ejecución de herramientas y combítelos cuando corresponda. Un modelo de razonamiento puede ayudar con el análisis del sistema, la planeación o la descomposición, un modelo centrado en código puede generar los propios artefactos y otros modelos pueden admitir pruebas o pasos de implementación.

La generación debe estar fundamentada en plantillas, implementaciones de referencia, directrices de codificación y ejemplos que reflejen los estándares de la organización y del sector. Los estándares claros ayudan a detectar el desfase y aplicar la coherencia. Cuando se usan plantillas, la salida de IA es más predecible.

Al igual que la mayoría de los agentes, los generadores de código pueden extraerse de varios orígenes. Debería tratar todas las salidas como no fiables hasta que se validen. Aplique principios de privilegios mínimos para limitar los permisos y el ámbito de ejecución de herramientas. Los agentes nunca deben implementar ni modificar recursos de producción sin aprobación explícita y controlada.

Integre los artefactos generados en el ciclo de vida del desarrollador estándar. Este ciclo incluye solicitudes de incorporación de cambios, revisiones de código, pruebas automatizadas y análisis de seguridad. Aplique el mismo rigor que aplicaría para el código creado por el usuario, incluidas las comprobaciones de dependencia y la infraestructura como análisis de código (IaC) para garantizar la confiabilidad y el cumplimiento.

Contrapartida: La revisión humana sigue formando parte del modelo de costes y debe tenerse en cuenta al calcular el ROI. Además, el aumento de la generación de artefactos desplaza la presión sobre el rendimiento a etapas posteriores. Los flujos de trabajo de prueba, validación e implementación deben escalarse en consecuencia para evitar introducir nuevos cuellos de botella. La automatización de la validación siempre que sea posible a través de linters, pruebas, análisis estático y verificaciones de políticas es esencial para conservar el flujo de un extremo a otro y el tiempo hasta su valor.

Examples

OE:02 Estandarizar las operaciones. Genere artefactos de código y documentos que cumplan los estándares de la organización y mantenga la documentación de estándares actualizada a medida que evolucionan los recursos.
OE:07 Diseñe un sistema de supervisión. Genere configuraciones de panel integradas que alineen las métricas de ingeniería con los resultados empresariales seleccionando automáticamente las métricas adecuadas entre orígenes.
Diseño de automatización de OE:10. Supervise de forma autónoma los entornos de producción para el desfase de configuración, infiere el estado previsto y actualice las definiciones de arranque para mantener los sistemas alineados con el tiempo.

✓ Agentes de validación de directivas

Los agentes de inteligencia artificial pueden ayudar a revisar y validar los recursos en función de las directivas y los estándares. Su función es respaldar la toma de decisiones, señalar desviaciones y garantizar el cumplimiento. Los seres humanos conservan la supervisión final.

La validación comienza con una evaluación y pruebas cuidadosas antes de la implementación. Los estándares deben tener versiones y cada recurso debe hacer referencia claramente a la directiva aplicable, lo que garantiza la rastreabilidad. A medida que evolucionan las directivas, debe tener en cuenta la sobrecarga de mantenimiento y actualizar los procesos de validación en consecuencia. Siempre que sea posible, realice revisiones por lotes y paralelice y centre las comprobaciones incrementales en los cambios en lugar de volver a examinar todos los recursos.

Debe equilibrar cuidadosamente el costo y el rendimiento. Tenga en cuenta la cantidad de datos históricos necesarios para realizar predicciones precisas, pero también tenga en cuenta el impacto en el almacenamiento, el procesamiento y la latencia. Los datos demasiado pequeños reducen la confiabilidad, pero aumenta demasiado el costo.

La seguridad sigue siendo un factor clave. El acceso a las salidas de validación debe restringirse a los usuarios autorizados, como los revisores de seguridad, para asegurarse de que la información confidencial está protegida.

La eficacia se mide, no se asume. Utiliza paneles de control para hacer seguimiento de métricas como las incidencias detectadas frente a las incidencias en producción, los falsos positivos y la cobertura. Vuelva a introducir estas conclusiones en la lógica de validación, los mensajes y los procesos operativos para refinar continuamente la contribución del agente.

Examples

OE:03 Formalizar prácticas de desarrollo. Valide las descripciones de trabajo y los criterios de aceptación en las plantillas organizativas para aplicar una barra de calidad coherente.
OE:04 Estandarizar herramientas y procesos. Revise el código base para aplicar la barra de calidad y los estándares de la organización, y registre brechas como deuda técnica.
OE:05 Use la infraestructura como código. Aplique estándares de seguridad revisando el código, las plantillas de IaC y los diseños para detectar patrones que no son seguros, infracciones de directivas y configuraciones débiles.

✓ Agentes de optimización de acciones

Los agentes de optimización de acciones se extienden más allá del análisis y las recomendaciones mediante la realización de acciones operativas directas. Dado que sus salidas pueden modificar sistemas o procesos, estos agentes requieren un diseño, supervisión e integración cuidadosos en los flujos de trabajo.

Riesgo: La seguridad es una preocupación principal. Idealmente, los agentes deben funcionar dentro de un flujo de trabajo humano en bucle, donde las acciones propuestas se revisan y aprueban antes de la ejecución en producción. El acceso a herramientas y sistemas debe seguir el principio de privilegios mínimos, limitando el agente solo a los permisos necesarios para realizar sus tareas. La auditoría detallada es esencial, capturando las acciones que se propusieron, quién las aprobó y los registros de ejecución para la rastreabilidad.

Implemente límites de protección que exijan un radio de explosión mínimo limitando el ámbito de cada cambio. Las ejecuciones de herramientas deben ser idempotentes para permitir reintentos seguros y el sistema debe incluir mecanismos de validación y reversión. Los puntos de comprobación, las copias de seguridad u otras estrategias de recuperación pueden admitir la corrección segura de cambios no deseados.

Examples

OE:08 Administración de incidentes. Tan pronto como se active una alerta, recopile automáticamente el contexto, ponga en correlación los datos y realice la evaluación de prioridades iniciales. Al hacerlo, los ingenieros pueden empezar con una imagen clara del incidente en lugar de la recopilación manual de datos.
Diseño de automatización de OE:10. Optimice continuamente la configuración de producción de bajo riesgo, como los tamaños de caché y los valores de tiempo de espera, dentro de los límites definidos por el usuario, mediante el uso de valores inferidos a partir del análisis de los datos de supervisión.
OE:11 Prácticas seguras de despliegue. Automatiza tu estrategia de despliegue en exposición progresiva mediante la identificación autónoma del momento óptimo de salida, así como el segmento objetivo y los porcentajes adecuados para tus despliegues en canario.

Icono objetivo Estandarizar procesos fundamentales. Este enfoque simplifica las responsabilidades de toma de decisiones y define los requisitos para la implementación y supervisión del sistema.

En el nivel 2, el equipo debe adoptar un enfoque más estructurado y centrar las actividades de desarrollo en la funcionalidad principal de la carga de trabajo. Establecer la coherencia al principio ayuda a minimizar las cargas operativas en fases posteriores.

Estrategias clave

Definir roles de equipo y responsabilidades de toma de decisiones
Esforzarse por realizar mejoras, independientemente de lo pequeño que sea
Estandarizar procesos fundamentales
Comprar herramientas en lugar de crear herramientas personalizadas
Adopción de la automatización en toda la carga de trabajo
Ampliar la experiencia de infraestructura como código para configurar la infraestructura y administrar las aplicaciones
Definición de la estrategia de implementación de la carga de trabajo
Diseño de la pila de supervisión de cargas de trabajo

✓ Definir roles de equipo y responsabilidades de toma de decisiones

Adoptar una mentalidad de producto. En lugar de ver la carga de trabajo como integración de herramientas, tecnologías o funciones de trabajo, tratóla como un producto cohesivo con un enfoque claro en el objetivo final. En el nivel 2, aplique un enfoque más estructurado en el que cada rol se define y respeta claramente.

La experiencia en el equipo suele variar. Esta diversidad puede ser útil para distribuir la toma de decisiones entre varias funciones de trabajo. Por ejemplo, los miembros específicos del equipo podrían destacar en la toma de decisiones técnicas, mientras que otros miembros del equipo podrían ser expertos en definir resultados empresariales para seguir siendo competitivos en el ecosistema.

Riesgo: Algunos equipos de trabajo adoptan una cultura impulsada por el consenso, donde se comprometen a las tareas solo cuando todos están de acuerdo. Esta cultura promueve la inclusividad, pero a menudo ahoga las iniciativas cuando no se logra el consenso total.

Asegúrese de un proceso de toma de decisiones bien estructurado mediante los siguientes principios:

Designe a un individuo responsable directamente para asegurarse de que la toma de decisiones se distribuya entre los miembros del equipo y se alinee con sus áreas de experiencia, en lugar de estar centralizadas con una persona.

Documente quiénes son los responsables de la toma de decisiones e incluya esta información en los materiales de incorporación de nuevos empleados.
Considere la posibilidad de adoptar una metodología de toma de decisiones que defina claramente roles y responsabilidades específicos. Tenga en cuenta que estos enfoques pueden crear divisiones y alejar el foco de los objetivos del producto. Establecer mecanismos de control y equilibrio para evitar la toma de decisiones aislada y reducir el conflicto.

✓ Se esfuerza por realizar mejoras, independientemente de lo pequeño que sea

Fomentar una mentalidad de mejora continua significa tomar decisiones hoy en día con la comprensión de que se pueden refinar mañana.

Retrasar los cambios puede hacer que el equipo pierda las oportunidades de mejora actuales. Evite el exceso de pensamiento e indecisión. La búsqueda de una solución perfecta podría dificultar el progreso pequeño pero significativo. Céntrese en realizar mejoras ahora mientras busca continuamente formas de mejorar.

La deuda técnica es una herramienta estratégica en el desarrollo para capturar decisiones a corto plazo. Puede servir como motivador para las actualizaciones incrementales, lo que evita la acumulación innecesaria. Trate la deuda técnica como una tarea recurrente en la lista de tareas pendientes.

✓ Estandarizar procesos fundamentales

Diferentes clases de cargas de trabajo tienen requisitos de proceso únicos adaptados a sus características específicas. Por ejemplo, las cargas de trabajo de IA dependen de las operaciones de aprendizaje automático y las operaciones de inteligencia artificial generativa para impulsar las canalizaciones de datos al modelo. Las cargas de trabajo críticas priorizan los paneles de supervisión en tiempo real en los que los ingenieros de confiabilidad del sitio pueden actuar rápidamente.

Dentro de una clase de carga de trabajo, se esfuerza por la estandarización para mejorar la coherencia y reducir la carga operativa. En el caso de las cargas de trabajo de IA que incluyen modelos discriminativos y generativos, normalice los procesos en torno a las operaciones de datos. Estas operaciones incluyen el acceso a datos, la limpieza y la transformación antes de que se utilicen para entrenar modelos o fundamentar modelos de IA generativa.

Se recomienda la normalización para los siguientes casos de uso:

Proceso	Ventajas
Seguimiento y administración de problemas	Facilita una mejor comunicación entre roles, ayuda en la priorización y es necesaria para el análisis histórico de los problemas pasados.
Herramientas y procesos de comunicación, especialmente para controlar incidentes	Minimiza el riesgo de mala comunicación y mejora la coordinación entre los miembros del equipo para resolver problemas más rápido
Estilos de código, convenciones de nomenclatura de recursos y estándares de documentación	Mejora la legibilidad y el mantenimiento del código mediante el establecimiento de directrices
Procedimientos de prueba	Garantiza que todos los cambios pasen por un conjunto seleccionado de pruebas, que proporciona garantía de calidad.
Integración continua e implementación continua	Garantiza pruebas automatizadas, integración e implementación de cambios de código, lo que da lugar a versiones más confiables.

Riesgo: La mejora continua y la innovación a menudo se producen cuando un equipo se desvía ligeramente de los estándares establecidos para explorar mejores enfoques. Estas desviaciones deben fomentarse pero estar estructuradas. Por ejemplo, hospedar días de innovación permite al equipo centrarse en proyectos de mejora previamente seleccionados, lo que fomenta ideas nuevas y experimentación.

✓ Comprar herramientas en lugar de crear herramientas personalizadas

Los procesos estandarizados incluyen las herramientas necesarias para una implementación eficaz. En este nivel, priorice las soluciones comerciales en lugar de soluciones personalizadas, que puede reconsiderar posteriormente para casos de uso especializados.

Las herramientas diarias para cargas de trabajo incluyen herramientas de desarrollo, pruebas, supervisión e implementación. Las herramientas compradas simplifican los flujos de trabajo y garantizan la coherencia. Esta coherencia permite a los equipos centrarse en ofrecer características sin la complejidad de desarrollar y mantener soluciones personalizadas.

Riesgo: Cuando se tienen en cuenta las herramientas, a menudo hay una tendencia a sobresalentar la extensibilidad y el potencial futuro de la herramienta en lugar de su funcionalidad principal. En esta fase, céntrese en herramientas prácticas, solucione los problemas actuales y ajuste al flujo de trabajo actual.

✓ Adopción de la automatización en toda la carga de trabajo

A medida que desarrolle una carga de trabajo nueva o existente, busque oportunidades para integrar la automatización. El diseño de una nueva carga de trabajo teniendo en cuenta la automatización desde el principio hace que la adopción futura sea perfecta. De forma similar, la incorporación de la automatización a las cargas de trabajo existentes o las cargas de trabajo brownfield , al principio de su ciclo de vida, le ayuda a obtener eficacia y mantener la coherencia a lo largo del tiempo.

Para simplificar la adopción, use herramientas avanzadas y conocidas que sean compatibles con su plataforma en la nube en lugar de crear soluciones desde cero. Explore las herramientas de automatización nativas del proveedor de nube para simplificar el diseño. Por ejemplo, muchos servicios de Azure admiten el escalado automático para las funcionalidades de rendimiento y conmutación por error para la recuperación ante desastres. Al evaluar las herramientas que no son de Microsoft, tenga en cuenta la experiencia de su equipo y los estándares empresariales pertinentes.

Las siguientes áreas pueden beneficiarse de la automatización:

Tareas operativas rutinarias, como la supervisión y las alertas, y la administración de actualizaciones
Tareas del ciclo de vida de desarrollo de software, como implementaciones y pruebas
Optimizaciones del rendimiento de la carga de trabajo, como el escalado de recursos
Mecanismos de seguridad y gobernanza, como exámenes y aplicación de directivas
Actividades de copia de seguridad y recuperación
Optimizaciones de costos, como desasignaciones y cierres de recursos

Riesgo: En las primeras fases del desarrollo de cargas de trabajo, tenga cuidado de centrarse demasiado en la creación o integración de la automatización, ya que puede desviar la atención de la entrega de la carga de trabajo a la producción. Tome un enfoque medido para asegurarse de que la carga de trabajo se pueda administrar al tiempo que mantiene la velocidad de desarrollo.

Dilema: Si una tarea se puede realizar con poca frecuencia, eficaz y segura por parte de los seres humanos, puede que no valga la pena automatizar. Por ejemplo, la automatización de la actualización anual de un certificado podría no justificar la inversión de los ciclos de desarrollo.

✓ Ampliar la experiencia de infraestructura como código para configurar la infraestructura y administrar las aplicaciones

En el nivel 1, el enfoque consiste en adoptar herramientas de infraestructura como código (IaC) para implementar infraestructuras y canalizaciones para el código de aplicación. En el nivel 2, amplíe esa práctica para incluir la configuración y la administración de la infraestructura y las aplicaciones implementadas.

Use un enfoque de configuración de estado deseado para arrancar los recursos y evitar el desfase de configuración. Las distintas tareas y plataformas requieren diferentes herramientas de automatización. Por ejemplo, Ansible es adecuado para administrar la configuración de estado deseada para máquinas virtuales (VM), mientras que una solución de GitOps, como Flux, es adecuada para clústeres de Kubernetes.

Determine el nivel correcto de automatización para las tareas posteriores a la implementación para minimizar la carga operativa al tiempo que mantiene el diseño sencillo. Las tareas como instalar certificados, configuraciones del sistema operativo y propagación de bases de datos son todas las opciones adecuadas para la automatización. Además, considere la posibilidad de ampliar la automatización para incluir la implementación y configuración de la aplicación en máquinas virtuales o hosts de contenedor recién implementados.

Riesgo: Evite la expansión innecesaria de herramientas. Los desarrolladores o equipos de desarrollo que usan diferentes enfoques y tecnología pueden dar lugar a un ecosistema de herramientas fracturado. Normalice una serie de herramientas selectas para la carga de trabajo que cumplan sus requisitos y asegúrese de que el equipo de cargas de trabajo está entrenado en esas herramientas. Del mismo modo, sea selectivo sobre la adopción de estándares organizativos para herramientas. Si su organización sugiere herramientas que agregan un riesgo excesivo a la carga de trabajo, evalúe herramientas alternativas que sean más adecuadas.

✓ Definir la estrategia de implementación de la carga de trabajo

Una estrategia de implementación es un componente fundamental de excelencia operativa. Una estrategia de implementación bien diseñada garantiza que los servicios permanezcan disponibles para los usuarios al reducir o eliminar el tiempo de inactividad durante las actualizaciones o los cambios. Obtenga consenso de las partes interesadas sobre cómo y cuándo se implementan los cambios en producción. Considere los siguientes puntos:

Defina el tiempo de inactividad tolerado. Determine si la carga de trabajo puede admitir el tiempo de inactividad sin causar problemas significativos o pérdidas financieras. Especifique claramente si cero tiempo de inactividad es un requisito para las implementaciones rutinarias.
Establecer la frecuencia de implementación. Determine la frecuencia de implementación basada en el desarrollo de características. Acepte una programación, ya sea diaria, semanal, trimestral u otro enfoque adecuado. Cuando sea posible, priorice las implementaciones más pequeñas y frecuentes si se alinean con su escenario.
Planee las implementaciones de emergencia. Desarrolle un plan para implementar procedimientos que gestionen implementaciones de emergencia, como parches urgentes de seguridad. Este enfoque garantiza que los miembros del equipo comprendan sus responsabilidades y puedan actuar rápidamente cuando sea necesario.

Diseñe un sistema de implementación repetible que se pueda automatizar para minimizar los errores y garantizar la coherencia. Incluya disposiciones para la reversión para restaurar el sistema a un estado funcional si se producen errores en la última implementación.

✓ Diseñar la pila de supervisión de cargas de trabajo

El diseño de un sistema de supervisión requiere que seleccione qué supervisar y comprender la importancia de esas métricas para los usuarios.

Empiece por recopilar registros y métricas de todos los componentes de la carga de trabajo. Aproveche las herramientas de supervisión proporcionadas por la plataforma. Estas herramientas se integran con los servicios y proporcionan información funcional y operativa con poca configuración. Almacene estos datos de forma segura en una solución de almacenamiento confiable que se pueda consultar para su análisis.

Riesgo: Evite recopilar datos excesivos porque puede crear ruido y aumentar los costos. Comience con métricas básicas como CPU, uso de memoria y uso de almacenamiento. Agregue métricas de estado de aplicaciones útiles a lo largo del tiempo.

En función del análisis inicial, trabaje con las partes interesadas para definir lo que significan los estados correctos y incorrectos para la carga de trabajo. Esta información se usa en fases posteriores para desarrollar un modelo de salud que refleje con precisión ese estado de salud.

Riesgo: Su canal de monitoreo sirve como herramienta para recopilar métricas comerciales, como contracargos, acuerdos de nivel de servicio de transacción, garantías de capacidad y totales de ventas. Mantenga una distinción clara entre las métricas de estado de la carga de trabajo y las métricas empresariales.

Recopile métricas empresariales como una característica de aplicación en lugar de mediante configuraciones de supervisión. Los flujos de datos de supervisión se pueden muestrear y normalmente no se pueden recuperar en un desastre. Trate los datos críticos para la empresa como datos de carga de trabajo y manténgalos separados de las señales de estado de la carga de trabajo.

Icono objetivo Asegúrese de que el sistema cumple los estándares de calidad prometidos a los usuarios y evita infracciones de los acuerdos de nivel de servicio.

En los niveles anteriores, el equipo de gestión de cargas de trabajo se centra en la creación de características y en poner el sistema en producción. En este nivel, el enfoque cambia de crear características a mantener y mejorar un sistema activo. Con los usuarios reales que ahora dependen de ella, la prioridad se convierte en la administración de cambios a través de operaciones eficientes del día 2, como la evaluación de prioridades, el mantenimiento, las actualizaciones y la solución de problemas.

La estrategia principal es usar la experiencia real para mejorar las operaciones. Las pruebas también se convierten en una práctica no negociable para reducir los riesgos asociados a los cambios. Debe integrar las pruebas en cada parte del desarrollo, desde la corrección de errores hasta agregar características y refinar la respuesta a incidentes. Sin ella, es posible que los problemas graves no se detecten hasta que lleguen a producción.

En este nivel, la deuda técnica se convierte en una preocupación real. Las implementaciones que son menos que ideales pueden estar activas, lo que puede complicar el mantenimiento. Los equipos deben analizar la carga de mantenimiento y centrarse en reducirla.

Estrategias clave

Uso de prácticas de implementación seguras
Optimización de las operaciones de compilación
Validación de procesos de respuesta a incidentes
Optimización de las operaciones mediante la supervisión de datos de producción
Automatización del mantenimiento
Mejorar la eficacia mediante la alineación de herramientas y procesos con estándares de la organización
Administrar la deuda técnica a una cadencia regular

✓ Uso de prácticas de implementación seguras

Después de la producción, los tres tipos clave de cambios suelen incluir actualizaciones rutinarias, nuevas actualizaciones de características y actualizaciones de emergencia. Use prácticas de implementación seguras para mantener el sistema estable durante estos cambios. Independientemente del tipo de cambio, trate cada cambio como un posible punto de error para los usuarios de la carga de trabajo.

Integre las estrategias siguientes en el proceso de control de cambios:

Valide continuamente y de manera exhaustiva. Pruebe temprano y a menudo a lo largo del ciclo de vida de desarrollo y a medida que los cambios progresan a través de diferentes entornos. Idealmente, cada vez que un artefacto cambia, cree pruebas centradas en esos cambios. A continuación, ejecute el conjunto de pruebas completo para validar los flujos de un extremo a otro. Los resultados de las pruebas proporcionan datos de validación, pero las partes interesadas de la empresa deben seguir aprobando estos cambios.

Contrapartida: la ejecución de todo el conjunto de pruebas genera confianza en las implementaciones. Sin embargo, puede que no sea práctico para todos los cambios debido al tiempo y al costo. Equilibre las pruebas exhaustivas con consideraciones sobre los costos. Adapte el proceso de aprobación en función del impacto de los cambios. Los cambios menores deben tener un procedimiento simplificado, mientras que los cambios significativos, como las nuevas características, requieren una revisión exhaustiva.

En este nivel, puede adoptar conceptos operativos avanzados, como conmutaciones por error regionales. El objetivo es automatizar completamente estos procesos, con un enfoque en la recuperación automática en la mayoría de los escenarios. Estos procesos también deben probarse ampliamente.
Implemente el control de versiones para las API. Administre los cambios en el modelo de datos cuidadosamente para garantizar la compatibilidad con versiones anteriores. Una estrategia de control de versiones de API ayuda a los sistemas existentes a seguir ejecutándose sin problemas después de implementar los cambios. El control de versiones retrospectivas puede resultar complicado, por lo que es recomendable definir una estrategia desde el principio.
Implementar actualizaciones incrementales. En el nivel 3, los procesos de implementación se estandarizan mediante canalizaciones automatizadas en todos los entornos. En el nivel 4 de madurez, la carga de trabajo está en producción. El enfoque cambia a refinar las actualizaciones incrementales, incluida la administración de ciclos de versión.

Implemente actualizaciones pequeñas y frecuentes para simplificar la validación de un pequeño conjunto de cambios. Automatice tareas de validación como pruebas de carga, implementación para probar entornos y pruebas A/B.

Nota:

Los patrones de implementación seguros, como las implementaciones canary y blue-green, proporcionan flexibilidad y confiabilidad a través de implementaciones en paralelo. Por ejemplo, en implementaciones azul-verde, se crea un nuevo entorno, se desplaza el tráfico y se retira el entorno anterior. Otras técnicas de implementación incluyen marcas de características e inicios oscuros. Estos enfoques permiten realizar pruebas en producción antes de que los cambios se implemente en todos los usuarios. Esta funcionalidad está disponible con servicios específicos de Azure, como Azure App Service, donde las actualizaciones se pueden implementar gradualmente mediante el intercambio gradual entre ranuras de implementación.
Recuperarse de errores de implementación. Tenga en cuenta que se producirán errores en algunas actualizaciones. Con las actualizaciones incrementales, la solución de problemas se vuelve más rápida cuando se producen problemas. Si se produce un error, detenga el sistema para evitar daños adicionales e implementar cambios para corregir el problema. La restauración a partir de copias de seguridad es aceptable si mantiene la continuidad. El objetivo es avanzar a una versión estable en lugar de confiar únicamente en procedimientos de reversión.

✓ Optimizar las operaciones de compilación

En el nivel 3, debe tener ciclos de implementación independientes para diferentes capas de la arquitectura en función de su tasa de cambio. Como mínimo, mantenga las canalizaciones de infraestructura y código.

Ahora que la carga de trabajo está en producción, reconsidere el enfoque de capas. Si es posible, se deben desacoplar aún más los componentes arquitectónicos para permitir cadencias de lanzamiento más flexibles. Este enfoque reduce los retrasos y minimiza los errores en componentes individuales. Además, ejecute pruebas y procesos de ejecución prolongada como trabajos paralelos para ahorrar tiempo y mejorar la productividad del desarrollador.

✓ Validar procesos de respuesta a incidentes

En el nivel 3, se establece un sistema de soporte técnico bajo demanda con guías de respuesta para definir respuestas a incidentes. Sin embargo, tener un cuaderno de estrategias es solo el primer paso. Ahora que la carga de trabajo está en producción, debe validar y mejorar la eficacia del proceso de administración de incidentes y desarrollar un plan de comunicación sólido. Tenga en cuenta los procedimientos siguientes:

Pruebe las respuestas a incidentes. Incorpore respuestas de tecnología, personas y procesos. Para introducir realismo en los esfuerzos de validación, te recomendamos que ejecutes días de juego. Los días del juego son eventos planeados en los que se introducen errores para probar la capacidad del equipo para detectar y resolver problemas. Este enfoque garantiza que el equipo tenga las herramientas, los recursos y los procedimientos adecuados implementados. La ingeniería de caos es otra técnica valiosa que introduce interrupciones controladas para observar los resultados. Como alternativa, también se pueden usar métodos manuales, como deshabilitar los back ends en un load balancer de carga global o realizar una conmutación por error de base de datos, para probar la respuesta.
Desarrollar un plan de comunicación. Defina claramente las responsabilidades de comunicación en el equipo de cargas de trabajo, los equipos de soporte técnico y el personal de respuesta de emergencia. Estandarizar la cadencia y el formato de las actualizaciones de estado interno a las partes interesadas del negocio fomentan la transparencia y la confianza. En escenarios específicos, como infracciones de seguridad, se requiere la divulgación responsable a los usuarios finales. Asegúrese de que el tipo y el nivel de información adecuados se definen claramente en estas comunicaciones externas.
Realice una revisión de incidentes. Trate cada incidente como una oportunidad para aprender de producción. Use este proceso para identificar debilidades en los procesos de implementación y desarrollo y confirmar la realización de mejoras del sistema.

✓ Optimizar las operaciones mediante el uso de datos de supervisión de producción

En el nivel 4, la supervisión avanzada debe emitir, correlacionar y analizar métricas dentro de un contexto empresarial. En este nivel, mejore su precisión aprendiendo del entorno de producción. Use los datos de supervisión para refinar los procesos basados en las mejores estimaciones. Tenga en cuenta los siguientes ejemplos clave:

El enfoque principal en el nivel 3 es desarrollar un modelo de salud para la carga de trabajo. En el nivel 4, ajuste el sistema de alertas y establezca objetivos realistas e indicadores de nivel de servicio.
Como parte de las operaciones del día 2, minimizar el desfase de configuración debe ser una prioridad clave. Sin este enfoque, el entorno en tiempo de ejecución podría diferir gradualmente de su estado previsto. Comience capturando una instantánea de la configuración correcta conocida. A continuación, aproveche las métricas de observabilidad de producción para comparar el comportamiento actual con esa línea de base. Este enfoque garantiza la alineación continua con el estado del sistema previsto.
Este nivel es ideal para introducir bucles de retroalimentación para comprender mejor cómo se comporta el sistema bajo factores de estrés específicos y predecir el impacto de los nuevos elementos. La telemetría del sistema guía estos bucles de retroalimentación al proporcionar información clave que ayuda a pronosticar los cambios de carga de trabajo y a dar forma a soluciones proactivas frente a posibles problemas. También puede usar estos datos para ayudarle a priorizar la deuda técnica.

Como práctica general, ajuste la pila de supervisión en función de los datos y patrones de observabilidad en producción. Tenga en cuenta los procedimientos siguientes:

Ajuste los niveles de registro para equilibrar la visibilidad y el ruido para capturar actividades en las rutas críticas.
Amplifica las alertas importantes al suprimir las irrelevantes.

✓ Automatizar el mantenimiento

En el nivel 3, los esfuerzos de automatización se centran principalmente en la implementación en producción. En el nivel 4, los equipos han reducido significativamente el trabajo manual mediante la automatización de procesos de compilación, prueba e implementación mediante canalizaciones de integración continua y entrega continua. Al igual que con las puertas de calidad, las aprobaciones específicas también se pueden administrar a través de flujos de trabajo automatizados.

En el nivel 4, la automatización operativa debe estar controlada por la experiencia de producción del mundo real y centrarse en abordar la deuda técnica.

Tenga en cuenta los siguientes ejemplos de automatización del día 2.

Proceso	Ventajas
Automatice la rotación de certificados, claves de API y otros secretos.	La automatización garantiza rotaciones oportunas, lo que elimina la necesidad de intervención manual, lo que ahorra tiempo y reduce la probabilidad de error humano.
Automatice el mantenimiento rutinario de la infraestructura.	El mantenimiento rutinario de la infraestructura requiere pruebas y coordinación exhaustivas. La automatización puede acelerar estas tareas, lo que reduce el esfuerzo manual y minimiza los riesgos.
Automatice el proceso de respuesta de emergencia.	Sin una automatización adecuada, es posible que las personas recurren a acciones no coordinadas y no ordenadas durante una liberación de emergencia, lo que podría dar lugar a problemas adicionales.
Automatizar el escalado de recursos en aumentos y disminuciones de cargas.	El escalado automático garantiza que los recursos se asignen dinámicamente en función de la demanda. Esta asignación da lugar a un uso más eficaz de los recursos porque cuando se reduce la demanda, los recursos se desasignan, sin sobrecarga operativa excesiva.
Automatice la recuperación y entrega de datos.	Este enfoque reduce el tiempo y el esfuerzo necesarios para satisfacer las solicitudes de datos enviadas por los usuarios. En lugar de acceder manualmente a las bases de datos, los scripts se desencadenan para acceder a la base de datos, recuperar los datos pertinentes y enviarlos al usuario.
Automatice la creación de entornos de desarrollador en función de criterios específicos.	Este enfoque garantiza que los entornos se creen de forma coherente para facilitar cambios seguros en la carga de trabajo, como parte de las operaciones del día 2 del equipo.

Nota:

Al desarrollar una estrategia de automatización de implementación, comience con tareas conocidas y predecibles. Tenga en cuenta los puntos comunes de error. Una vez automatizados estos puntos, amplíe la cobertura para controlar problemas imprevistos, algunos de los cuales podrían requerir intervención manual. Por ejemplo, empiece por automatizar tareas rutinarias como actualizaciones de infraestructura porque son más fáciles de administrar. A continuación, aborde los parches urgentes de emergencia porque podrían incluir escenarios de fallo desconocidos.

Por ejemplo, un equipo podría implementar rutinariamente una carga de trabajo mediante la exposición controlada a los usuarios en todas las zonas geográficas. Este proceso puede tardar varios días en completarse. También necesitan la capacidad de implementar correcciones urgentes al omitir pasos específicos. El proceso de automatización debe tener en cuenta esas implementaciones aceleradas.

El objetivo principal es identificar tareas repetitivas controladas por humanos que podrían haberse pasado por alto en fases anteriores debido a las fechas límite. Pero no debería automatizar todo. La rentabilidad de la inversión debe guiar la automatización. Prefiere usar tecnologías y conocimientos existentes en lugar de empezar con herramientas completamente nuevas. Si se necesitan herramientas ligeras, evalúe su ciclo de vida y sus requisitos de mantenimiento.

✓ Mejorar la eficiencia mediante la alineación de herramientas y procesos con estándares de la organización

En la madurez del nivel 4, céntrese en obtener eficiencia operativa mediante la evaluación de los recursos y procesos de ingeniería. Identifique qué recursos son esenciales, pero no básicos para su negocio.

Para estos recursos, tenga en cuenta los siguientes puntos:

Use herramientas compartidas que ya están disponibles en su organización.
Considere el software que no es de Microsoft para tareas específicas, como la conversión de datos.

Los recursos creados previamente incluyen canales de soporte técnico y pueden reemplazar soluciones personalizadas. Este enfoque reduce la carga operativa de las soluciones creadas por el equipo. Evalúe el estado de estos recursos para satisfacer sus necesidades e identifique las brechas restantes.

Explore las siguientes áreas de la carga de trabajo:

Evalúe el código personalizado. En lugar de escribir código personalizado para tareas como el análisis, evalúe las soluciones de código abierto que se consideran estándar del sector. El uso de estas herramientas puede reducir la necesidad de mantenimiento de código y dar lugar a una base de código más pequeña. Explore las opciones que ya están disponibles en su organización. Puede haber bibliotecas existentes que puede integrar en la carga de trabajo para controlar tareas rutinarias como la autenticación.
Evalúe la cadena de herramientas. Evalúe las áreas en las que puede confiar en otros equipos que usan herramientas similares. Ajuste el uso de bibliotecas, plantillas y módulos en consecuencia. Alinee las herramientas de infraestructura como código en toda la organización para simplificar las operaciones.
Evalúe los procesos. Identifique los procesos centralizados que pueden realizar tareas que puede haber implementado usted mismo, como el examen de seguridad. En lugar de administrar su propio proceso de cuarentena para paquetes NuGet, use el proceso del equipo de seguridad existente de la organización informándoles de los módulos usados en la carga de trabajo.

La compatibilidad es otra área clave. Al principio, los equipos de desarrollo suelen encargarse del soporte técnico mediante la supervisión de métricas y la corrección de problemas en directo. En esta fase, considere la posibilidad de establecer roles dedicados como ingenieros de guardia. Si su organización tiene un equipo de soporte técnico compartido, úselo para reducir la carga de soporte técnico en los desarrolladores.

Nota:

Si es posible, realice la transición de soporte diario a proveedores externos. Los proveedores no tienen contexto profundo como el equipo de desarrollo o los arquitectos que llevan la carga de trabajo a producción. Antes de entregar tareas a un proveedor, asegúrese de que el sistema es estable en producción y defina claramente las tareas de administración. Los proveedores necesitan elementos clave para tener éxito. Defina umbrales en el modelo de salud que representen Saludable, No saludable, y Degradado. Entrene proveedores en cuadernos de estrategias, herramientas y otros recursos de solución de problemas. Si no pueden identificar las causas, establezca rutas bien definidas para escalar y derivar problemas al equipo de gestión de carga.

✓ Administrar la deuda técnica a una cadencia regular

La deuda técnica es el resultado de los atajos que se toman durante el desarrollo para cumplir con los plazos, lo que puede resultar en implementaciones menos que ideales. Los equipos deben trabajar para reducir esta deuda mediante el análisis de la complejidad y el tiempo de mantenimiento. Si no se aborda la deuda técnica, los sistemas pueden ser más complejos y más difíciles de mantener o escalar. Esta complejidad ralentiza la innovación a medida que los desarrolladores pasan más tiempo solucionando problemas en lugar de trabajar en nuevas características.

Tenga en cuenta las siguientes recomendaciones tácticas para controlar la deuda técnica:

Haga un seguimiento de la deuda técnica junto con el desarrollo de características.
Reserve la capacidad en cada sprint para abordar la deuda técnica, independiente del desarrollo de características. En ocasiones, dedique sprints completos a abordar la deuda técnica.
Agregue la resolución propuesta al trabajo pendiente inmediatamente si tiene previsto incurrir en nuevas deudas técnicas para nuevas características.

La deuda técnica es una parte normal del desarrollo y una oportunidad para mejorar. A medida que se agregan nuevas características, la deuda se acumula. Equilibre el esfuerzo de pagar las deudas antiguas con las nuevas, asociadas al desarrollo de características innovadoras.

Pasos siguientes

Revise la lista de comprobación de diseño de excelencia operativa para obtener detalles sobre las recomendaciones.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-02-11

Modelo de madurez de excelencia operativa

Compra: Soluciones de GenAI listas para usar

Construcción: GenAI con implementación personalizada

Patrones funcionales de IA

✓ Agentes de resumen

Examples

✓ Agentes de recomendación

Examples

✓ Agentes de generación de artefactos

Examples

✓ Agentes de validación de directivas

Examples

✓ Agentes de optimización de acciones

Examples

Pasos siguientes

Comentarios

Recursos adicionales