patrón de arquitectura de Azure para cargas de trabajo de INTELIGENCIA ARTIFICIAL

En este artículo se proporcionan patrones arquitectónicos y arquitecturas de referencia de línea de base para ayudarle a diseñar, implementar y controlar las cargas de trabajo de inteligencia artificial en Azure. Abarca los componentes principales, las interacciones y los procedimientos recomendados para crear sistemas de inteligencia artificial seguros, escalables y bien regulados.

Use este patrón de arquitectura como línea base al diseñar cargas de trabajo de IA. Comience con los componentes principales e interacciones que se muestran en el patrón y, a continuación, adaptarlos para que coincidan con los objetivos empresariales, las restricciones técnicas y la posición de riesgo.

Por ejemplo, una organización quiere crear una aplicación enterprise AI Assistant que permita a los empleados formular preguntas sobre documentos internos y datos operativos. Cuando un usuario realiza una pregunta, la aplicación determina qué datos se necesitan, recupera el contexto pertinente y llama al modelo adecuado para generar una respuesta fundamentada. Para ello, se necesita una canalización de datos que limpie, enriquezca e indexe documentos internos para que el asistente pueda recuperar el contexto de confianza y actualizado. Al igual que con cualquier aplicación, use prácticas de Well-Architected para mantener la aplicación confiable, segura y optimizada en costos.

Aunque este asistente de IA representa un escenario empresarial específico, el patrón de arquitectura que sigue es lo suficientemente genérico como para adaptarse a muchos casos de uso de IA con características similares.

Este artículo le guía a través de ese patrón genérico que establece un conocimiento de línea de base de los componentes principales, sus funciones e interacciones en una carga de trabajo de IA. Con esta base, puede tomar decisiones de diseño fundamentadas para crear soluciones de INTELIGENCIA artificial sólidas a medida que personaliza la arquitectura para adaptarse a su caso de uso específico.

Arquitectura de carga de trabajo de IA de alto nivel

En este diagrama se muestran los componentes clave que podría tener en el diseño de la carga de trabajo de IA.

Diagrama del diseño de cargas de trabajo de IA con componentes etiquetados para procedimientos y procesos de inteligencia artificial, procesamiento y análisis de datos, entrenamiento de modelos y ajuste preciso, aplicaciones inteligentes de inteligencia artificial y herramientas y servicios y herramientas de plataforma.

Componente Description
Procesamiento y análisis de datos Recopile datos sin procesar de diferentes orígenes, lípielos, transformelos y organícelos en conjuntos de datos listos para el entrenamiento del modelo, ajuste preciso y puesta en tierra. Esta capa no interactúa directamente con los usuarios, pero habilita interacciones precisas y eficaces de inteligencia artificial en etapas posteriores.
Entrenamiento y ajuste de modelos Entrene modelos en los datos, realice un seguimiento de las versiones y supervise el rendimiento a través de un proceso repetible. Use las prácticas de MLOps para seguir mejorando a medida que los nuevos datos llegan y mantener la alineación con las necesidades del negocio.
Aplicaciones de inteligencia artificial inteligente Aquí es donde los usuarios interactúan con la inteligencia artificial. Combina modelos entrenados previamente con lógica de aplicación para encontrar la información correcta, elaborar avisos, crear interfaces y aprender de los comentarios.
Procedimientos y procesos de inteligencia artificial Mantenga la solución de inteligencia artificial confiable mediante la incorporación de principios de DevOps, control de versiones y canalizaciones automatizadas en flujos de trabajo de MLOps. Implemente iterativamente con medidas de seguridad y compruebe continuamente la precisión, el rendimiento y el sesgo.
Servicios y herramientas de la plataforma Servicios en la nube principales que protegen los recursos, controlan los costos y supervisan el estado del sistema desde el desarrollo hasta la implementación. Utilice canalizaciones de CI/CD para una automatización confiable y herramientas especializadas para examinar los resultados de la inteligencia artificial para cumplimiento.

Composición de la carga de trabajo

En esta sección se describen dos cargas de trabajo principales: la carga de trabajo de aplicación inteligente y la carga de trabajo de entrenamiento y ajuste preciso. Cada carga de trabajo tiene sus propias consideraciones de diseño para la duración y el estado, alcance y dependencias, escalabilidad y disponibilidad, así como la seguridad y la inteligencia artificial responsable.

No todas las cargas de trabajo de inteligencia artificial requieren componentes de entrenamiento y ajuste. Si solo usa modelos entrenados previamente sin ningún entrenamiento personalizado, céntrese en la carga de trabajo de la aplicación inteligente. Sin embargo, si el caso de uso implica crear modelos personalizados o mejorarlos continuamente con nuevos datos, la carga de trabajo de entrenamiento y ajuste se vuelve esencial. Ambas cargas de trabajo son modulares, por lo que puede implementar los componentes pertinentes para su caso de uso específico, mientras sigue los procedimientos recomendados descritos en las consideraciones de diseño.

Característica de diseño Description
Ciclo de vida y estado Tiempo de vida se refiere a la duración esperada de la existencia y actividad de un recurso dentro de la carga de trabajo.
El estado hace referencia a los datos o la información que mantiene un recurso a lo largo del tiempo.
Cobertura y dependencias Reach hace referencia a la medida en que un recurso debe ser accesible o distribuido.
Las dependencias hacen referencia a las relaciones y la dependencia de otros recursos.
Escalabilidad y disponibilidad La escalabilidad es la capacidad de un recurso para controlar una mayor carga o demanda.
La disponibilidad es la capacidad de un recurso para permanecer operativa y accesible.
Seguridad e inteligencia artificial responsable La seguridad hace referencia a las medidas que protegen los datos y garantizan el cumplimiento de las normativas.
La inteligencia artificial responsable se refiere a las prácticas que garantizan la inteligencia artificial ética, incluida la equidad, la transparencia y la responsabilidad.

En este diagrama se muestran los componentes clave de la carga de trabajo de aplicación inteligente que se van a incluir en el diseño.

Diagrama de carga de trabajo de aplicaciones inteligentes que muestra clientes, capa de inteligencia, inferencia, conocimientos y componentes de herramientas.

Componente Description
Capa de cliente La capa de cliente permite a los usuarios y sistemas externos conectarse con la IA. Esta capa toma las solicitudes y devuelve respuestas generadas por IA, a la vez que se asegura de que la experiencia es sencilla y fácil de usar.
Capa de inteligencia: API La API de capa de inteligencia puentea los clientes y las características de inteligencia del sistema a través de API bien definidas. Es responsable de dirigir las solicitudes al agente o al proceso de orquestación correctos, asegurándose de que las interacciones entre los usuarios y los servicios sean fluidas y coherentes. Esta capa también controla cómo se accede a los datos, coloca las medidas de seguridad en vigor y establece límites para evitar que el sistema se sobrecargue. Si una aplicación solo necesita una predicción sencilla, esta capa puede omitir los pasos de orquestación complejos y enviar la solicitud directamente al motor de inferencia para obtener una respuesta rápida.
Capa de inteligencia - orquestación y computación del agente La orquestación y la capa de proceso del agente son responsables de coordinar cómo funcionan juntos los distintos componentes de inteligencia artificial para realizar cada tarea. Dependiendo de lo necesario, puede ejecutar tareas una después de la otra o dejar que varios agentes funcionen al mismo tiempo y, a continuación, combinar sus resultados. Determina la intención del usuario, comprueba las respuestas para asegurarse de que son seguras, se integra con el nivel de conocimiento de la información y usa herramientas para combinar todo y proporcionarle la mejor respuesta.
Capa de inteligencia: administración de conversaciones La capa de administración de conversaciones es la memoria del sistema y el administrador de conversaciones. Permite que el chat de inteligencia artificial recuerde de forma natural los mensajes anteriores, realice un seguimiento de los temas en curso y almacene partes importantes de la discusión, por lo que las conversaciones pueden fluir sin problemas incluso durante sesiones largas. También se encarga de cómo se conservan o eliminan los datos de la conversación, lo que garantiza que la información se controle de forma responsable.
Capa de inferencia - modelos fundacionales o predictivos La capa de inferencia es donde un modelo entrenado realiza predicciones, genera contenido o proporciona decisiones basadas en la información que recibe. El proceso se inicia cargando el modelo de INTELIGENCIA ARTIFICIAL, preparando los datos, ejecutando las predicciones y, después, dar formato a los resultados para que estén disponibles inmediatamente (en tiempo real) o posteriores (procesamiento por lotes).
Capa de conocimiento La capa de conocimiento es donde el sistema obtiene la información y el contexto que necesita para responder a preguntas con precisión. Se asegura de que se accede a los datos de forma segura, mediante permisos y autorización. La capa de conocimiento ayuda a la inteligencia artificial a seguir el enfoque rag mediante la búsqueda de índices o bases de datos vectoriales para encontrar solo el contenido correcto. Permite que la inteligencia artificial acceda a varios orígenes de datos internos y externos de forma coherente, ya sea a través de protocolos MCP o REST.
Capa de herramientas La capa de herramientas es donde las acciones empresariales y las funcionalidades externas se hacen accesibles. La capa de inteligencia puede desencadenar estas acciones o conectarse con otros sistemas llamando a herramientas o agentes de forma estandarizada, ya sea a través de MCP, A2A o OpenAPI/REST. Estas funcionalidades se presentan como opciones accionables, listas para el uso de la capa de inteligencia y pueden controlarse directamente mediante la carga de trabajo o por servicios externos.

Consideraciones de diseño

Al diseñar la arquitectura de carga de trabajo de la aplicación inteligente, tenga en cuenta las siguientes características de diseño para tomar decisiones fundamentadas sobre el diseño y las interacciones de los componentes.

Ciclo de vida y estado

La API de inteligencia, la orquestación, la inferencia y las capas de conocimiento son todos los servicios de larga duración que se ejecutan durante la vigencia de la carga de trabajo. Invertir en disponibilidad, supervisión y excelencia operativa para cada servicio.

Cada capa evoluciona a un ritmo diferente, por lo que necesita coordinación deliberada de la implementación. La API de inteligencia evoluciona lentamente para mantenerse estable y mantener la compatibilidad con versiones anteriores. Las capas de orquestación y agente evolucionan más rápidamente a medida que se agregan nuevas funcionalidades. La capa de inferencia se actualiza al implementar nuevos modelos. La capa de conocimiento evoluciona continuamente a medida que cambian los datos.

Los componentes sin estado se pueden asignar o desasignar a petición, mientras que los componentes con estado administran los datos que persisten en las interacciones.

Las capas de la API de Inteligencia, orquestación e inferencia son sin estado, lo que facilita la escalación añadiendo más instancias. La capa de orquestación puede contener el estado efímero durante la ejecución, pero no lo conserva más allá del control de solicitudes. El estado efímero reduce la complejidad operativa, pero limita las opciones de recuperación de errores, por lo que debe diseñar cuidadosamente teniendo en cuenta los reintentos y la idempotencia.

Los datos de la sesión de administración de conversaciones pueden durar de minutos a días. Las sesiones más largas permiten conversaciones más enriquecidas, pero cuestan más y aumentan el riesgo de privacidad. La capa de conocimiento almacena datos en índices y bases de datos que evolucionan a medida que se agrega, actualiza o quita información.

Compromiso. Las decisiones sobre la administración del estado y la vida útil afectan directamente al costo, la confiabilidad y el rendimiento. Los componentes con estado prolongado requieren una mayor inversión en escalado y resiliencia, mientras que los componentes efímeros sin estado son más rentables, pero pueden introducir latencia debido a inicios en frío o recuperación de estado externo.

Cobertura y dependencias

La API de inteligencia es el único punto de conexión expuesto públicamente en la arquitectura, todo lo demás permanece interno. Puede implementarlo en varias regiones para mantener a los usuarios cerca de un punto de conexión y mejorar la resistencia.

La capa de orquestación se encuentra en el centro, funciona dentro de la red y coordina todo, como el estado de conversación, las llamadas de modelo, la recuperación de conocimiento y la invocación de herramientas. Los errores aquí bloquean todo el sistema, por lo que hacen que sea de alta disponibilidad.

La capa de inferencia se ejecuta internamente sin dependencias externas. Impleméntelo cerca del orquestador para mantener la latencia baja.

Las capas de conocimiento y herramientas son internas, pero pueden depender de sistemas externos. Estas dependencias externas pueden presentar retrasos o problemas de disponibilidad que afectan a la calidad de la respuesta.

Compromiso. La implementación multirregional mejora el rendimiento y la resiliencia, pero aumenta el costo. La implementación de una sola región es más rentable, pero podría dar lugar a una mayor latencia para los usuarios lejos de la región.

Escalabilidad y disponibilidad

La aplicación inteligente tiene dos patrones de escalado. Capas sin estado como la API, la orquestación y la inferencia se escalan mediante la adición de más instancias. Las capas de datos, como la administración de conversaciones y la escala de conocimiento, distribuyen datos entre varios almacenes a través de mecanismos como réplicas de lectura, particionamiento y fragmentación.

La API de inteligencia se amplía para manejar más solicitudes. Implemente en varias zonas o regiones para mejorar la disponibilidad y mantener a los usuarios cerca de un punto de conexión.

La orquestación y el cómputo del agente se encuentran en el centro de tu sistema, por lo que los fallos aquí bloquean todo. Agregue más instancias, use el equilibrio de carga y tenga lista la conmutación por error para que el sistema siga ejecutándose cuando se produzca un error en las instancias individuales.

La capa de inferencia se escala en función de lo que necesitan los modelos. Agregue más instancias con GPU a medida que crece la demanda. Use la infraestructura como código (IaC) para volver a crear rápidamente entornos durante la recuperación.

La administración de conversaciones se escala con el número de usuarios simultáneos. Utilice copias y copias de seguridad para mantener los datos de sesión disponibles.

La capa de conocimiento se escala en función de la cantidad de datos que tiene y de la frecuencia con la que se consulta. Use la indexación eficaz y el ajuste de bases de datos para mantener las respuestas rápidas. Configure copias en varias ubicaciones para asegurar la disponibilidad.

Compromiso. Los componentes sin estado pueden escalarse rápidamente, pero podrían introducir latencia de arranque en frío. Los componentes de datos proporcionan durabilidad, pero requieren más planificación para el escalado. Equilibre estos factores en función de los requisitos empresariales y de carga esperados.

Seguridad e inteligencia artificial responsable

Cada capa de la aplicación inteligente conlleva diferentes riesgos y necesita sus propios controles. Las herramientas pueden desencadenar acciones en el mundo real, el conocimiento determina lo que sabe tu inteligencia artificial, y la inferencia produce salidas que ven los usuarios. Restrinja el acceso en cada capa, supervise lo que sucede y asegúrese de que puede explicar cómo se toman las decisiones.

La capa de herramientas conlleva el mayor riesgo porque las acciones pueden tener consecuencias reales que son potencialmente irreversibles. Para las operaciones de alto riesgo, agregue los pasos de aprobación humana. Use la autenticación estricta, el acceso con privilegios mínimos y la aplicación de privacidad de datos para evitar acciones no autorizadas y exposición de PII. Evalúe cada herramienta antes de integrarla para que la gobernanza se extienda más allá del límite de la carga de trabajo.

La capa de conocimiento necesita datos de alta calidad y no sesgados para generar salidas de confianza. Mantenga seguro el acceso a los datos mediante la autenticación, autorización y el cumplimiento de los requisitos de residencia de datos. El acceso de solo lectura y el aislamiento de red protegen contra la corrupción. Registre qué orígenes se recuperaron para cada respuesta a través de pistas de auditoría, este proceso le permite explicar las decisiones e investigar los problemas más adelante.

La capa de inferencia solo debe ser accesible para los roles de operaciones y la identidad de la capa de orquestación. Monitorizar las salidas a través de un servicio de validación que compruebe si hay toxicidad y otros problemas de seguridad. Valide los modelos antes de la implementación para detectar sesgos y mantenga listos los mecanismos de reversión si los problemas aparecen en producción.

Arquitecturas de línea base para cargas de trabajo de IA

Estos ejemplos de línea de base sirven como la arquitectura recomendada para cargas de trabajo de IA.

Paso siguiente

Revise los procedimientos recomendados para diseñar escenarios de aplicaciones inteligentes.