patrón de arquitectura de Azure para cargas de trabajo de INTELIGENCIA ARTIFICIAL

En este artículo se proporcionan patrones arquitectónicos y arquitecturas de referencia de línea de base para ayudarle a diseñar, implementar y controlar las cargas de trabajo de inteligencia artificial en Azure. Abarca los componentes principales, las interacciones y los procedimientos recomendados para crear sistemas de inteligencia artificial seguros, escalables y bien regulados.

Use este patrón de arquitectura como línea base al diseñar cargas de trabajo de IA. Comience con los componentes principales e interacciones que se muestran en el patrón y, a continuación, adaptarlos para que coincidan con los objetivos empresariales, las restricciones técnicas y la posición de riesgo.

Por ejemplo, una organización quiere crear una aplicación enterprise AI Assistant que permita a los empleados formular preguntas sobre documentos internos y datos operativos. Cuando un usuario realiza una pregunta, la aplicación determina qué datos se necesitan, recupera el contexto pertinente y llama al modelo adecuado para generar una respuesta fundamentada. Para ello, se necesita una canalización de datos que limpie, enriquezca e indexe documentos internos para que el asistente pueda recuperar el contexto de confianza y actualizado. Al igual que con cualquier aplicación, use prácticas de Well-Architected para mantener la aplicación confiable, segura y optimizada en costos.

Aunque este asistente de IA representa un escenario empresarial específico, el patrón de arquitectura que sigue es lo suficientemente genérico como para adaptarse a muchos casos de uso de IA con características similares.

Este artículo le guía a través de ese patrón genérico que establece un conocimiento de línea de base de los componentes principales, sus funciones e interacciones en una carga de trabajo de IA. Con esta base, puede tomar decisiones de diseño fundamentadas para crear soluciones de INTELIGENCIA artificial sólidas a medida que personaliza la arquitectura para adaptarse a su caso de uso específico.

Arquitectura de carga de trabajo de IA de alto nivel

En este diagrama se muestran los componentes clave que podría tener en el diseño de la carga de trabajo de IA.

Componente	Description
Procesamiento y análisis de datos	Recopile datos sin procesar de diferentes orígenes, lípielos, transformelos y organícelos en conjuntos de datos listos para el entrenamiento del modelo, ajuste preciso y puesta en tierra. Esta capa no interactúa directamente con los usuarios, pero habilita interacciones precisas y eficaces de inteligencia artificial en etapas posteriores.
Entrenamiento y ajuste de modelos	Entrene modelos en los datos, realice un seguimiento de las versiones y supervise el rendimiento a través de un proceso repetible. Use las prácticas de MLOps para seguir mejorando a medida que los nuevos datos llegan y mantener la alineación con las necesidades del negocio.
Aplicaciones de inteligencia artificial inteligente	Aquí es donde los usuarios interactúan con la inteligencia artificial. Combina modelos entrenados previamente con lógica de aplicación para encontrar la información correcta, elaborar avisos, crear interfaces y aprender de los comentarios.
Procedimientos y procesos de inteligencia artificial	Mantenga la solución de inteligencia artificial confiable mediante la incorporación de principios de DevOps, control de versiones y canalizaciones automatizadas en flujos de trabajo de MLOps. Implemente iterativamente con medidas de seguridad y compruebe continuamente la precisión, el rendimiento y el sesgo.
Servicios y herramientas de la plataforma	Servicios en la nube principales que protegen los recursos, controlan los costos y supervisan el estado del sistema desde el desarrollo hasta la implementación. Utilice canalizaciones de CI/CD para una automatización confiable y herramientas especializadas para examinar los resultados de la inteligencia artificial para cumplimiento.

Composición de la carga de trabajo

En esta sección se describen dos cargas de trabajo principales: la carga de trabajo de aplicación inteligente y la carga de trabajo de entrenamiento y ajuste preciso. Cada carga de trabajo tiene sus propias consideraciones de diseño para la duración y el estado, alcance y dependencias, escalabilidad y disponibilidad, así como la seguridad y la inteligencia artificial responsable.

No todas las cargas de trabajo de inteligencia artificial requieren componentes de entrenamiento y ajuste. Si solo usa modelos entrenados previamente sin ningún entrenamiento personalizado, céntrese en la carga de trabajo de la aplicación inteligente. Sin embargo, si el caso de uso implica crear modelos personalizados o mejorarlos continuamente con nuevos datos, la carga de trabajo de entrenamiento y ajuste se vuelve esencial. Ambas cargas de trabajo son modulares, por lo que puede implementar los componentes pertinentes para su caso de uso específico, mientras sigue los procedimientos recomendados descritos en las consideraciones de diseño.

Característica de diseño	Description
Ciclo de vida y estado	Tiempo de vida se refiere a la duración esperada de la existencia y actividad de un recurso dentro de la carga de trabajo. El estado hace referencia a los datos o la información que mantiene un recurso a lo largo del tiempo.
Cobertura y dependencias	Reach hace referencia a la medida en que un recurso debe ser accesible o distribuido. Las dependencias hacen referencia a las relaciones y la dependencia de otros recursos.
Escalabilidad y disponibilidad	La escalabilidad es la capacidad de un recurso para controlar una mayor carga o demanda. La disponibilidad es la capacidad de un recurso para permanecer operativa y accesible.
Seguridad e inteligencia artificial responsable	La seguridad hace referencia a las medidas que protegen los datos y garantizan el cumplimiento de las normativas. La inteligencia artificial responsable se refiere a las prácticas que garantizan la inteligencia artificial ética, incluida la equidad, la transparencia y la responsabilidad.

Carga de trabajo de aplicación inteligente
Carga de trabajo de entrenamiento y ajuste preciso

En este diagrama se muestran los componentes clave de la carga de trabajo de aplicación inteligente que se van a incluir en el diseño.

Componente	Description
Capa de cliente	La capa de cliente permite a los usuarios y sistemas externos conectarse con la IA. Esta capa toma las solicitudes y devuelve respuestas generadas por IA, a la vez que se asegura de que la experiencia es sencilla y fácil de usar.
Capa de inteligencia: API	La API de capa de inteligencia puentea los clientes y las características de inteligencia del sistema a través de API bien definidas. Es responsable de dirigir las solicitudes al agente o al proceso de orquestación correctos, asegurándose de que las interacciones entre los usuarios y los servicios sean fluidas y coherentes. Esta capa también controla cómo se accede a los datos, coloca las medidas de seguridad en vigor y establece límites para evitar que el sistema se sobrecargue. Si una aplicación solo necesita una predicción sencilla, esta capa puede omitir los pasos de orquestación complejos y enviar la solicitud directamente al motor de inferencia para obtener una respuesta rápida.
Capa de inteligencia - orquestación y computación del agente	La orquestación y la capa de proceso del agente son responsables de coordinar cómo funcionan juntos los distintos componentes de inteligencia artificial para realizar cada tarea. Dependiendo de lo necesario, puede ejecutar tareas una después de la otra o dejar que varios agentes funcionen al mismo tiempo y, a continuación, combinar sus resultados. Determina la intención del usuario, comprueba las respuestas para asegurarse de que son seguras, se integra con el nivel de conocimiento de la información y usa herramientas para combinar todo y proporcionarle la mejor respuesta.
Capa de inteligencia: administración de conversaciones	La capa de administración de conversaciones es la memoria del sistema y el administrador de conversaciones. Permite que el chat de inteligencia artificial recuerde de forma natural los mensajes anteriores, realice un seguimiento de los temas en curso y almacene partes importantes de la discusión, por lo que las conversaciones pueden fluir sin problemas incluso durante sesiones largas. También se encarga de cómo se conservan o eliminan los datos de la conversación, lo que garantiza que la información se controle de forma responsable.
Capa de inferencia - modelos fundacionales o predictivos	La capa de inferencia es donde un modelo entrenado realiza predicciones, genera contenido o proporciona decisiones basadas en la información que recibe. El proceso se inicia cargando el modelo de INTELIGENCIA ARTIFICIAL, preparando los datos, ejecutando las predicciones y, después, dar formato a los resultados para que estén disponibles inmediatamente (en tiempo real) o posteriores (procesamiento por lotes).
Capa de conocimiento	La capa de conocimiento es donde el sistema obtiene la información y el contexto que necesita para responder a preguntas con precisión. Se asegura de que se accede a los datos de forma segura, mediante permisos y autorización. La capa de conocimiento ayuda a la inteligencia artificial a seguir el enfoque rag mediante la búsqueda de índices o bases de datos vectoriales para encontrar solo el contenido correcto. Permite que la inteligencia artificial acceda a varios orígenes de datos internos y externos de forma coherente, ya sea a través de protocolos MCP o REST.
Capa de herramientas	La capa de herramientas es donde las acciones empresariales y las funcionalidades externas se hacen accesibles. La capa de inteligencia puede desencadenar estas acciones o conectarse con otros sistemas llamando a herramientas o agentes de forma estandarizada, ya sea a través de MCP, A2A o OpenAPI/REST. Estas funcionalidades se presentan como opciones accionables, listas para el uso de la capa de inteligencia y pueden controlarse directamente mediante la carga de trabajo o por servicios externos.

Consideraciones de diseño

Al diseñar la arquitectura de carga de trabajo de la aplicación inteligente, tenga en cuenta las siguientes características de diseño para tomar decisiones fundamentadas sobre el diseño y las interacciones de los componentes.

Ciclo de vida y estado

La API de inteligencia, la orquestación, la inferencia y las capas de conocimiento son todos los servicios de larga duración que se ejecutan durante la vigencia de la carga de trabajo. Invertir en disponibilidad, supervisión y excelencia operativa para cada servicio.

Cada capa evoluciona a un ritmo diferente, por lo que necesita coordinación deliberada de la implementación. La API de inteligencia evoluciona lentamente para mantenerse estable y mantener la compatibilidad con versiones anteriores. Las capas de orquestación y agente evolucionan más rápidamente a medida que se agregan nuevas funcionalidades. La capa de inferencia se actualiza al implementar nuevos modelos. La capa de conocimiento evoluciona continuamente a medida que cambian los datos.

Los componentes sin estado se pueden asignar o desasignar a petición, mientras que los componentes con estado administran los datos que persisten en las interacciones.

Las capas de la API de Inteligencia, orquestación e inferencia son sin estado, lo que facilita la escalación añadiendo más instancias. La capa de orquestación puede contener el estado efímero durante la ejecución, pero no lo conserva más allá del control de solicitudes. El estado efímero reduce la complejidad operativa, pero limita las opciones de recuperación de errores, por lo que debe diseñar cuidadosamente teniendo en cuenta los reintentos y la idempotencia.

Los datos de la sesión de administración de conversaciones pueden durar de minutos a días. Las sesiones más largas permiten conversaciones más enriquecidas, pero cuestan más y aumentan el riesgo de privacidad. La capa de conocimiento almacena datos en índices y bases de datos que evolucionan a medida que se agrega, actualiza o quita información.

Compromiso. Las decisiones sobre la administración del estado y la vida útil afectan directamente al costo, la confiabilidad y el rendimiento. Los componentes con estado prolongado requieren una mayor inversión en escalado y resiliencia, mientras que los componentes efímeros sin estado son más rentables, pero pueden introducir latencia debido a inicios en frío o recuperación de estado externo.

Cobertura y dependencias

La API de inteligencia es el único punto de conexión expuesto públicamente en la arquitectura, todo lo demás permanece interno. Puede implementarlo en varias regiones para mantener a los usuarios cerca de un punto de conexión y mejorar la resistencia.

La capa de orquestación se encuentra en el centro, funciona dentro de la red y coordina todo, como el estado de conversación, las llamadas de modelo, la recuperación de conocimiento y la invocación de herramientas. Los errores aquí bloquean todo el sistema, por lo que hacen que sea de alta disponibilidad.

La capa de inferencia se ejecuta internamente sin dependencias externas. Impleméntelo cerca del orquestador para mantener la latencia baja.

Las capas de conocimiento y herramientas son internas, pero pueden depender de sistemas externos. Estas dependencias externas pueden presentar retrasos o problemas de disponibilidad que afectan a la calidad de la respuesta.

Compromiso. La implementación multirregional mejora el rendimiento y la resiliencia, pero aumenta el costo. La implementación de una sola región es más rentable, pero podría dar lugar a una mayor latencia para los usuarios lejos de la región.

Escalabilidad y disponibilidad

La aplicación inteligente tiene dos patrones de escalado. Capas sin estado como la API, la orquestación y la inferencia se escalan mediante la adición de más instancias. Las capas de datos, como la administración de conversaciones y la escala de conocimiento, distribuyen datos entre varios almacenes a través de mecanismos como réplicas de lectura, particionamiento y fragmentación.

La API de inteligencia se amplía para manejar más solicitudes. Implemente en varias zonas o regiones para mejorar la disponibilidad y mantener a los usuarios cerca de un punto de conexión.

La orquestación y el cómputo del agente se encuentran en el centro de tu sistema, por lo que los fallos aquí bloquean todo. Agregue más instancias, use el equilibrio de carga y tenga lista la conmutación por error para que el sistema siga ejecutándose cuando se produzca un error en las instancias individuales.

La capa de inferencia se escala en función de lo que necesitan los modelos. Agregue más instancias con GPU a medida que crece la demanda. Use la infraestructura como código (IaC) para volver a crear rápidamente entornos durante la recuperación.

La administración de conversaciones se escala con el número de usuarios simultáneos. Utilice copias y copias de seguridad para mantener los datos de sesión disponibles.

La capa de conocimiento se escala en función de la cantidad de datos que tiene y de la frecuencia con la que se consulta. Use la indexación eficaz y el ajuste de bases de datos para mantener las respuestas rápidas. Configure copias en varias ubicaciones para asegurar la disponibilidad.

Compromiso. Los componentes sin estado pueden escalarse rápidamente, pero podrían introducir latencia de arranque en frío. Los componentes de datos proporcionan durabilidad, pero requieren más planificación para el escalado. Equilibre estos factores en función de los requisitos empresariales y de carga esperados.

Seguridad e inteligencia artificial responsable

Cada capa de la aplicación inteligente conlleva diferentes riesgos y necesita sus propios controles. Las herramientas pueden desencadenar acciones en el mundo real, el conocimiento determina lo que sabe tu inteligencia artificial, y la inferencia produce salidas que ven los usuarios. Restrinja el acceso en cada capa, supervise lo que sucede y asegúrese de que puede explicar cómo se toman las decisiones.

La capa de herramientas conlleva el mayor riesgo porque las acciones pueden tener consecuencias reales que son potencialmente irreversibles. Para las operaciones de alto riesgo, agregue los pasos de aprobación humana. Use la autenticación estricta, el acceso con privilegios mínimos y la aplicación de privacidad de datos para evitar acciones no autorizadas y exposición de PII. Evalúe cada herramienta antes de integrarla para que la gobernanza se extienda más allá del límite de la carga de trabajo.

La capa de conocimiento necesita datos de alta calidad y no sesgados para generar salidas de confianza. Mantenga seguro el acceso a los datos mediante la autenticación, autorización y el cumplimiento de los requisitos de residencia de datos. El acceso de solo lectura y el aislamiento de red protegen contra la corrupción. Registre qué orígenes se recuperaron para cada respuesta a través de pistas de auditoría, este proceso le permite explicar las decisiones e investigar los problemas más adelante.

La capa de inferencia solo debe ser accesible para los roles de operaciones y la identidad de la capa de orquestación. Monitorizar las salidas a través de un servicio de validación que compruebe si hay toxicidad y otros problemas de seguridad. Valide los modelos antes de la implementación para detectar sesgos y mantenga listos los mecanismos de reversión si los problemas aparecen en producción.

En este diagrama se muestran los componentes clave de la carga de trabajo de entrenamiento y ajuste para incluir en el diseño.

Componente	Description
Orígenes de datos	Los orígenes de datos contienen una amplia gama de datos que ayudan a entrenar y ajustar los modelos. Normalmente, estos orígenes incluyen: - Datos estructurados de bases de datos relacionales como SQL Server, que tienen esquemas y relaciones claros. - Datos semiestructurados, como registros de aplicaciones y telemetría, a menudo en formatos JSON o XML. - Datos no estructurados, como archivos de imagen, vídeos, audio y documentos de texto como archivos PDF. - Flujos en tiempo real de sensores, dispositivos o orígenes de eventos. Recopile datos de diversos orígenes, como orígenes propietarios propiedad de la organización, contenido generado por el usuario a partir de interacciones, comentarios expertos y colaboración, y orígenes públicos como sitios web, documentos de investigación y bases de datos compartidas.
Almacén de datos agregados	Piense en un almacén de agregaciones de datos como centro central para toda la información que recopile de varios orígenes. Es un lugar donde los datos sin procesar se conservan en su forma original antes de que comience cualquier procesamiento. Use herramientas como Azure Data Lake Storage o Microsoft Fabric para este tipo de almacenamiento. A medida que los datos se mueven a través de diferentes fases de procesamiento, su estructura se refina, los campos y las columnas se denominan de forma coherente, los valores se comprueban para obtener precisión y todo está organizado para facilitar los informes y el análisis. Siempre puede realizar un seguimiento de dónde proceden los datos, ver qué cambios se realizaron y saber qué proceso lo transformó. El control de versiones también garantiza que tiene instantáneas históricas a medida que evolucionan los datos.
Plataforma de procesamiento de datos	En esta fase, convierta los datos sin procesar en un conjunto de datos útil para el aprendizaje automático y el análisis. El proceso se inicia mediante la recopilación de datos de varios orígenes, limpieza y enriquecimiento, por lo que se obtienen conjuntos de datos y características de alta calidad que están listos para el entrenamiento y el análisis del modelo. Esta capa admite canalizaciones ETL, sigue una arquitectura de medallion y permite el enriquecimiento de características y datos en función de los patrones existentes. Normalmente usa herramientas como Azure Data Factory, Microsoft Fabric y Spark.
Almacén de características	Un almacén de características es un lugar central para almacenar características precomputadas, por lo que los equipos pueden reutilizarlos fácilmente en diferentes modelos de aprendizaje automático. Realiza un seguimiento de las definiciones de características, las transformaciones y los metadatos, como la propiedad, la frecuencia de actualización, los orígenes de datos y el control de versiones. Esta estructura ayuda a los equipos a crear modelos más rápido y garantiza la coherencia, lo que hace que el comportamiento del modelo sea más predecible. Azure Machine Learning almacén de características también ofrece control de versiones y linaje, y las organizaciones pueden optar por configurarlo de forma centralizada, de forma distribuida o como un híbrido.
Plataforma de entrenamiento	Un entorno de cómputo que se usa para entrenar y afinar modelos de aprendizaje automático a escala. Permite seleccionar algoritmos para ver qué funciona mejor, prueba automáticamente diferentes valores de parámetros, administra reintentos y dependencias, y admite ciclos de entrenamiento repetidos para mejorar el modelo en curso. Realiza un seguimiento de las métricas, parámetros y artefactos de cada ejecución de entrenamiento. Puede hospedar el entorno en Azure Machine Learning, Databricks o Kubernetes.
Registro de modelos	Un repositorio controlado por versiones que le permite almacenar, administrar y realizar un seguimiento de los modelos de aprendizaje automático a medida que avanzan del desarrollo a la producción. Las herramientas como Azure Machine Learning Registro de modelos facilitan esta tarea al mantener organizados los archivos binarios del modelo, los metadatos, las configuraciones de entrenamiento y el linaje. Puede comparar diferentes versiones del modelo y revertir a una anterior si es necesario.
Capa de inferencia: modelos predictivos	Use modelos entrenados para generar predicciones o tomar decisiones basadas en datos. Puede implementarlas como API REST en tiempo real para predicciones rápidas o como puntos de conexión por lotes para procesar grandes conjuntos de datos de forma asincrónica. Además de las aplicaciones cliente, los modelos también se llaman durante el procesamiento de datos, como extraer entidades o opiniones para el enriquecimiento de datos, y para controlar la normalización y la transformación de datos.

Consideraciones de diseño

Al diseñar la arquitectura de carga de trabajo de entrenamiento y ajuste, tenga en cuenta las siguientes características de diseño para tomar decisiones fundamentadas sobre el diseño y las interacciones de los componentes.

Ciclo de vida y estado

Los componentes persistentes a largo plazo permiten el análisis histórico y el reentrenamiento del modelo en los datos anteriores. El almacén de agregación de datos, el almacén de características y el registro de modelos son almacenes persistentes a largo plazo que crecen con nuevas importaciones, características y versiones de modelo.

Los componentes efímeros permiten la eficiencia de los costos, pero requieren un control cuidadoso de errores y reinicios. La plataforma de procesamiento de datos y la plataforma de entrenamiento tienen una configuración de entorno de larga duración, pero sus recursos de proceso son efímeros, creados y escalados a petición para trabajos de canalización y entrenamiento.

La capa de inferencia no tiene estado y es efímera. Impleméntelo bajo demanda para el procesamiento por lotes ocasional o como un entorno de larga duración para canalizaciones frecuentes. El diseño sin estado permite el escalado horizontal y la recuperación sencilla de errores.

Compensación. Los componentes persistentes a largo plazo proporcionan durabilidad y contexto histórico, pero requieren costos de mantenimiento y almacenamiento continuos. Los componentes efímeros y sin estado son más rentables y escalables, pero requieren un control de errores sólido y pueden introducir latencia desde los inicios en frío.

Cobertura y dependencias

Mantenga los almacenes de datos, el procesamiento, el entrenamiento y la inferencia en la misma región para minimizar la latencia y el costo. Distribuir solo cuando los requisitos de residencia de datos lo exijan. La mayoría de los componentes son solo internos, lo que reduce la superficie expuesta a ataques, pero requiere acceso seguro para desarrolladores y operadores.

Puede distribuir orígenes de datos entre diferentes entornos y zonas geográficas. Son tu dependencia principal para importar los datos necesarios para el entrenamiento, ajuste fino o contextualización.

El almacén de agregación de datos es la dependencia principal de la plataforma de procesamiento de datos, desacoplarla de los orígenes de datos.

La plataforma de procesamiento de datos accede al almacén de características para almacenar características calculadas y la plataforma de entrenamiento accede a ella durante el entrenamiento. El componente de inferencia también puede necesitar acceso de solo lectura en función del tipo de modelo y requisitos específicos.

La plataforma de entrenamiento depende del almacén de características y de los datos agregados generados a partir del procesamiento. Escribe modelos entrenados en el registro de modelos, y esta se convierte en una dependencia para la inferencia.

El registro de modelos es único porque necesita acceso interno (para el entrenamiento para escribir modelos) y acceso externo (para que las aplicaciones de IA implementen modelos en entornos de inferencia). Utilice modelos de implementación de inserción para minimizar la exposición externa de los componentes confidenciales.

Escalabilidad y disponibilidad

Los componentes de entrenamiento deben crecer con los datos y permanecer disponibles cuando los necesite. Almacenes de datos como el Almacén de Agregaciones de Datos, el Almacén de Funciones y el Registro de Modelos escalan mediante la creación de particiones, la replicación y la indexación eficaz a medida que se agregan más datos, funcionalidades y modelos a lo largo del tiempo. Mantenga estos componentes altamente disponibles con estrategias de redundancia, copias de seguridad y conmutación por error para que los datos y los modelos sean accesibles siempre que la plataforma de entrenamiento o la inferencia los necesiten.

Plataformas de computación como el procesamiento de datos y el entrenamiento se escalan de manera diferente. Agregan más recursos a petición a medida que los trabajos de procesamiento y entrenamiento los necesitan. Use IaC para automatizar la recreación del entorno durante la recuperación ante desastres y agregue más recursos de proceso, como los nodos de GPU, a medida que aumenta la demanda.

La capa de inferencia normalmente controla el procesamiento por lotes en este contexto, por lo que la optimiza para el rendimiento en lugar de una latencia baja. Puede escalar horizontalmente con recursos de proceso menos costosos, ya que está procesando grandes volúmenes de datos sin necesidad de capacidad de respuesta en tiempo real.

Seguridad e inteligencia artificial responsable

Abordar la seguridad y la inteligencia artificial responsable en cada capa. Use defensa en profundidad con controles de acceso, cifrado y auditoría. Siga consistentemente el principio de privilegio mínimo: ETL obtiene acceso de solo lectura a las fuentes, el entrenamiento solo escribe en el registro de modelos, y la inferencia solo realiza lecturas. Mapee los flujos de datos para mantener los datos regulados en las regiones requeridas y controle quién accedió a qué, cuándo y por qué.

Los orígenes de datos son su punto de control más importante para la prevención de sesgos. Asegúrese de que los datos importados representan todos los tipos de asunto de forma justa. Si los datos no pueden salir de su región, ejecute la canalización de ETL allí para mantener el cumplimiento.

El almacén de agregación de datos y el almacén de características contienen información confidencial. Controlar quién puede acceder a qué subconjuntos de datos y seguir las reglas de residencia de datos a lo largo del ciclo de vida. Realice un seguimiento del linaje de datos para cada atributo calculado. Es la base de la explicación y permite realizar un seguimiento de las predicciones del modelo a los datos de origen.

La plataforma de procesamiento de datos es donde se evita activamente el sesgo. Restrinja las conexiones salientes a los almacenes de datos y servicios aprobados. Aquí es donde valida la calidad de los datos, filtra la profanidad, ofusca la información confidencial y equilibra la distribución de datos mediante el submuestreo de los grupos sobrerrepresentados o aumentando los infrarepresentados.

La plataforma de entrenamiento necesita aislamiento para mantenerla separada de la producción. Registre cada ejecución de entrenamiento mediante marcos como MLFlow, capturando qué datos se usaron, qué hiperparámetros intentó y cuáles fueron los resultados. Ejecute comprobaciones de sesgo, equidad y explicación cada vez que se detectan problemas antes de la implementación.

El registro de modelos es la puerta de gobernanza. Utilice principales de servicio y publique sumas de comprobación para poder validar modelos. Adjunte metadatos sobre los datos de entrenamiento, las evaluaciones y el linaje a todos los modelos para la transparencia. Gestionar la implementación en producción mediante revisiones de seguridad e inteligencia artificial responsable.

La capa de inferencia solo debe ejecutar modelos aprobados. Manténgalo aislado dentro de su entorno de análisis y supervise todas las salidas para detectar sesgo, toxicidad y otros patrones dañinos.

Arquitecturas de línea base para cargas de trabajo de IA

Estos ejemplos de línea de base sirven como la arquitectura recomendada para cargas de trabajo de IA.

Paso siguiente

Revise los procedimientos recomendados para diseñar escenarios de aplicaciones inteligentes.

Diseño de aplicación

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-07

patrón de arquitectura de Azure para cargas de trabajo de INTELIGENCIA ARTIFICIAL

Arquitectura de carga de trabajo de IA de alto nivel

Composición de la carga de trabajo

Consideraciones de diseño

Ciclo de vida y estado

Cobertura y dependencias

Escalabilidad y disponibilidad

Seguridad e inteligencia artificial responsable

Arquitecturas de línea base para cargas de trabajo de IA

Paso siguiente

Comentarios

Recursos adicionales