Creación de una arquitectura de plataforma de datos moderna para pymes mediante Microsoft Fabric y Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory
Microsoft Purview

Ideas de soluciones

En este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales para una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.

En este artículo se describe cómo las pequeñas y medianas empresas (SMB) pueden crear una arquitectura de plataforma de datos moderna mediante la combinación de inversiones existentes en Azure Databricks con una plataforma de datos de software como servicio (SaaS) totalmente administrada, como Microsoft Fabric. Las plataformas de datos saaS son soluciones de análisis de datos integrales que se integran con herramientas como Azure Machine Learning, Foundry Tools, Power Platform, Microsoft Dynamics 365 y otras tecnologías de Microsoft.

Arquitectura simplificada

Diagrama en el que se muestra una arquitectura simplificada de la plataforma de datos moderna para pymes.

Descargar un archivo de Visio de esta arquitectura.

La interoperabilidad entre Azure Databricks y Fabric proporciona una solución sólida que minimiza la fragmentación de datos al tiempo que mejora las funcionalidades analíticas.

Fabric proporciona un lago de datos abierto y regulado, denominado OneLake, como el almacenamiento SaaS subyacente. OneLake y Azure Databricks usan el formato Delta Parquet. Para acceder a los datos de Azure Databricks desde OneLake, puede mirror el catálogo de Unity Azure Databricks en Fabric para integrar datos sin replicación ni movimiento de datos. Con esta integración, puede aumentar los sistemas de análisis de Azure Databricks con inteligencia artificial generativa sobre OneLake.

También puede usar el modo Direct Lake en Power BI en los datos de Azure Databricks en OneLake. El modo Direct Lake simplifica la capa de servicio y mejora el rendimiento del informe. OneLake admite API para Azure Data Lake Storage y almacena todos los datos tabulares en formato Delta Parquet.

Como resultado, los cuadernos de Azure Databricks pueden usar puntos de conexión de OneLake para acceder a los datos almacenados. La experiencia es la misma que el acceso a los datos a través de un almacenamiento de Fabric. Con esta integración, puede usar Fabric o Azure Databricks sin volver a dar forma a los datos.

Arquitectura

Diagrama que muestra una arquitectura completa de la plataforma de datos moderna para las PYME.

Diagrama que muestra una arquitectura moderna de la plataforma de datos para las PYME. En el paso 1, la sección carga e ingesta incluye Azure Event Hubs, Azure IoT Hub, Microsoft Dataverse y Azure Data Factory. Una flecha apunta de Data Factory a Data Lake Storage, que actúa como capa de almacenamiento y contiene datos almacenados en formato Delta Lake. Dentro de Data Lake Storage, Delta Lake organiza los datos en los niveles de bronce, plata y medalla de oro que Azure Databricks procesa. Los datos estructurados y no estructurados se mueven al lago de datos existente. En el paso 2, una flecha etiquetada como Microsoft Fabric Link apunta desde Dataverse a la sección de procesamiento y manipulación. Una flecha con la etiqueta Azure Synapse Link apunta de Dataverse a Data Lake Storage. En el paso 3, una flecha apunta desde los datos de streaming hacia Event Hubs. Los pasos 4 y 5 muestran la ruta fría y la ruta caliente, respectivamente. Se separan de la arquitectura Lambda. La ruta fría apunta a la sección de almacenamiento. La ruta principal apunta a la sección Proceso y manipulación, que incluye Fabric Real-Time Intelligence, eventstream y eventhouse. Esta sección se extiende a la sección colaborar y consumir e incluye el panel y el activador de Fabric. En el paso 6, OneLake y Copilot comparten una sección con el agente de datos de Fabric y el análisis de Fabric. Abarca las secciones de proceso, manipulación, colaboración y consumo. Una flecha de doble punta con la etiqueta Mirrored Azure Databricks Unity Catalog conecta Azure Databricks con la sección OneLake y Copilot. En el paso 7, una flecha de doble cara conecta Azure Databricks y Data Lake Storage. En la sección colaborar y consumir, una flecha apunta desde Ciencia de datos y aprendizaje automático a la sección consumir y servir. La sección consumo y servicio incluye Power Apps, Microsoft Dynamics CRM, Power BI, aplicaciones Azure Functions, Logic Apps y aplicaciones web. En la parte inferior, una sección de detección y gobierno incluye Microsoft Purview y Unity Catalog. Debajo de esa sección, la sección de plataforma incluye Microsoft Entra ID, Microsoft Cost Management, Azure Key Vault, Azure Monitor, Microsoft Defender para la nube, Azure DevOps, y GitHub.

Descargar un archivo de Visio de esta arquitectura.

Flujo de datos

El siguiente flujo de datos corresponde al diagrama anterior:

  1. Use las canalizaciones de Azure Data Factory existentes para ingerir datos estructurados y no estructurados de sistemas de origen y colocarlos en el lago de datos existente.

  2. Puede usar los orígenes de datos de Microsoft Dynamics 365 para crear paneles de BI centralizados basados en conjuntos de datos enriquecidos mediante Azure Synapse Link o Microsoft Fabric Link. Vuelva a incorporar los datos fusionados y procesados a Microsoft Dynamics 365 y Power BI para su posterior análisis.

  3. Los datos de streaming se pueden ingerir a través de Azure Event Hubs o Azure IoT Hub, en función de los protocolos que envíen estos mensajes.

  4. En la ruta fría, puede usar Azure Databricks para llevar los datos de transmisión al lago de datos centralizado para su posterior análisis, almacenamiento y generación de informes. Estos datos se pueden unificadar con otros orígenes de datos para el análisis por lotes.

  5. En la ruta de acceso activa, puede analizar los datos en tiempo real y crear paneles en tiempo real a través de Microsoft Fabric Real-Time Intelligence.

  6. Puede usar los cuadernos de Azure Databricks existentes para realizar la limpieza, la unificación y los análisis de datos. Considere la posibilidad de usar la arquitectura medallion como:

    • Bronce, que contiene datos sin procesar.
    • Silver, que contiene datos limpios y filtrados.
    • Gold, que almacena datos agregados que son útiles para el análisis empresarial.
  7. Para datos dorados o un almacenamiento de datos, siga usando Azure Databricks SQL o cree una creación de reflejo del catálogo de Azure Databricks Unity en Fabric. Para habilitar informes y análisis en una instancia de Fabric lakehouse, cree un modelo semántico explícitamente y compile paneles Power BI mediante Direct Lake o DirectQuery para lograr un alto rendimiento. Para obtener más información, consulte Modelos semánticos en Fabric.

Las siguientes herramientas se usan para la gobernanza, colaboración, seguridad, rendimiento y supervisión de costos.

  • Descubra y controle:

    • Microsoft Purview proporciona servicios de detección de datos, clasificación de datos confidenciales e información de gobernanza en todo el patrimonio de datos.

    • Unity Catalog proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks.

  • Recursos de la plataforma:

    • Microsoft Entra ID proporciona inicio de sesión único (SSO) para Azure Databricks usuarios. Azure Databricks admite el aprovisionamiento automatizado de usuarios con Microsoft Entra ID para:

      • Cree nuevos usuarios.
      • Asigne a cada usuario un nivel de acceso.
      • Quite los usuarios y deniegue el acceso.
    • Microsoft Cost Management proporciona servicios de gobernanza financiera para cargas de trabajo de Azure.

    • Azure Key Vault administra secretos, claves y certificados.

    • Azure Monitor recopila y analiza la telemetría de recursos de Azure. Este servicio maximiza el rendimiento y la confiabilidad mediante la identificación proactiva de problemas.

    • Microsoft Defender para la nube proporciona administración de la postura de seguridad y protección contra amenazas para los recursos de Azure y las cargas de trabajo.

    • Azure DevOps proporciona integración continua e implementación continua (CI/CD) y otras características de control de versiones integradas.

    • GitHub proporciona funcionalidades de desarrollo de colaboración y control de versiones para administrar canalizaciones de código e implementación.

Componentes

  • Data Lake Storage es un servicio de almacenamiento de datos escalable diseñado para datos estructurados y no estructurados. En esta arquitectura, Data Lake Storage actúa como la infraestructura subyacente de Delta Lake. Es la capa de almacenamiento principal para los datos sin procesar y procesados, lo que permite la ingesta, el almacenamiento y la recuperación de datos eficaces para cargas de trabajo de análisis y aprendizaje automático.

  • Data Factory es un servicio de integración de datos basado en la nube que organiza y automatiza el movimiento y la transformación de datos. En esta arquitectura, Data Factory crea, programa y organiza canalizaciones de datos que mueven y transforman datos en varios almacenes de datos y servicios.

  • Event Hubs es un servicio de ingesta de datos en tiempo real que puede procesar millones de eventos por segundo desde cualquier origen. En esta arquitectura, Event Hubs captura y transmite grandes volúmenes de datos de varios orígenes para habilitar el análisis en tiempo real y el procesamiento controlado por eventos.

  • IoT Hub es un servicio administrado que mejora la seguridad y la comunicación confiable entre dispositivos de Internet de las cosas (IoT) y la nube. En esta arquitectura, IoT Hub facilita la ingesta, el procesamiento y el análisis de datos de telemetría de dispositivos IoT para proporcionar información en tiempo real y habilitar la supervisión remota.

  • Microsoft Dataverse es una plataforma de datos escalable que las organizaciones pueden usar para ayudar a almacenar y administrar de forma segura los datos que usan las aplicaciones empresariales. En esta arquitectura, actúa como origen de datos que se integra en la tubería de análisis de datos a través de Azure Synapse Link o Microsoft Fabric Link.

    • Azure Synapse Link es una característica de integración de datos que conecta aplicaciones de Dynamics con Azure Synapse Analytics o Data Lake Storage. En esta arquitectura, copia los datos casi en tiempo real de Dataverse a Data Lake Storage.

    • Microsoft Fabric Link es una característica de integración de datos que conecta aplicaciones de Dynamics a Fabric. En esta arquitectura, replica datos de Dataverse a Fabric casi en tiempo real.

  • Azure Databricks es una plataforma de análisis basada en Apache Spark para el procesamiento de macrodatos, el aprendizaje automático y la ingeniería de datos. En esta arquitectura, realiza la limpieza, transformación y análisis de datos mediante capas de arquitectura medallion.

    • Delta Lake es una capa de almacenamiento de código abierto que aporta transacciones de atomicidad, coherencia, aislamiento y durabilidad (ACID) a cargas de trabajo de macrodatos y Spark. En esta arquitectura, Delta Lake mejora la confiabilidad y el rendimiento de los datos dentro del lago de datos.

    • Azure Databricks SQL es un servicio de análisis basado en SQL que permite a los usuarios ejecutar consultas SQL en datos almacenados en Azure Databricks. En esta arquitectura, Azure Databricks SQL proporciona una interfaz SQL eficaz para consultar y analizar datos, lo que permite el análisis interactivo.

    • La inteligencia artificial y el aprendizaje automático abarcan una variedad de tecnologías y servicios que permiten el desarrollo, la implementación y la administración de modelos de aprendizaje automático. En esta arquitectura, los servicios ai y Machine Learning crean, entrenan e implementan modelos predictivos. Esta funcionalidad permite la toma de decisiones controlada por datos.

    • Unity Catalog es una solución de gobernanza de datos que proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en Azure Databricks áreas de trabajo. En esta arquitectura, El catálogo de Unity ayuda a garantizar la gobernanza y la seguridad de los datos proporcionando controles de acceso, auditoría y seguimiento de linaje de datos específicos.

  • Medallion Lakehouse architecture es un patrón de arquitectura de datos que organiza los datos en capas de bronce, plata y oro para un procesamiento y análisis de datos eficiente. En esta arquitectura, estructura los flujos de trabajo de procesamiento de datos mediante Data Lake Storage, Delta Lake y Azure Databricks para admitir análisis escalables.

  • Fabric es una plataforma de datos completa que integra varios servicios de datos y herramientas para proporcionar una experiencia de análisis y administración de datos sin problemas. En esta arquitectura, Fabric conecta e integra datos de varios orígenes, lo que permite un análisis completo de datos e información en toda la organización.

    • Real-Time Intelligence es una funcionalidad de procesamiento de datos que permite a las organizaciones ingerir, procesar y analizar datos en tiempo real. Real-Time Intelligence procesa el streaming de datos de varios orígenes. En esta arquitectura, proporciona información en tiempo real y permite acciones automatizadas basadas en patrones de datos.

    • Los accesos directos de OneLake crean un vínculo local entre OneLake y otros orígenes de datos. En esta arquitectura, simplifican el acceso a los datos y la administración, y proporcionan una vista unificada de los datos en toda la organización.

    • Fabric Copilot es un asistente con tecnología de inteligencia artificial integrado en cargas de trabajo de Fabric. Usa modelos de lenguaje grande (LLM) para ayudar a los usuarios a interactuar con los datos mediante lenguaje natural. Simplifica tareas como generar SQL, DAX y transformaciones, y crea informes o paneles. Copilot admite el contexto conversacional, crea visualizaciones y ayuda a crear canalizaciones de análisis. Ayuda a las organizaciones a acelerar la información de datos y optimizar los flujos de trabajo sin necesidad de experiencia en codificación profunda.

    • Un agente de datos de Fabric es un servicio inteligente basado en LLM de Fabric que las organizaciones utilizan para consultar y analizar datos en múltiples orígenes, incluidos lakehouses, almacenes, modelos semánticos, bases de datos KQL y bases de datos reflejadas, mediante una única interfaz. Admite consultas complejas en varios pasos, aplica lógica personalizada a través de consultas de ejemplo y instrucciones de agente o origen de datos, y publica en Microsoft 365 Copilot o Teams. Proporciona a los usuarios empresariales acceso seguro y regulado a los datos empresariales en lenguaje natural.

  • Power BI es un servicio de análisis empresarial que proporciona visualizaciones interactivas y funcionalidades de inteligencia empresarial (BI). En esta arquitectura, Power BI visualiza datos de Fabric y Azure Databricks mediante el modo Direct Lake para mejorar el rendimiento.

  • microsoft Purview es un servicio unificado de gobernanza de datos que ayuda a las organizaciones a administrar y controlar sus datos en varios orígenes. En esta arquitectura, cataloga los datos, realiza un seguimiento del linaje y aplica el cumplimiento en todo el patrimonio de datos. Puede integrar Unity Catalog en Purview para acceder a los metadatos del catálogo de Unity desde Purview.

  • microsoft Entra ID es una solución de administración de identidades y acceso basada en la nube que ayuda a garantizar inicios de sesión seguros y acceso a recursos como Microsoft 365, Azure y otras aplicaciones SaaS. En esta arquitectura, Microsoft Entra ID proporciona administración segura de identidades y acceso para los recursos de Azure. Esta característica permite inicios de sesión seguros, administra identidades de usuario y ayuda a garantizar el acceso autorizado a los datos y los recursos.

  • Cost Management es un conjunto de herramientas de FinOps que las organizaciones pueden usar para analizar, supervisar y optimizar los costos de Microsoft Cloud. En esta arquitectura, estas herramientas proporcionan gobernanza financiera sobre los recursos de Azure.

  • key Vault es un servicio en la nube que almacena y administra secretos, como claves de API, contraseñas, certificados y claves criptográficas. En esta arquitectura, Azure Databricks puede recuperar secretos de Key Vault para autenticar y acceder a Data Lake Storage, lo que garantiza la integración segura.

  • Azure Monitor es un servicio de supervisión que proporciona observabilidad de pila completa para aplicaciones, infraestructura y redes. Azure Monitor permite a los usuarios recopilar, analizar y actuar sobre los datos de telemetría de sus entornos locales y de Azure. En esta arquitectura, Azure Monitor garantiza el rendimiento y la confiabilidad mediante la identificación proactiva de problemas.

  • Defender for Cloud es una plataforma de protección de aplicaciones nativas de la nube que proporciona administración de la posición de seguridad y protección contra amenazas en entornos de Azure, híbridos y multinube. En esta arquitectura, Defender for Cloud protege las plataformas de datos y las cargas de trabajo mediante la identificación de vulnerabilidades, la detección de amenazas y la provisión de recomendaciones de seguridad en Azure recursos.

  • Azure DevOps es un conjunto de herramientas de desarrollo que admiten una cultura colaborativa y procesos simplificados. Estas herramientas permiten a los desarrolladores, administradores de proyectos y colaboradores desarrollar software de forma más eficaz. Azure DevOps proporciona características integradas, como Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans y Azure Artifacts. Puede acceder a estas características a través de un explorador web o un cliente de entorno de desarrollo integrado. En esta arquitectura, Azure DevOps admite la implementación automatizada y el control de versiones para canalizaciones de datos y cuadernos.

  • gitHub es un servicio de hospedaje de repositorios git basado en la nube que simplifica el control de versiones y la colaboración para los desarrolladores. Los usuarios y equipos pueden almacenar y administrar su código, realizar un seguimiento de los cambios y colaborar en proyectos. En esta arquitectura, GitHub se integra con Azure DevOps para aplicar la automatización y el cumplimiento en flujos de trabajo de desarrollo e canalizaciones de implementación para Data Factory, Azure Databricks y Fabric.

Alternativas

Alternativas de servicio dentro de esta arquitectura

  • Ingesta por lotes

  • ingesta de Microsoft Dynamics 365

  • Ingesta de datos en streaming

    • La decisión entre Azure IoT y Event Hubs depende del origen de los datos de streaming, tanto si necesita clonación como comunicación bidireccional con los dispositivos de informes y los protocolos necesarios. Para más información, consulte Comparación de IoT Hub y Event Hubs.
  • Lakehouse

    • Un Fabric lakehouse es una plataforma de arquitectura de datos unificada para administrar y analizar datos estructurados y no estructurados en un formato abierto que usa principalmente archivos Delta Parquet. Admite dos tipos de almacenamiento. Estos tipos de almacenamiento son tablas administradas como CSV, Parquet o Delta y archivos no administrados. Las tablas administradas se reconocen automáticamente. Los archivos no administrados requieren la creación explícita de tablas. La plataforma permite transformaciones de datos a través de puntos de conexión de Spark o SQL y se integra con otros componentes de Fabric. Esta integración permite el uso compartido de datos sin duplicación. Este concepto se alinea con la arquitectura en medallón comúnmente utilizada en cargas de trabajo analíticas. Para obtener más información, consulte Lakehouse in Fabric.
  • Análisis en tiempo real

    • azure Databricks

      • Si tiene una solución de Azure Databricks existente, es posible que quiera seguir usando el streaming estructurado de Spark para el análisis en tiempo real. Para obtener más información, consulte Streaming en Azure Databricks.
    • Tejido

      • Si anteriormente usó otros servicios de Azure para análisis en tiempo real o no tiene ninguna solución de análisis en tiempo real existente, consulte Real-time Intelligence versus Azure soluciones de streaming.

      • La transmisión estructurada de Fabric usa Spark Structured Streaming para procesar e ingerir flujos de datos en tiempo real como tablas a las que se anexan datos continuamente. El streaming estructurado admite varios orígenes de archivos, como CSV, JSON, ORC, Parquet y servicios de mensajería como Kafka y Event Hubs. Este enfoque garantiza el procesamiento de flujos escalable y tolerante a errores, que optimiza los entornos de producción de alto rendimiento. Para más información, consulte Transmisión de datos a un almacén de datos unificado con Spark.

  • Ingeniería de datos

  • almacenamiento de datos o capa dorada

    • Puede usar Fabric o Azure Databricks para crear un almacén basado en SQL o una capa de oro. Para consultar una guía para decidir cómo elegir un almacén de datos o una solución de almacenamiento de la capa Gold dentro de Fabric, consulte Elegir un almacén de datos. Para más información sobre los tipos de SQL Warehouse en Azure Databricks, consulte tipos de SQL Warehouse.
  • data science

    • Use Fabric o Azure Databricks para funcionalidades de ciencia de datos. Para obtener más información sobre la oferta de ciencia de datos de Fabric, consulte Data Science in Fabric. Para obtener más información sobre la oferta de Azure Databricks, consulte AI y aprendizaje automático en Azure Databricks.

    • La ciencia de datos de tejido difiere de Machine Learning. Machine Learning proporciona una solución completa para administrar flujos de trabajo e implementar modelos de aprendizaje automático. La ciencia de datos de Fabric se adapta a un escenario de análisis e informes.

  • power BI

    • Azure Databricks integrado con Power BI permite el procesamiento y la visualización de datos. Para más información, consulte Conexión de Power BI a Azure Databricks.

    • Al reflejar Azure Databricks Unity Catalog en Fabric, puede acceder a los datos que Azure Databricks Unity Catalog administra directamente desde la carga de trabajo de Fabric. Para obtener más información, consulte Mirror Azure Databricks Catálogo de Unity. Puede consultar estos datos desde Power BI en modo Direct Lake sin copiar los datos en el servicio Power BI.

Detalles del escenario

Las PYME que tienen un entorno de Azure Databricks existente y, opcionalmente, una arquitectura de lakehouse pueden beneficiarse de este patrón. Actualmente usan una herramienta de extracción, transformación, carga (ETL) de Azure, como Data Factory y sirven informes en Power BI. Sin embargo, también pueden tener varios orígenes de datos que usan diferentes formatos de datos propietarios en el mismo lago de datos, lo que conduce a la duplicación de datos y a problemas de bloqueo del proveedor. Esta situación puede complicar la administración de datos y aumentar la dependencia de proveedores específicos. También pueden requerir informes actualizados y casi en tiempo real para la toma de decisiones, y querer adoptar herramientas de inteligencia artificial en todo su entorno.

Fabric es una base saaS abierta, unificada y regulada que puede usar para:

  • Centralice los datos en OneLake para almacenar, administrar y analizar datos en una sola ubicación sin problemas de bloqueo del proveedor.

  • Innovar más rápido con integraciones con aplicaciones de Microsoft 365.

  • Obtenga información rápida con las ventajas de Power BI modo Direct Lake.

  • Aproveche Copilot en cada experiencia de Fabric.

  • Acelere el análisis mediante el desarrollo de modelos de inteligencia artificial en una base única.

  • Mantenga los datos en su lugar sin movimiento, lo que reduce el tiempo que los científicos de datos necesitan para proporcionar valor.

Optimización de costos

La optimización de costos se centra en formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costes.

Para calcular el coste de esta solución, use la estimación preconfigurada en la calculadora de precios de Azure. La estimación refleja la arquitectura descrita en este artículo con el tamaño representativo de una carga de trabajo de SMB. Ajuste los valores para que coincidan con los patrones de uso reales, los volúmenes de datos y los requisitos de rendimiento.

  • Los precios de Microsoft Fabric dependen del modelo de capacidad. La estimación utiliza F2, que es un punto de entrada rentable para las PYME. Considere la posibilidad de reservar capacidad para cargas de trabajo predecibles para reducir los costos.

  • Los precios de Azure Databricks dependen del tipo de carga de trabajo, del nivel y de las horas de computación. La estimación utiliza computación de uso general de categoría Premium durante 200 horas al mes. Utilice Jobs Compute para cargas de trabajo por lotes programadas a fin de reducir los costes de DBU.

  • Los precios de Data Lake Storage dependen del volumen de almacenamiento, el nivel de acceso y el número de transacciones. La estimación incluye 1 TB de almacenamiento de nivel de acceso frecuente con el espacio de nombres jerárquico habilitado.

  • Los precios de Azure Data Factory dependen del número de ejecuciones de actividades, los volúmenes de movimiento de datos y las horas de ejecución de canalizaciones.

  • Los precios de Event Hubs dependen del nivel y las unidades de rendimiento seleccionadas. La estimación usa el nivel Estándar con una unidad de rendimiento.

Colaboradores

Microsoft mantiene este artículo. Los siguientes colaboradores escribieron este artículo.

Autores principales:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes