Exploración del procesamiento de datos analíticos

5 minutos

El procesamiento analítico de datos suele utilizar sistemas de solo lectura (o de lectura casi exclusiva) que almacenan grandes volúmenes de datos históricos o métricas de negocio. Los análisis pueden basarse en una instantánea de los datos en un momento concreto o en una serie de instantáneas.

Los detalles específicos de un sistema de procesamiento analítico pueden variar según la solución, pero una arquitectura común para el análisis a escala empresarial tiene el siguiente aspecto:

Diagrama que muestra una arquitectura de base de datos analítica con los elementos numerados que se describen a continuación.

Los datos operativos se extraen, transforman y cargan (ETL) en un lago de datos para su análisis, o bien se extraen y cargan primero, y se transforman después, un patrón llamado ELT habitual en los lakehouses modernos.
Los datos se cargan en un esquema de tablas, normalmente en un almacén de lago de datos con abstracciones tabulares sobre archivos en el lago de datos, o un almacenamiento de datos con un motor SQL totalmente relacional.
Los datos del almacenamiento de datos se pueden agregar y cargar en un modelo de procesamiento analítico en línea (OLAP), que actualmente se denomina más comúnmente un modelo semántico (e históricamente un cubo). Los valores numéricos agregados (medidas) de las tablas de hechos se calculan para intersecciones de dimensiones a partir de tablas de dimensiones. Por ejemplo, los ingresos de ventas podrían sumarse por fecha, cliente y producto. Power BI modelos semánticos son el ejemplo más común que encontrará.
Los datos del lago de datos, el almacenamiento de datos y el modelo analítico se pueden consultar para generar informes, visualizaciones y paneles.

Los lagos de datos son comunes en escenarios de procesamiento analítico de datos modernos, en los que se debe recopilar y analizar un gran volumen de datos basados en archivos.

Los almacenamientos de datos son una manera establecida de almacenar datos en un esquema relacional optimizado para las operaciones de lectura, principalmente las consultas para admitir la visualización de informes y datos.

Data Lakehouses es una innovación más reciente que combina el almacenamiento flexible y escalable de un lago de datos con la semántica de consulta relacional de un almacenamiento de datos. El esquema de tabla puede requerir cierta desnormalización de datos en un origen de datos OLTP (introduciendo algunas duplicaciones para que las consultas funcionen más rápido).

Un modelo OLAP (o modelo semántico) es un tipo agregado de almacenamiento de datos optimizado para cargas de trabajo analíticas. Las agregaciones de datos se encuentran entre dimensiones en distintos niveles, lo que permite explorar o reducir en profundidad las agregaciones en varios niveles jerárquicos; por ejemplo, para buscar el total de ventas por región, por ciudad o para una dirección individual. Dado que los datos están preagregados, las consultas para devolver los resúmenes que contiene se pueden ejecutar rápidamente.

Los diferentes tipos de usuario pueden llevar a cabo el trabajo analítico de datos en distintas fases de la arquitectura general. Por ejemplo:

Los científicos de datos pueden trabajar directamente con archivos de datos en un lago de datos para explorar los datos y crear modelos a partir de estos.
Los analistas de datos pueden consultar tablas directamente en el almacenamiento de datos para generar informes y visualizaciones complejos.
Los usuarios empresariales pueden consumir datos preagregados en un modelo analítico en forma de informes o paneles.

Plataformas de análisis modernas

Azure proporciona varios servicios administrados que cubren la canalización de análisis completa, desde la ingesta de datos sin procesar hasta informes interactivos. Dos plataformas "todo en uno" reúnen la mayoría de estas funcionalidades en una sola área de trabajo. Microsoft Fabric y Azure Databricks son esas dos plataformas; un tercer servicio, Microsoft Purview, se centra en la gobernanza de datos en todos los orígenes. Aún no es necesario familiarizarse con ninguno de estos servicios: las descripciones siguientes le proporcionan una idea general de lo que hace cada uno.

Microsoft Fabric es una plataforma de análisis de software como servicio (SaaS) unificada que reúne las funcionalidades de almacenamiento, ingeniería de datos, almacenamiento de datos e informes en una sola área de trabajo. Azure Databricks es una plataforma de análisis en la nube creada para la ingeniería de datos a gran escala y la ciencia de datos, mediante Delta Lake: Parquet más un registro de transacciones que permite el control de versiones y las transacciones ACID, como formato de almacenamiento estándar. Microsoft Purview proporciona seguridad de datos unificada, gobernanza y cumplimiento, lo que le ayuda a detectar, clasificar, proteger y administrar datos en todos los orígenes de datos.

Diagrama que muestra las plataformas de análisis modernas Microsoft Fabric, Azure Databricks y Microsoft Purview.

Organización de datos con la arquitectura medallón

Un patrón común para organizar los datos en un lakehouse es la arquitectura de medallón, que utiliza tres capas:

Bronze: datos sin procesar ingeridos as-is de los sistemas de origen, sin ninguna transformación aplicada, conservando los registros originales para el reprocesamiento.
Silver: datos limpios y conformes, con duplicados eliminados y tipos de datos estandarizados.
Gold: datos agregados y listos para la empresa modelados para casos de uso específicos de informes y análisis.

Diagrama que muestra una arquitectura de medallón.

Los equipos usan este patrón porque crea límites de calidad claros en cada capa y siempre puede volver a procesar datos de los registros Bronze originales si cambian los requisitos.

Tanto Fabric como Databricks incluyen experiencias de Copilot que permiten explorar datos mediante lenguaje natural.

Comentarios

¿Le ha resultado útil esta página?