Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En esta página se proporciona información general sobre la funcionalidad y las recomendaciones para hacer que los datos se administren y se rigen por Azure Databricks estén disponibles para sistemas externos.
Estos patrones se centran en escenarios en los que su organización necesita integrar herramientas o sistemas de confianza con los datos de Azure Databricks. Si busca instrucciones sobre el uso compartido de datos fuera de la organización, consulte Uso compartido de datos y recursos de inteligencia artificial de forma segura.
¿Qué acceso externo admite Azure Databricks?
Azure Databricks recomienda usar El catálogo de Unity para controlar todos los recursos de datos. El catálogo de Unity proporciona integraciones a los clientes de Delta Lake mediante la API REST de Unity y los clientes de Apache Iceberg mediante el catálogo REST de Iceberg. Para obtener una lista completa de las integraciones admitidas, consulte Integraciones del catálogo de Unity.
El catálogo de Unity también admite el modo de compatibilidad para tablas administradas, vistas materializadas y tablas de streaming, lo que permite el acceso de solo lectura desde clientes que no admiten las API REST. En este caso, pueden acceder directamente a los datos en una copia clonada de los datos.
En la tabla siguiente se proporciona información general sobre los formatos de compatibilidad y los patrones de acceso para objetos de Catálogo de Unity.
| Objeto de Unity Catalog | Formatos admitidos | Patrones de acceso |
|---|---|---|
| Tablas administradas | Delta Lake, Iceberg | API REST de Unity, catálogo REST de Iceberg, OpenSharing, modo de compatibilidad (solo lectura) |
| Vistas materializadas y tablas de streaming | Delta Lake, Iceberg | Utilice el acceso externo para pipelines para clientes compatibles con Delta 4.0 o Iceberg v3.
Modo de compatibilidad para clientes más antiguos. Solo lectura. API REST de Unity, catálogo REST de Iceberg, acceso a archivos (mediante el modo de compatibilidad) |
| Tablas externas | Delta Lake | API REST de Unity, catálogo REST de Iceberg, OpenSharing, URI en la nube |
| Tablas externas | CSV, JSON, Avro, Parquet, ORC, texto | REST API de Unicty, URI de nube |
| Volúmenes externos | Todos los tipos de datos | URI en la nube |
| Tablas externas* | Delta Lake, Iceberg | API REST de Unity, catálogo REST de Iceberg (versión preliminar), OpenSharing |
| Tablas externas* | CSV, JSON, Avro, Parquet, ORC, texto | REST API de Unicty, URI de nube |
* Solo se admiten las tablas externas federadas mediante la federación de catálogos . Para garantizar lecturas nuevas de motores externos en tablas externas, los clientes pueden actualizar periódicamente los metadatos mediante trabajos de Lakeflow.
Para obtener más información sobre estos objetos de catálogo de Unity, consulte lo siguiente:
- Tablas administradas de Unity Catalog para Delta Lake y Apache Iceberg
- Trabajar con tablas externas
- ¿Qué son los volúmenes del catálogo de Unity?
Provisión de credenciales de Unity Catalog
La dispensación de credenciales del Catálogo de Unity permite a los usuarios configurar clientes externos para heredar privilegios en los datos gobernados por Azure Databricks. Tanto los clientes de Iceberg como de Delta pueden admitir la provisión de credenciales. Consulte Provisión de credenciales de Unity Catalog para el acceso a sistemas externos.
Acceso a tablas con clientes Delta
Use la API REST de Unity para leer, escribir y crear tablas gestionadas y externas del Unity Catalog respaldadas por Delta Lake desde clientes Delta compatibles. Consulte Acceso a tablas de Databricks desde clientes Delta.
Importante
La creación y la escritura en tablas administradas de Unity Catalog desde clientes de Delta se encuentra en Vista previa pública.
En el caso de las tablas externas, El catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.
Nota
En la documentación de Azure Databricks se enumeran las limitaciones y las consideraciones de compatibilidad basadas en las versiones y las características de la plataforma de Databricks Runtime. Debe confirmar qué protocolos de lectura y escritura y características de tabla admite el cliente. Consulta delta.io.
Acceso a tablas con clientes de Iceberg
Azure Databricks proporciona a los clientes de Iceberg soporte para lectura, escritura y creación de tablas registradas en Unity Catalog. Los clientes admitidos incluyen Apache Spark, Apache Flink, Trino y Snowflake. Consulte Acceder a las tablas de Azure Databricks desde clientes de Apache Iceberg.
Uso compartido de tablas de solo lectura entre dominios
Puede usar OpenSharing para conceder acceso de solo lectura a tablas delta administradas o externas entre dominios y sistemas admitidos. Los sistemas de software que admiten lecturas sin copia de tablas openSharing incluyen SAP, Amperity y Oracle. Consulte Uso compartido de datos y recursos de inteligencia artificial de forma segura.
Nota
También puede usar OpenSharing para conceder acceso de solo lectura a los clientes o asociados. OpenSharing también respalda los datos compartidos mediante Databricks Marketplace.
Acceder a datos tabulares que no son de Delta Lake con tablas externas
Las tablas externas del catálogo de Unity admiten muchos formatos distintos de Delta Lake, incluidos Parquet, ORC, CSV y JSON. Las tablas externas almacenan todos los archivos de datos en directorios en una ubicación de almacenamiento de objetos en la nube especificada por un URI de nube proporcionado durante la creación de la tabla. Otros sistemas acceden a estos archivos de datos directamente desde el almacenamiento de objetos en la nube.
El Catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.
La lectura y escritura en tablas externas de varios sistemas puede provocar problemas de coherencia y daños en los datos, ya que no se proporcionan garantías transaccionales para formatos distintos de Delta Lake.
Es posible que el catálogo de Unity no seleccione nuevas particiones escritas en tablas externas respaldadas por formatos distintos de Delta Lake. Databricks recomienda ejecutar periódicamente MSCK REPAIR TABLE table_name para asegurarse de que el Catálogo de Unity haya registrado todos los archivos de datos escritos por sistemas externos.
Acceder a datos no tabulares con volúmenes externos
Databricks recomienda usar volúmenes externos para almacenar archivos de datos no tabulares leídos o escritos por sistemas externos además de Azure Databricks. Consulta ¿Qué son los volúmenes de Unity Catalog?.
El Catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.
Volúmenes proporciona API, SDK y otras herramientas para obtener archivos de los volúmenes y colocarlos en ellos. Consulte cómo trabajar con archivos en volúmenes de Unity Catalog.
Nota
OpenSharing permite compartir volúmenes con otras cuentas de Azure Databricks, pero no se integra con sistemas externos.