Eliminación dinámica de archivos

La eliminación dinámica de archivos puede mejorar significativamente el rendimiento de muchas consultas en tablas de Delta Lake. El optimizador de consultas activa la depuración dinámica de archivos para las consultas que contienen instrucciones de filtro o cláusulas WHERE. La poda dinámica de archivos en las sentencias MERGE, UPDATE y DELETE requiere cómputo con Photon habilitado. Para las sentencias SELECT, Photon proporciona una depuración dinámica de archivos más amplia y fiable. Sin usar Photon, la eliminación dinámica de archivos puede seguir aplicándose a las sentencias SELECT, según la estructura de la consulta y el plan de ejecución.

La eliminación dinámica de archivos es especialmente eficaz para las tablas sin particiones o para combinaciones en columnas no particionadas. El efecto de rendimiento de la eliminación dinámica de archivos suele estar correlacionado con la agrupación en clústeres de datos, por lo que considere la posibilidad de usar la agrupación en clústeres líquidos para maximizar la ventaja. Consulte Uso de clústeres líquidos para tablas.

Para obtener información general y casos de uso de la eliminación dinámica de archivos, consulte Consultas más rápidas en Delta Lake con la eliminación dinámica de archivos.

Configuración

La eliminación dinámica de archivos se controla mediante las siguientes opciones de configuración de Apache Spark:

spark.databricks.optimizer.dynamicFilePruning (el valor predeterminado es true): el indicador principal que dirige al optimizador para aplicar filtros. Cuando se establece en false, la eliminación dinámica de archivos no estará en vigor.
spark.databricks.optimizer.deltaTableSizeThreshold (el valor predeterminado es 10,000,000,000 bytes (10 GB)): representa el tamaño mínimo (en bytes) de la tabla Delta en el lado de sondeo de la combinación necesaria para desencadenar la eliminación dinámica de archivos. Si el lado del sondeo no es muy grande, probablemente no merece la pena hacer descender los filtros y simplemente podemos examinar toda la tabla. Para encontrar el tamaño de una tabla Delta, ejecute el comando DESCRIBE DETAIL table_name y examine la columna sizeInBytes.
spark.databricks.optimizer.deltaTableFilesThreshold (el valor predeterminado es 10): representa el número de archivos de la tabla Delta en el lado de sondeo de la combinación necesaria para desencadenar la eliminación de archivos dinámicos. Cuando la tabla lateral del sondeo contiene menos archivos que el valor de umbral, no se desencadena la eliminación dinámica de archivos. Si una tabla tiene solo unos pocos archivos, probablemente no merece la pena habilitar la eliminación de archivos dinámicos. Para encontrar el tamaño de una tabla Delta, ejecute el comando DESCRIBE DETAIL table_name y examine la columna numFiles.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-24

Eliminación dinámica de archivos

Configuración

Comentarios

Recursos adicionales