Extracción de información

Note

En esta página se describe la nueva versión de Extracción de información. Para obtener información sobre la versión anterior, vea Uso de Extracción de Información (heredado)

La extracción de información transforma documentos y texto no estructurados en información estructurada clave mediante un esquema definido. Esto le permite usar directamente información contenida en texto no estructurado, PDF, imágenes o tablas para su análisis, la elaboración de informes o su uso en agentes y aplicaciones posteriores.

Entre los ejemplos de extracción de información se incluyen:

Extracción de términos y partes legales de contratos.
Extracción de elementos de línea y condiciones de pago de facturas.
Extraer detalles clave de los registros médicos y las notas.

La extracción de información se basa en la función ai_extractde IA . La extracción de información tiene una interfaz de usuario visual para personalizar y optimizar la función con un esquema definido para la extracción.

La extracción de información usa el almacenamiento predeterminado para almacenar transformaciones de datos temporales, puntos de control de modelo y metadatos internos que potencian a cada agente. Al eliminar un agente, Databricks quita todos los datos asociados al agente del almacenamiento predeterminado.

Requisitos

Área de trabajo que incluye lo siguiente:
- Computación sin servidor habilitada. Consulte Requisitos de proceso sin servidor.
- Catálogo de Unity habilitado. Consulte Habilitar un área de trabajo para Unity Catalog.
- Acceso a una política de uso sin servidor con un presupuesto distinto de cero.
Esta función solo está disponible en algunas regiones, consulte Disponibilidad de funciones de IA.
Para áreas de trabajo con el complemento Seguridad y cumplimiento mejorados,
- Consulte la compatibilidad regional de ai_extract para conocer la norma de cumplimiento adecuada.
- Consulte Manage Azure Databricks previews (Administrar Azure Databricks versiones preliminares) para obtener información sobre cómo habilitarla en el área de trabajo.
Capacidad de usar la ai_extract función SQL.
Datos no estructurados de los que desea extraer información. Los datos deben estar en un volumen o tabla del catálogo de Unity.
- Para crear su agente, debe tener al menos 1 archivo en su volumen de Unity Catalog o 1 fila en su tabla.

Creación de un agente de extracción de información

Vaya al icono Agentes. Agentes en el panel de navegación izquierdo del área de trabajo. Haga clic en Crear Agente>Extracción de Información.

Paso 1. Seleccione los datos para extraer información.

En la página Inicio con los datos , seleccione los archivos o datos de los que desea extraer información. Puede realizar cualquiera de las siguientes acciones:
- Arrastre y coloque uno o varios archivos en el área de carga o haga clic para buscar archivos que se van a cargar.
- Haga clic en Seleccionar volumen para seleccionar un volumen de Catálogo de Unity con tipos de archivo admitidos.
- Haga clic en Seleccionar tabla para seleccionar una tabla de Catálogo de Unity que contenga datos de texto.
Si selecciona una tabla, seleccione la columna de la que se van a extraer los datos. Debe seleccionar una columna con un tipo admitido, como STRING o VARIANT, para poder continuar. Si la tabla no tiene columnas admitidas, seleccione otra tabla.
Haga clic en Crear agente. Este botón solo se habilita después de seleccionar un origen de datos válido y, para una tabla, una columna admitida.

Paso 2. Configuración y refinación del esquema de extracción

Después de que la extracción de información procese los datos, configure y afina los datos que desea extraer de los documentos.

En Configuración, defina el esquema de extracción. Esto se puede hacer de varias maneras:
- Escriba lenguaje natural que describa la información que desea extraer y haga clic en Generar esquema. La extracción de información genera automáticamente un esquema JSON con los nombres y las definiciones de los campos para ti. Edite estas descripciones según sea necesario.
- Como alternativa, haga clic en O, Definir manualmente para definir manualmente el esquema:
  1. Haga clic en Agregar campo.
  2. Escriba el nombre, el tipo y la descripción del campo.
  3. Haga clic en Confirmar.
  4. Repita para cada campo que quiera extraer.
  5. Haga clic en Guardar y ejecutar extracción.
- También puede hacer clic en JSON para editar el esquema JSON directamente. Haga clic en Aplicar cambios cuando haya finalizado.
Cada vez que actualice el esquema y haga clic en Guardar y ejecutar la extracción, La extracción de información actualiza el agente de extracción, ejecuta la extracción y muestra los resultados de cada entrada.
A la izquierda, revise el documento analizado y la extracción del agente. Iterar los resultados de la extracción de dos maneras. En primer lugar, proporcione comentarios de lenguaje natural sobre una o varias entradas, que optimizan automáticamente las descripciones al presionar Guardar y ejecutar la extracción. En segundo lugar, revise manualmente las descripciones del esquema, que surten efecto al presionar Guardar y ejecutar la extracción.
Use versiones para comparar o revertir a una configuración anterior. Haga clic en Versiones y, a continuación, haga clic en Comparar para comparar la definición de esquema de una versión anterior con la versión actual. Haga clic en Restaurar para restaurar una versión anterior.

Paso 3. Usa tu agente de extracción

Una vez que esté satisfecho con el rendimiento del agente, use el agente para extraer información.

Haga clic en Usar agente en la esquina superior derecha. Puede seleccionar una de las dos opciones siguientes:

Ejecute una consulta en SQL utilizando el agente para extraer información de todos sus datos. Se abre una consulta SQL que usa ai_extract para extraer información del volumen o tabla mediante el esquema definido. Para obtener más información sobre el uso ai_extract en consultas SQL, vea ai_extract Function.
Cree una canalización declarativa de Spark para implementar una canalización ETL que se ejecute en intervalos programados para invocar al agente en nuevos datos. Esto crea canalizaciones declarativas de Lakeflow Spark que actualizan una tabla en tiempo real con los datos extraídos. Puede configurar la programación de la canalización para que se ejecute cuando llegan nuevos datos. Para más información sobre las canalizaciones declarativas de Spark de Lakeflow, consulte Canalizaciones declarativas de Spark de Lakeflow.

Limitaciones

Consulte Limitaciones.

Los agentes de extracción de información tienen una longitud máxima de contexto del token de 128k.
No se admiten los tipos de esquema de unión.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-23