Modelo documental general de Document Intelligence

Importante

En el caso de las versiones preliminares de Document Intelligence v4.0 y en el futuro, el modelo de documento general (documento precompilado) está en desuso. Para extraer pares clave-valor, marcas de selección, texto, tablas y estructura de documentos, use los siguientes modelos:

Característica versión Id. de modelo
Modelo de Layout con el parámetro features=keyValuePairs de cadena de consulta opcional habilitado. • v4:2024-11-30
• v3.1:2023-07-31 (GA)
prebuilt-layout
Modelo de documento general • v3.1:2023-07-31 (GA)
• v3.0:2022-08-31 (GA)
• v2.1 (GA)
prebuilt-document

Nota: Documento de inteligencia de Azure AI API v3.0 (2022-08-31) llega al final del soporte técnico el 30 de marzo de 2029. Migre las cargas de trabajo v3.0 a la API v4.0 disponible con carácter general (2024-11-30) antes de esta fecha. En v4.x, la capacidad de documento general (prebuilt-document) se sustituye por el modelo Layout con features=keyValuePairs. Consulte la guía de migración de Document Intelligence para obtener instrucciones.

Este contenido se aplica a:marca de verificaciónv3.1 (GA) | Última versión:marca de verificación púrpurav4.0 (GA) | Versión anterior:marca de verificación azulv3.0

Este contenido se aplica a:checkmarkv3.0 (GA) | Versiones más recientes:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1

El modelo de documento general combina potentes capacidades de reconocimiento óptico de caracteres (OCR) con modelos de aprendizaje profundo para extraer pares clave-valor, tablas y marcas de selección a partir de documentos. El documento general está disponible con las API v3.1 y v3.0. Para más información, consulte nuestra guía de migración.

Características del documento general

  • El modelo de documento general es un modelo entrenado previamente, no requiere etiquetas ni entrenamiento.

  • Una única API extrae pares clave-valor, marcas de selección, texto, tablas y estructura de los documentos.

  • El modelo de documento general admite documentos estructurados, semiestructurados y no estructurados.

  • Las marcas de selección se identifican como campos con un valor de :selected: o :unselected:.

Ejemplo de documento procesado en Document Intelligence Studio

Captura de pantalla del análisis general de documentos en Document Intelligence Studio.

Extracción de pares clave-valor

La API de documento general admite la mayoría de los tipos de formulario y analiza los documentos y extrae las claves y los valores asociados. Es ideal para extraer pares clave-valor comunes de documentos. Puede usar el modelo de documento general como alternativa al entrenamiento de un modelo personalizado sin etiquetas.

Opciones de desarrollo

Document Intelligence v3.1 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelo de documento general Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
documento precompilado

Importante

La API de Azure Document Intelligence v3.0 (2022-08-31) llega al fin del soporte el 30 de marzo de 2029. Para evitar interrupciones de producción, use Azure Document Intelligence 2024-11-30 v4.0 para todo el desarrollo nuevo y migre las cargas de trabajo existentes a Azure Document Intelligence 2024-11-30 v4.0 antes de esta fecha. Para la extracción general de documentos en v4.0, use el modelo de diseño (features=keyValuePairs). Para obtener instrucciones sobre la migración, consulte la guía de migración de Document Intelligence.

Document Intelligence v3.0 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelo de documento general Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
documento precompilado

Requisitos de entrada

Se admiten los siguientes formatos de archivo.

Modelo PDF Imagen:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leer
Diseño
Documento general
Precompilado
Extracción personalizada
Clasificación personalizada
  • Fotos y escaneos: para obtener los mejores resultados, proporcione una foto nítida o un escaneo de alta calidad de cada documento.
  • ARCHIVOS PDF y TIFF: para archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. (Con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
  • Tamaño del archivo: el tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
  • Dimensiones de imagen: las dimensiones deben estar entre 50 píxeles x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
  • Bloqueos de contraseña: si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
  • Alto del texto: el alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un texto de 8 puntos a 150 puntos por pulgada.
  • Entrenamiento de modelos personalizados: el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
  • Entrenamiento del modelo de extracción personalizada: el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
  • Entrenamiento del modelo de clasificación personalizada: el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.
  • Tipos de archivo de Office (DOCX, XLSX, PPTX): el límite máximo de longitud de cadena es de 8 millones de caracteres.

Extracción de datos del modelo de documento general

Pruebe a extraer datos de formularios y documentos con Document Intelligence Studio.

Necesita los siguientes recursos:

  • Una suscripción a Azure: puede crear una cuenta gratuita.

  • Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Captura de pantalla de ubicación de las claves y el punto de conexión en Azure Portal.

Nota:

Document Intelligence Studio admite el documento general v3.0 y v3.1. Nota: v3.0 se retira el 30 de marzo de 2029. En v4.x, la funcionalidad general del documento se sustituye por el modelo de diseño con features=keyValuePairs.

  1. En la página de inicio de Document Intelligence Studio, seleccione Documentos generales.

  2. Puede analizar el documento de ejemplo o cargar archivos propios.

  3. Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

    Captura de pantalla de los botones Ejecutar análisis y Analizar opciones en Document Intelligence Studio.

Pares clave-valor

Los pares clave-valor son intervalos específicos dentro del documento que identifican una etiqueta o una clave y su respuesta o valor asociados. De forma estructurada, estos pares pueden ser la etiqueta y el valor que ha escrito el usuario para ese campo. En una documentación no estructurada, pueden ser la fecha en la que se ejecutó un contrato según el mensaje de texto de un párrafo. El modelo de IA está entrenado para extraer claves y valores identificables basados en una amplia variedad de tipos de documentos, formatos y estructuras.

Las claves también pueden existir de forma aislada cuando el modelo detecta que existe una clave, sin ningún valor asociado, o cuando se procesan campos opcionales. Por ejemplo, un campo de segundo nombre se puede dejar en blanco en un formulario en algunos casos. Los pares clave-valor son intervalos de texto contenidos en el documento. Para documentos donde el mismo valor se describe de diferentes maneras, por ejemplo, cliente/usuario, la clave asociada es cliente o usuario (según el contexto).

Extracción de datos

Modelo Extracción de texto Pares de clave-valor Marcas de selección Tablas Nombres comunes
Documento general ✓*

✓* - Solo disponible en la 2023-07-31 (versión 3.1 GA) y versiones posteriores de la API.

Idiomas y configuraciones regionales compatibles

Vea nuestra página de Compatibilidad de idiomas: modelos de análisis de documentos para obtener una lista completa de los idiomas admitidos.

Consideraciones

  • Como las claves son intervalos de texto extraídos del documento, en el caso de los documentos semiestructurados, las claves tienen que asignarse a un diccionario de claves existente.

  • Espere ver los pares clave-valor con una clave, pero ningún valor. Por ejemplo, si un usuario decide no proporcionar una dirección de correo electrónico en el formulario.

Pasos siguientes