Compilación y entrenamiento de un modelo de extracción personalizado

Este contenido se aplica a:checkmarkv4.0 (GA) | Versiones anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (retirada)blue-checkmarkv2.1

Los modelos personalizados de Document Intelligence requieren una serie de documentos de entrenamiento para empezar. Si tiene al menos cinco documentos, puede empezar a entrenar un modelo personalizado. Puede entrenar un modelo de plantilla personalizada (formulario personalizado) o un modelo neuronal personalizado (documento personalizado). Este documento le guía por el proceso de entrenamiento de los modelos personalizados.

Requisitos de entrada del modelo personalizado

En primer lugar, asegúrese de que el conjunto de datos de entrenamiento sigue los requisitos de entrada de Document Intelligence.

Se admiten los siguientes formatos de archivo.

Modelo PDF Imagen:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lectura
Diseño
Documento general
Prefabricado
Extracción personalizada
Clasificación personalizada
  • Fotos y escaneos: Para obtener mejores resultados, proporcione una foto clara o un escaneo de alta calidad por documento.
  • ARCHIVOS PDF y TIFF: para archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. (Con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
  • Tamaño del archivo: el tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
  • Dimensiones de imagen: las dimensiones deben estar entre 50 píxeles x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
  • Bloqueos de contraseña: si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
  • Alto del texto: el alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un texto de 8 puntos a 150 puntos por pulgada.
  • Entrenamiento de modelos personalizados: el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
  • Entrenamiento del modelo de extracción personalizada: el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
  • Entrenamiento del modelo de clasificación personalizada: el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.
  • Tipos de archivo de Office (DOCX, XLSX, PPTX): el límite máximo de longitud de cadena es de 8 millones de caracteres.

Sugerencias de datos de entrenamiento

Siga estas sugerencias para optimizar aún más el conjunto de datos para el entrenamiento:

  • Use documentos PDF basados en texto en lugar de documentos basados en imágenes. Los archivos PDF escaneados se gestionan como imágenes.
  • Use ejemplos que tienen todos los campos completados para formularios con campos de entrada.
  • Use formularios con valores diferentes en cada campo.
  • Use un conjunto de datos mayor (imágenes de 10 a 15) si las imágenes de formulario son de menor calidad.

Carga de los datos de entrenamiento

Una vez que recopile un conjunto de formularios o documentos para el entrenamiento, debe cargarlo en un contenedor de blobs de Azure. Si no sabe cómo crear una cuenta de Azure storage con un contenedor, siga el inicio rápido Azure Storage para Azure portal. Puede usar el plan de tarifa gratis (F0) para probar el servicio y actualizarlo más adelante a un nivel de pago para producción.

Vídeo: Entrenamiento del modelo personalizado

  • Una vez recopilado y cargado el conjunto de datos de entrenamiento, está listo para entrenar el modelo personalizado. En el vídeo siguiente, creamos un proyecto y exploramos algunos de los aspectos básicos para etiquetar y entrenar correctamente un modelo.

Creación de un proyecto en Document Intelligence Studio

Document Intelligence Studio proporciona y organiza todas las llamadas API necesarias para completar el conjunto de datos y entrenar el modelo.

  1. Para empezar, vaya a Document Intelligence Studio. La primera vez que use el Studio, debe inicializar la suscripción, el grupo de recursos y el recurso. A continuación, sigue los requisitos previos para los proyectos personalizados para configurar el Studio para acceder al conjunto de datos de entrenamiento.

  2. En Studio, seleccione el icono Modelo de extracción personalizado y seleccione el botón Crear un proyecto .

    Captura de pantalla de Creación de un proyecto en Document Intelligence Studio.

    1. En el cuadro de diálogo, proporcione un nombre para el create project proyecto, opcionalmente una descripción y seleccione Continuar.

    2. En el paso siguiente del flujo de trabajo, elija o cree un recurso de Document Intelligence antes de seleccionar Continuar.

    Importante

    Los modelos neuronales personalizados solo están disponibles en algunas regiones. Si planea entrenar un modelo neuronal, seleccione o cree un recurso en una de estas regiones admitidas.

    Captura de pantalla de Seleccionar el recurso de inteligencia de documentos.

  3. A continuación, seleccione la cuenta de almacenamiento que usó para cargar el conjunto de datos de entrenamiento del modelo personalizado. La ruta de acceso a la carpeta debe estar vacía si los documentos de entrenamiento están en la raíz del contenedor. Si los documentos están en una subcarpeta, escriba la ruta de acceso relativa desde la raíz del contenedor en el campo Ruta de acceso de carpeta. Una vez configurada la cuenta de almacenamiento, seleccione Continuar.

    Captura de pantalla de Selección de la cuenta de almacenamiento.

  4. Por último, revise la configuración de project y seleccione Crear Project para crear un nuevo project. Ahora debería estar en la ventana de etiquetado y ver los archivos del conjunto de datos enumerados.

Etiquetar los datos

En el proyecto, la primera tarea consiste en etiquetar el conjunto de datos con los campos que desea extraer.

Los archivos cargados en el almacenamiento se muestran a la izquierda de la pantalla, con el primer archivo listo para etiquetarse.

  1. Empiece a etiquetar el conjunto de datos y cree el primer campo seleccionando el botón más (➕) situado en la parte superior derecha de la pantalla.

    Captura de pantalla de Creación de una etiqueta.

  2. Escriba un nombre para el campo.

  3. Asigne un valor al campo eligiendo una palabra o palabras en el documento. Seleccione el campo en la lista desplegable o en la lista de campos de la barra de navegación derecha. El valor etiquetado está debajo del nombre del campo en la lista de campos.

  4. Repita el proceso para todos los campos que desea etiquetar para el conjunto de datos.

  5. Etiquete los documentos restantes del conjunto de datos seleccionando cada documento y seleccionando el texto que se va a etiquetar.

Ahora tiene todos los documentos del conjunto de datos etiquetados. Los archivos .labels.json y .ocr.json corresponden a cada documento del conjunto de datos de entrenamiento y a un nuevo archivo fields.json. Este conjunto de datos de entrenamiento se envía para entrenar el modelo.

Entrenamiento del modelo

Con el conjunto de datos etiquetado, ahora estás listo para entrenar tu modelo. Seleccione el botón para entrenar en la esquina superior derecha.

  1. En el cuadro de diálogo para entrenar el modelo, proporcione un identificador de modelo único y, opcionalmente, una descripción. El identificador del modelo acepta un tipo de datos de cadena.

  2. Para el modo de compilación, seleccione el tipo de modelo que desea entrenar. Obtenga más información sobre los tipos y funcionalidades del modelo.

    Captura de pantalla del cuadro de diálogo Entrenar modelo.

  3. Seleccione Entrenar para iniciar el proceso de entrenamiento.

  4. Los modelos de plantilla se entrenan en unos minutos. Los modelos neuronales pueden tardar hasta 30 minutos en entrenarse.

  5. Vaya al menú Modelos para ver el estado de la operación de entrenamiento.

Probar el modelo

Una vez completado el entrenamiento del modelo, puede probar el modelo seleccionando el modelo en la página de lista de modelos.

  1. Seleccione el modelo y seleccione en el botón Probar .

  2. Seleccione el + Add botón para seleccionar un archivo para probar el modelo.

  3. Con un archivo seleccionado, elija el botón Analizar para probar el modelo.

  4. Los resultados del modelo se muestran en la ventana principal y los campos extraídos se muestran en la barra de navegación derecha.

  5. Valide el modelo mediante la evaluación de los resultados de cada campo.

  6. La barra de navegación derecha también tiene el código de ejemplo para invocar el modelo y los resultados JSON de la API.

Enhorabuena, ha aprendido a entrenar un modelo personalizado en Document Intelligence Studio. El modelo está listo para su uso con la API REST o el SDK para analizar documentos.

Se aplica a:Document Intelligence v2.1 marca de verificaciónv2.1. Otras versiones:v3.0

Cuando usas el modelo personalizado de Document Intelligence, proporcionas tus propios datos de entrenamiento a la operación Entrenar modelo personalizado, para que el modelo pueda entrenar en los formularios específicos de la industria. Siga esta guía para aprender a recopilar y preparar datos para entrenar el modelo de forma eficaz.

Necesitas al menos cinco formularios completados del mismo tipo.

Si desea usar datos de entrenamiento etiquetados manualmente, debe empezar con al menos cinco formularios completados del mismo tipo. Todavía puede usar formularios sin etiquetar además del conjunto de datos necesario.

Requisitos de entrada del modelo personalizado

En primer lugar, asegúrese de que el conjunto de datos de entrenamiento sigue los requisitos de entrada de Document Intelligence.

Se admiten los siguientes formatos de archivo.

Modelo PDF Imagen:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lectura
Diseño
Documento general
Prefabricado
Extracción personalizada
Clasificación personalizada
  • Fotos y escaneos: Para obtener mejores resultados, proporcione una foto clara o un escaneo de alta calidad por documento.
  • ARCHIVOS PDF y TIFF: para archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. (Con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
  • Tamaño del archivo: el tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
  • Dimensiones de imagen: las dimensiones deben estar entre 50 píxeles x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
  • Bloqueos de contraseña: si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
  • Alto del texto: el alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un texto de 8 puntos a 150 puntos por pulgada.
  • Entrenamiento de modelos personalizados: el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
  • Entrenamiento del modelo de extracción personalizada: el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
  • Entrenamiento del modelo de clasificación personalizada: el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.
  • Tipos de archivo de Office (DOCX, XLSX, PPTX): el límite máximo de longitud de cadena es de 8 millones de caracteres.

Sugerencias de datos de entrenamiento

Siga estas sugerencias para optimizar aún más el conjunto de datos para el entrenamiento.

  • Use documentos PDF basados en texto en lugar de documentos basados en imágenes. Los archivos PDF escaneados se gestionan como imágenes.
  • Use ejemplos que tengan todos sus campos rellenados para formularios completados.
  • Use formularios con valores diferentes en cada campo.
  • Use un conjunto de datos mayor (imágenes de 10 a 15) para formularios completados.

Carga de los datos de entrenamiento

Una vez que recopile el conjunto de documentos para el entrenamiento, debe cargarlo en un contenedor de blobs de Azure. Si no sabe cómo crear una cuenta de Azure storage con un contenedor, siga el inicio rápido Azure Storage para Azure portal. Use el nivel de rendimiento estándar.

Si desea usar datos etiquetados manualmente, cargue los archivos .labels.json y .ocr.json correspondientes a los documentos de entrenamiento. Puede usar la herramienta De etiquetado de ejemplo (o su propia interfaz de usuario) para generar estos archivos.

Organización de los datos en subcarpetas (opcional)

De forma predeterminada, la API Entrenar modelo personalizado solo usa documentos que se encuentran en la raíz del contenedor de almacenamiento. Sin embargo, puede realizar el entrenamiento con los datos de las subcarpetas si lo especifica así en la llamada API. Por lo general, el cuerpo de la llamada Train Custom Model (Entrenar modelo personalizado) tiene el formato siguiente, donde <SAS URL> es la dirección URL de la firma de acceso compartido del contenedor:

{
  "source":"<SAS URL>"
}

Si agrega el contenido siguiente al cuerpo de la solicitud, la API se entrena con los documentos ubicados en las subcarpetas. El "prefix" campo es opcional y limita el conjunto de datos de entrenamiento a archivos cuyas rutas de acceso comienzan con la cadena especificada. Por lo tanto, un valor de "Test", por ejemplo, hace que la API examine solo los archivos o carpetas que comienzan por la palabra Test.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Pasos siguientes

Ahora que ha aprendido a crear un conjunto de datos de entrenamiento, siga un inicio rápido para entrenar un modelo personalizado de Document Intelligence y empezar a usarlo en los formularios.

Consulte también