Inicio rápido: Creación de un conjunto de aptitudes en Azure Portal

En esta guía rápida, aprendes cómo un conjunto de habilidades de Búsqueda de Azure AI agrega reconocimiento óptico de caracteres (OCR), análisis de imágenes, detección de idioma, combinación de texto y reconocimiento de entidades para generar contenido de texto que se puede buscar en un índice.

Puede ejecutar el asistente Importar datos en el Azure Portal para aplicar habilidades que crean y transforman contenido textual durante la indexación. La entrada está constituida por los datos sin procesar, normalmente blobs de Azure Storage. La salida es un índice que permite búsquedas que contiene texto, títulos y entidades de imagen generados por IA. A continuación, puede consultar el contenido generado en Azure Portal mediante el Explorador de búsqueda.

Antes de ejecutar el asistente, cree algunos recursos y cargue archivos de ejemplo.

Requisitos previos

Nota:

En este inicio rápido se usan Las herramientas de Foundry para el enriquecimiento con IA. Dado que la carga de trabajo es pequeña, Herramientas de Foundry son utilizadas en segundo plano para procesar de forma gratuita hasta un máximo de 20 transacciones. Por lo tanto, no es necesario crear un recurso de Microsoft Foundry.

Preparación de datos de ejemplo

En esta sección, creará un contenedor de Azure Storage para almacenar datos de ejemplo que constan de varios tipos de archivo, incluidas imágenes y archivos de aplicación que no pueden buscarse mediante texto completo en sus formatos nativos.

Para preparar los datos de ejemplo para este inicio rápido:

  1. Vaya a la cuenta de Azure Storage en Azure Portal.

  2. En el panel izquierdo, seleccioneContenedores>.

  3. Cree un contenedor y cargue los datos de ejemplo en el contenedor.

Ejecutar el asistente

Para ejecutar el asistente:

  1. Vaya al servicio de búsqueda en Azure Portal.

  2. En la página Información general , seleccione Importar datos.

    Captura de pantalla que muestra cómo abrir el asistente para importación en Azure Portal.

  3. Seleccione Azure Blob Storage para el origen de datos.

    Captura de pantalla de la opción de origen de datos de Azure Blob Storage en Azure Portal.

  4. Seleccione Búsqueda de palabras clave.

    Captura de pantalla del icono de búsqueda de palabras clave en Azure Portal.

Paso 1: Creación de un origen de datos

Búsqueda de Azure AI requiere una conexión a un origen de datos para la ingesta y la indexación de contenido. En este caso, el origen de datos es la cuenta de Azure Storage.

Para crear el origen de datos:

  1. En la página Conectar a los datos , seleccione la suscripción de Azure.

  2. Seleccione la cuenta de almacenamiento y, a continuación, seleccione el contenedor que creó.

    Captura de pantalla de la página Conectarse a los datos en Azure Portal.

  3. Seleccione Siguiente.

Si obtiene Error detecting index schema from data source, el indexador que alimenta el asistente no puede conectarse al origen de datos. Lo más probable es que el origen de datos tenga protecciones de seguridad. Pruebe las siguientes soluciones y vuelva a ejecutar el asistente.

Característica de seguridad Solución
El recurso requiere roles de Azure o sus claves de acceso están deshabilitadas. Conéctese como servicio de confianza o conéctese mediante una identidad administrada.
El recurso está detrás de un firewall de IP. Cree una regla de entrada para Búsqueda de Azure AI y Azure Portal.
El recurso requiere una conexión de punto final privado. Conéctese a través de un punto de conexión privado.

Paso 2: agregar conocimientos cognitivos

El siguiente paso es configurar el enriquecimiento con IA para invocar OCR, análisis de imágenes y reconocimiento de entidades.

El análisis de imágenes y OCR están disponibles para blobs en Azure Blob Storage y Azure Data Lake Storage (ADLS) Gen2 y para el contenido de imágenes en Microsoft OneLake. Las imágenes pueden ser archivos independientes o imágenes incrustadas en un PDF u otros archivos.

Para agregar las aptitudes:

  1. Seleccione Extraer entidades y, a continuación, seleccione el icono del engranaje.

  2. Active y guarde las siguientes casillas:

    • Personas

    • Ubicaciones

    • Organizaciones

    Captura de pantalla de las opciones Extraer entidades en Azure Portal.

  3. Seleccione Extraer texto de imágenes y, a continuación, seleccione el icono de engranaje.

  4. Active y guarde las siguientes casillas:

    • Generación de etiquetas

    • Categorizar contenido

    Captura de pantalla de las opciones Extracción de texto de imágenes en Azure Portal.

  5. Deje la casilla Usar un recurso gratuito de Foundry Tools (enriquecimientos limitados) activada.

    Los datos de ejemplo constan de 14 archivos, por lo que la asignación gratuita de 20 transacciones en Foundry Tools es suficiente.

  6. Seleccione Siguiente.

Paso 3: configurar el índice

Un índice contiene el contenido que se puede buscar. El asistente normalmente puede crear el esquema mediante el muestreo del origen de datos. En este paso, revisará el esquema generado y podría revisar cualquier configuración.

En este inicio rápido, el asistente establece los valores predeterminados razonables:

  • Los campos predeterminados se basan en propiedades de metadatos de blobs existentes y nuevos campos para la salida de enriquecimiento, como persons, locationsy organizations. Los tipos de datos se deducen de los metadatos y del muestreo de datos.

    Captura de pantalla de la página de definición de índice.

  • La clave de documento predeterminada es metadata_storage_path, que se selecciona porque el campo contiene valores únicos.

  • Los atributos de campo predeterminados se basan en las aptitudes seleccionadas. Por ejemplo, los campos creados por la aptitud Reconocimiento de entidades (persons, locations, y organizations) son Recuperables, Filtrables, Facetable y Searchable. Para ver y cambiar estos atributos, seleccione un campo y, a continuación, seleccione Configurar campo.

    Los campos recuperables se pueden devolver en los resultados, mientras que los campos que se pueden buscar admiten la búsqueda de texto completo. Use Filterable si desea usar campos en una expresión de filtro.

    Marcar un campo como Recuperable no significa que el campo debe aparecer en los resultados de búsqueda. Puede controlar qué campos se devuelven mediante el select parámetro de consulta.

Después de revisar el esquema de índice, seleccione Siguiente.

Paso 4: Omitir la configuración avanzada

El asistente ofrece opciones avanzadas para la clasificación semántica y la programación de índices, que están fuera del ámbito de este inicio rápido. Omita este paso seleccionando Siguiente.

Paso 5: Revisar y crear objetos

El último paso es revisar la configuración y crear el índice, el indexador y el origen de datos en el servicio de búsqueda. El indexador automatiza el proceso de extraer contenido del origen de datos, cargar el índice e impulsar la ejecución del conjunto de aptitudes.

Para revisar y crear los objetos:

  1. Acepte el prefijo de nombre de objetos predeterminado.

  2. Revise las configuraciones de objetos.

    Captura de pantalla de la página de configuración de objetos en Azure Portal.

    El enriquecimiento con IA, el clasificador semántico y la programación del indexador están deshabilitados o establecidos en sus valores predeterminados porque ha omitido los pasos del asistente.

  3. Seleccione Crear para crear simultáneamente los objetos y ejecutar el indexador.

Supervisión de estado

Puede supervisar la creación del indexador en Azure Portal. La indexación basada en aptitudes tarda más en completarse que la indexación basada en texto, especialmente en OCR y análisis de imágenes.

Para supervisar el progreso del indexador:

  1. En el panel izquierdo, seleccione Indexadores.

  2. Seleccione el indexador en la lista.

  3. Seleccione Éxito (o Fallido) para ver los detalles de ejecución.

    Captura de pantalla de la página de estado del indexador.

En este inicio rápido, hay algunas advertencias, incluida Could not execute skill because one or more skill input was invalid. esta advertencia indica que un archivo PNG en el origen de datos no proporciona una entrada de texto a Entity Recognition. Se produce porque la aptitud OCR ascendente no reconoció ningún texto de la imagen y no pudo proporcionar una entrada de texto a la aptitud de reconocimiento de entidades de nivel inferior.

Las advertencias son comunes en la ejecución del conjunto de aptitudes. A medida que se familiarice con la forma en que las competencias iteran sobre sus datos, es posible que comience a notar patrones y a aprender qué advertencias es seguro ignorar.

Consulta en el Explorador de búsqueda

Para consultar el índice:

  1. En el panel izquierdo, seleccione Índices.

  2. Seleccione el índice de la lista. Si el índice tiene cero documentos o almacenamiento, espere a que Azure Portal se actualice.

  3. En la pestaña Explorador de búsqueda , escriba una cadena de búsqueda, como satya nadella.

La barra de búsqueda acepta palabras clave, frases entre comillas y operadores. Por ejemplo: "Satya Nadella" +"Bill Gates" +"Steve Ballmer"

Los resultados se devuelven en formato JSON detallado, lo que puede ser difícil de leer, especialmente si se trata de documentos de gran tamaño. Estas son las sugerencias para buscar en esta herramienta:

  • Cambie a la vista JSON para especificar los parámetros que dan forma a los resultados.
  • Agregue select para limitar los campos de los resultados.
  • Agregue count para mostrar el número de coincidencias.
  • Use Ctrl-F para buscar dentro del JSON las propiedades o los términos específicos.

Captura de pantalla de la página Explorador de búsqueda.

Este es un texto JSON que puede pegar en la vista:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "merged_content, persons"
}

Sugerencia

Las cadenas de consulta distinguen mayúsculas de minúsculas, por lo que si obtiene un mensaje de "campo desconocido", compruebe los campos o la definición del índice (JSON) para comprobar el nombre y el caso.

Puntos clave

Ha creado el primer conjunto de aptitudes y ha aprendido los pasos básicos de la indexación basada en aptitudes.

Algunos conceptos clave que esperamos que haya tenido en cuenta incluyen las dependencias. Un conjunto de aptitudes está enlazado a un indexador y los indexadores son de Azure y específicos del origen. Aunque en este inicio rápido se usa Azure Blob Storage, hay otros orígenes de datos de Azure disponibles. Para más información, consulte Indexadores de Búsqueda de Azure AI.

Otro concepto importante es que las aptitudes funcionan sobre tipos de contenido y, cuando se usa contenido heterogéneo, se omiten algunas entradas. Además, los archivos o campos grandes pueden superar los límites del indexador de su nivel de servicio. Es normal ver las advertencias cuando se producen estos eventos.

La salida se enruta hacia un índice de búsqueda y hay una asignación entre los pares nombre y valor que se crearon durante la indexación y los campos individuales del índice. De forma interna, el asistente configura un árbol de enriquecimiento y define un conjunto de aptitudes que establece el orden de las operaciones y el flujo general. Estos pasos están ocultos en el asistente, pero recuerde que estos conceptos serán importantes cuando comience a escribir el código.

Por último, ha aprendido que puede comprobar el contenido consultando el índice. En última instancia, Búsqueda de Azure AI proporciona un índice consultable que se puede buscar utilizando sintaxis de consulta simple o totalmente extendida. Un índice que contenga campos enriquecidos es como cualquier otro. Puede incorporar analizadores estándar o personalizados, perfiles de puntuación, sinónimos, navegación por facetas, búsqueda geográfica y otras características de Búsqueda de Azure AI.

Limpieza de recursos

Cuando trabaja en su propia suscripción, es una buena idea finalizar un proyecto quitando los recursos que ya no necesita. Los recursos que quedan en ejecución pueden costar dinero.

En Azure Portal, seleccione Todos los recursos o Grupos de recursos en el panel izquierdo para buscar y administrar recursos. Puede eliminar recursos individualmente o eliminar el grupo de recursos para quitar todos los recursos a la vez.

Si usa un servicio de búsqueda gratuito, recuerde que está limitado a tres índices, indexadores y orígenes de datos. Puede eliminar elementos individuales en el portal para que permanezcan por debajo del límite.

Paso siguiente

Puede usar Azure Portal, las API REST o un SDK de Azure para crear conjuntos de aptitudes. Pruebe las API rest mediante un cliente REST y más datos de ejemplo: