Creación de un origen de conocimiento de OneLake indexado

Nota

Esta característica de recuperación agente está disponible con carácter general en la API REST 2026-04-01 a través del acceso mediante programación. El portal de Azure y el portal de Microsoft Foundry continúan proporcionando acceso solo para vista previa a todas las funcionalidades de recuperación basada en agentes. Para obtener instrucciones sobre la migración, consulte Migración del código de recuperación agente a la versión más reciente.

Si decide usar una API REST en versión preliminar, puede acceder a las funcionalidades que aún no están disponibles con carácter general para esta característica. Las características en versión preliminar se proporcionan sin un contrato de nivel de servicio y no se recomiendan para cargas de trabajo de producción. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

Importante

Estas características y funcionalidades forman parte de la API REST 2026-05-01-preview. La versión preliminar 2026-05-01-preview se le concede bajo licencia como parte de su suscripción de Azure y está sujeta a los términos aplicables a las "Versiones preliminares" establecidos en los Microsoft Product Terms, el Microsoft Products and Services Data Protection Addendum ("DPA") y los Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

La 2026-05-01-preview admite conexiones a otros servicios de Microsoft y a servicios de terceros. El uso de estos servicios está sujeto a sus respectivos términos y podría dar lugar a procesamiento o almacenamiento de datos fuera del límite de cumplimiento de Azure, así como a los datos que fluyen a los límites de cumplimiento de Azure.

2026-05-01-preview no puede modificar los permisos de acceso establecidos fuera del 2026-05-01-preview. Si usa la versión preliminar 2026-05-01-preview con contenido restringido por acceso o permisos, se producirá un retraso antes de que la versión preliminar 2026-05-01-preview reconozca los cambios en esas restricciones de acceso o permisos.

Es su responsabilidad gestionar si sus datos saldrán fuera de los límites geográficos y de cumplimiento normativo de su organización, así como cualquier implicación relacionada, y garantizar que se hayan establecido los permisos, límites y aprobaciones adecuados.

Es responsable de revisar y probar cuidadosamente las aplicaciones que compile en el contexto de sus casos de uso específicos y de tomar todas las decisiones y personalizaciones adecuadas. Esto incluye implementar sus propias mitigaciones de IA responsables, como metaprompts, filtros de contenido u otros sistemas de seguridad, y garantizar que las aplicaciones cumplan los estándares de calidad, confiabilidad, seguridad y confiabilidad adecuados. Para obtener más información, consulte la nota de transparencia Búsqueda de Azure AI.

Una fuente de conocimientos de OneLake indexado ingiere archivos de Microsoft OneLake en una canalización de recuperación de agentes de Búsqueda de Azure AI. Los orígenes de conocimiento se crean de forma independiente, se hace referencia en una base de conocimiento y se usan como datos de base cuando se consulta la base de conocimiento en tiempo de ejecución.

Al crear un origen de conocimiento de OneLake indexado, especifique un origen de datos externo, modelos y propiedades para generar automáticamente los siguientes objetos de Búsqueda de Azure AI:

Un origen de datos que representa un almacén de lago de datos.
Conjunto de habilidades que fragmenta y, opcionalmente, vectoriza el contenido multimodal del almacén de lago de datos.
Índice que almacena contenido enriquecido y cumple los criterios para la recuperación agencial.
Indexador que emplea los objetos anteriores para impulsar la tubería de indexación y enriquecimiento.

El indexador generado se ajusta al indexador oneLake, cuyos requisitos previos, tareas admitidas, formatos de documento admitidos, accesos directos admitidos y limitaciones también se aplican a los orígenes de conocimiento de OneLake. Para obtener más información, consulte la documentación del indexador oneLake.

Soporte de uso

Azure Portal	portal Microsoft Foundry	SDK de .NET	SDK de Python	SDK de Java	SDK de JavaScript	REST API
✔️	✔️	✔️	✔️	✔️	✔️	✔️

Requisitos previos

Un servicio de Búsqueda de Azure AI en cualquier región que proporcione recuperación mediante agentes.
Finalización de los requisitos previos del indexador de OneLake.
Finalización de la preparación de datos del indexador de OneLake.
Permisos para crear orígenes de conocimiento. Configure la autenticación sin clave con los roles Colaborador del servicio de búsqueda y Colaborador de datos del índice de búsqueda asignados a la cuenta de usuario (recomendado) o use una clave de API.
Si el origen de conocimiento especifica un modelo de Azure OpenAI para inserciones o verbalización de imágenes, el servicio de búsqueda debe tener una identidad administrada con permisos de Cognitive Services User sobre el recurso Microsoft Foundry.

Paquete Azure.Search.Documents requerido:
- Para 2026-05-01-preview features, el paquete de versión preliminar más reciente: dotnet add package Azure.Search.Documents --prerelease
- Para las características del 01/04/2026, el paquete estable más actual: dotnet add package Azure.Search.Documents

Paquete azure-search-documents requerido:
- Para 2026-05-01-preview features, el paquete de versión preliminar más reciente: pip install --pre azure-search-documents
- Para las características del 01/04/2026, el paquete estable más actual: pip install azure-search-documents

Versión necesaria de la API REST:
- Para características en versión preliminar: Search Service 2026-05-01-preview
- Para las características disponibles con carácter general: Search Service 2026-04-01

Comprobación de orígenes de conocimiento existentes

Un origen de conocimiento es un objeto reutilizable de nivel superior. Conocer los orígenes de conocimiento existentes resulta útil para reutilizar o asignar nombres a nuevos objetos.

Ejecute el código siguiente para enumerar los orígenes de conocimiento por nombre y tipo.

// List knowledge sources by name and type
using Azure.Search.Documents.Indexes;

var indexClient = new SearchIndexClient(new Uri(searchEndpoint), credential);
var knowledgeSources = indexClient.GetKnowledgeSourcesAsync();

Console.WriteLine("Knowledge Sources:");

await foreach (var ks in knowledgeSources)
{
    Console.WriteLine($"  Name: {ks.Name}, Type: {ks.GetType().Name}");
}

Nombre	Descripción	Tipo	Editable	Obligatorio
`Name`	El nombre del origen de conocimiento, que debe ser único dentro de la colección de orígenes de conocimiento y seguir las directrices de denominación para los objetos de Búsqueda de Azure AI.	Cadena	No	Sí
`Description`	Descripción del origen de conocimiento.	Cadena	Sí	No
`EncryptionKey`	Clave administrada por el cliente para cifrar información confidencial tanto en el origen de conocimiento como en los objetos generados.	Objeto	Sí	No
`IndexedOneLakeKnowledgeSourceParameters`	Parámetros específicos de los orígenes de conocimiento de OneLake: `FabricWorkspaceId`, `LakehouseId`y `TargetPath`.	Objeto		Sí
`FabricWorkspaceId`	GUID del área de trabajo que contiene almacén de lago de datos.	Cadena	No	Sí
`LakehouseId`	El identificador único global (GUID) de la casa de lago.	Cadena	No	Sí
`TargetPath`	Carpeta o acceso directo dentro del almacén de lago de datos. Cuando no se especifica, se indexa todo el almacén de lago de datos.	Cadena	No	No

Nombre	Descripción	Tipo	Editable	Obligatorio
`Identity`	Identidad administrada que se va a usar en el indexador generado.	Objeto	Sí	No
`DisableImageVerbalization`	Habilita o deshabilita el uso de la verbalización de imágenes. El valor predeterminado es `False`, que permite la verbalización de imágenes. Establézcalo en `True` para deshabilitar la verbalización de imágenes.	Boolean	No	No
`ChatCompletionModel`	Un modelo de finalización de chat que verbaliza imágenes o extrae contenido. Los modelos admitidos son `gpt-4o`, `gpt-4o-mini`, `gpt-4.1`, `gpt-4.1-minigpt-4.1-nano`, , `gpt-5`, , `gpt-5-mini`y `gpt-5-nano`. La aptitud de solicitud de GenAI se incluye en el conjunto de aptitudes generado. Establecer este parámetro también requiere que `DisableImageVerbalization` se establezca en `False`. Cuando `ContentExtractionMode` se establece en `standard`, `ChatCompletionModel.AzureOpenAIParameters.ResourceUri` debe ser igual a `AiServices.Uri` y ambos parámetros deben apuntar al mismo recurso Microsoft Foundry en `services.ai.azure.com`.	Objeto	Solo `ApiKey` y `DeploymentName` son editables	No
`EmbeddingModel`	Modelo de inserción de texto que vectoriza el contenido de texto e imagen durante la indexación y en el momento de la consulta. Los modelos admitidos son `text-embedding-ada-002`, `text-embedding-3-small`y `text-embedding-3-large`. La aptitud de inserciones de Azure OpenAI se incluye en el conjunto de aptitudes generado, y el vectorizador de Azure OpenAI se incluye en el índice generado.	Objeto	Solo `ApiKey` y `DeploymentName` son editables	No
`ContentExtractionMode`	Controla cómo se extrae el contenido de los archivos. El valor predeterminado es `minimal`, que usa métodos básicos de extracción de contenido para texto e imágenes. Establézcalo en `standard` para el descifrado y la fragmentación de documentos avanzados mediante la aptitud Azure Content Understanding, que se incluye en el conjunto de aptitudes generado. Solo para `standard` , el `AiServices` parámetro se puede especificar y `ChatCompletionModel.AzureOpenAIParameters.ResourceUri` debe ser igual a `AiServices.Uri`. Para obtener más información, consulte la `ChatCompletionModel` fila.	Cadena	No	No
`AiServices`	Un recurso Foundry para acceder a Azure Content Understanding en Foundry Tools. Establecer este parámetro requiere que `ContentExtractionMode` se establezca en `standard`. Para obtener más información, consulte la `ChatCompletionModel` fila.	Objeto	Solo `ApiKey` se puede editar	No
`IngestionSchedule`	Agrega información de programación al indexador generado. También puede agregar una programación más adelante para automatizar la actualización de datos.	Objeto	Sí	No
`IngestionPermissionOptions`	Permisos de nivel de documento para ingerir junto con el contenido. Especifique `UserIds`, `GroupIds`o `RbacScope` para almacenar los metadatos de permisos en el índice. También puede especificar `SensitivityLabel` para ingerir los metadatos de la etiqueta de confidencialidad de Microsoft Purview para las fuentes de conocimientos de blob, OneLake indexado y SharePoint indexado. Para obtener instrucciones específicas sobre RBAC, consulte Permisos de ingesta basados en RBAC en el almacenamiento de blobs e Ingesta de listas de control de acceso (ACL) en ADLS Gen2. Para aplicar estos permisos en el momento de la consulta, consulte Aplicar permisos en tiempo de consulta (versión preliminar).	Matriz	No	No
`AssetStore`	(solo 2026-05-01-preview) Contenedor de blobs usado para almacenar de forma persistente imágenes extraídas de documentos de origen. Necesario para habilitar el servicio de imágenes (versión preliminar) para la base de conocimiento. Al establecer este parámetro, se aprovisiona un almacén de conocimientos junto a la fuente de conocimiento para almacenar los artefactos de imágenes. Puede inspeccionar y administrar este almacén de conocimiento como cualquier otro. La cuenta de almacenamiento debe permanecer accesible para el servicio de búsqueda durante la vigencia de la base de conocimiento.	Objeto	No	No

Creación de un origen de conocimiento de OneLake indexado

Soporte de uso

Requisitos previos

Comprobación de orígenes de conocimiento existentes

Creación de un origen de conocimiento

Propiedades específicas del origen

Propiedades de parámetros de ingesta

Comprobación del estado de la ingesta

Revisión de los objetos generados

Asignar a una base de conocimiento

Consulta de una base de conocimiento

Aplicación de permisos de nivel de documento (versión preliminar)

Mostrar imágenes incrustadas en documentos (versión preliminar)

Eliminación de un origen de conocimiento

Errores conocidos

Contenido relacionado

Comentarios

Recursos adicionales