Aptitud cognitiva de detección de información de identificación personal (PII)

La aptitud para la detección de información de identificación personal extrae información personal de un texto de entrada y le ofrece la opción de enmascararla. Esta aptitud usa los modelos de detección proporcionados en lenguaje de Azure en Foundry Tools.

Note

Esta aptitud está enlazada a Foundry Tools y requiere un recurso facturable para transacciones que superen los 20 documentos por indexador al día. La ejecución de aptitudes integradas se cobra por el precio estándar de Las herramientas de foundry existentes.

@odata.type

Microsoft.Skills.Text.PIIDetectionSkill

Data limits

El tamaño máximo de un registro debe tener menos de 50 000 caracteres según la medición de String.Length. Puede usar la aptitud División de texto para la fragmentación de datos. Establezca la longitud de la página en 5000 para obtener los mejores resultados.

Skill parameters

Los parámetros distinguen mayúsculas de minúsculas y todos son opcionales.

Parameter name	Description
`defaultLanguageCode`	(Opcional) Es el código de idioma que se aplicará a los documentos que no especifiquen el lenguaje de forma explícita. Si no se especifica el código de idioma predeterminado, el inglés (en) es el código de idioma predeterminado. Vea Full list of supported languages (Lista completa de idiomas admitidos).
`minimumPrecision`	Un valor entre 0,0 y 1,0. Si la puntuación de confianza (en la `piiEntities` salida) es inferior al valor establecido `minimumPrecision` , la entidad no se devuelve ni enmascara. El valor predeterminado es 0,0.
`maskingMode`	Un parámetro que proporciona varias formas de enmascarar la información personal detectada en el texto especificado. Se admiten las siguientes opciones: `"none"` (valor predeterminado): no se produce ningún enmascaramiento y no se devuelve la `maskedText` salida. `"replace"`: reemplaza las entidades detectadas por el carácter especificado en el parámetro `maskingCharacter`. El carácter se repite hasta la longitud de la entidad detectada para que los desplazamientos se correspondan correctamente con el texto de entrada y la salida `maskedText`.
`maskingCharacter`	El carácter utilizado para enmascarar el texto si el parámetro `maskingMode` está establecido en `replace`. Se admite la siguiente opción: `*` (predeterminada). Este parámetro solo puede ser `null` si `maskingMode` no está establecido `replace`en .
`domain`	(Opcional) Un valor de cadena, si se especifica, establece el dominio en un subconjunto de las categorías de entidad. Entre los valores posibles se incluyen: `"phi"` (solo se detecta información de mantenimiento confidencial), o `"none"`.
`piiCategories`	(Opcional) Si desea especificar qué entidades se detectan y devuelven, use este parámetro opcional (definido como una lista de cadenas) con las categorías de entidad adecuadas. Este parámetro también puede permitirle detectar entidades que no están habilitadas de forma predeterminada para el lenguaje del documento. Vea Categorías de entidad de información de identificación personal (PII) admitidas para obtener la lista completa.
`modelVersion`	(Opcional) Especifica la versión del modelo que se usará al llamar a la detección de información de identificación personal. El valor predeterminado es la versión más reciente cuando no se especifica. Se recomienda no especificar este valor, salvo que sea estrictamente necesario.

Skill inputs

Input name	Description
`languageCode`	Cadena que indica el idioma de los registros. Si no se especifica este parámetro, para analizar los registros se usa el código de idioma predeterminado. Vea Full list of supported languages (Lista completa de idiomas admitidos).
`text`	Texto que se analizará.

Skill outputs

Output name Description

Output name	Description
`piiEntities`	Una matriz de tipos complejos, que contiene los siguientes campos: `"text"` (la información de identificación personal real que se extrae). `"type"` `"subType"` `"score"` (cuanto más alto sea el valor, más probable será que la entidad sea real). `"offset"` (en el texto introducido). `"length"` Vea Categorías de entidad de información de identificación personal (PII) admitidas para obtener la lista completa.
`maskedText`	Esta salida varía en función `maskingMode`de . Si `maskingMode` es `replace`, la salida es el resultado de la cadena del enmascaramiento realizado sobre el texto de entrada, como se describe en `maskingMode`. Si `maskingMode` es `none`, no hay ninguna salida.

piiEntities

Una matriz de tipos complejos, que contiene los siguientes campos:

"text" (la información de identificación personal real que se extrae).
"type"
"subType"
"score" (cuanto más alto sea el valor, más probable será que la entidad sea real).
"offset" (en el texto introducido).
"length"

Vea Categorías de entidad de información de identificación personal (PII) admitidas para obtener la lista completa.

maskedText Esta salida varía en función maskingModede . Si maskingMode es replace, la salida es el resultado de la cadena del enmascaramiento realizado sobre el texto de entrada, como se describe en maskingMode. Si maskingMode es none, no hay ninguna salida.

Sample definition

  {
    "@odata.type": "#Microsoft.Skills.Text.PIIDetectionSkill",
    "defaultLanguageCode": "en",
    "minimumPrecision": 0.5,
    "maskingMode": "replace",
    "maskingCharacter": "*",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "piiEntities"
      },
      {
        "name": "maskedText"
      }
    ]
  }

Sample input

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft employee with ssn 859-98-0987 is using our awesome API's."
           }
      }
    ]
}

Sample output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "piiEntities":[ 
           { 
              "text":"859-98-0987",
              "type":"U.S. Social Security Number (SSN)",
              "subtype":"",
              "offset":28,
              "length":11,
              "score":0.65
           }
        ],
        "maskedText": "Microsoft employee with ssn *********** is using our awesome API's."
      }
    }
  ]
}

Los desplazamientos devueltos para las entidades de la salida de esta aptitud se devuelven directamente desde las API de Language Service, lo que significa que si los usa para indexar en la cadena original, debe usar la clase StringInfo en .NET para extraer el contenido correcto. Para obtener más información, vea Compatibilidad con varios idiomas y con emojis en características de Language Service.

Errores y advertencias

Si el código de idioma del documento no se admite, se devuelve una advertencia y no se extrae ninguna entidad. Si el texto está vacío, se devuelve una advertencia. Si el texto tiene más de 50 000 caracteres, solo se analizan los primeros 50 000 caracteres y se emite una advertencia.

Si la aptitud devuelve una advertencia, el valor maskedText de salida puede estar vacío, lo que podría afectar a las aptitudes de nivel inferior que esperasen la salida. Por esta razón, asegúrese de investigar todas las advertencias relacionadas con una salida que falta al escribir la definición del conjunto de aptitudes.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-30