Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Microsoft Foundry proporciona guías de seguridad y protección que usted puede aplicar a los modelos y agentes principales. Los límites de protección del agente están en versión preliminar. Las barreras de seguridad constan de controles. Los controles definen un riesgo que se debe detectar, los puntos de intervención para escanear el riesgo y la acción de respuesta que se debe tomar en el modelo o agente cuando se detecta el riesgo.
Un límite de protección es una colección denominada de controles. Las variaciones en las configuraciones de API y el diseño de aplicaciones pueden afectar a las finalizaciones y, por tanto, al comportamiento de filtrado.
Los riesgos se marcan mediante modelos de clasificación diseñados para detectar contenido dañino. Se admiten cuatro puntos de intervención:
- Entrada del usuario : mensaje enviado a un modelo o agente.
- Llamada a herramienta (versión preliminar): la acción y los datos que el agente propone enviar a una herramienta. Solo agentes.
- Respuesta de la herramienta (versión preliminar): el contenido devuelto de una herramienta al agente. Solo agentes.
- Salida : la finalización final devuelta al usuario.
Para obtener más información sobre los puntos de intervención, vea Puntos de intervención y controles.
Nota
Los límites de protección aprovechan los modelos de clasificación de Seguridad del contenido de Azure AI para detectar contenido perjudicial en las categorías de riesgo admitidas.
Importante
El sistema de barreras de protección se aplica a todos los modelos de Foundry vendidos por Azure, excepto a los mensajes y finalizaciones procesadas por modelos de audio, como Whisper. Para obtener más información, consulte Modelos de audio. Actualmente, el sistema de barreras de protección solo se aplica a los agentes desarrollados en el servicio de agente de Foundry, no a otros agentes registrados en el plano de control de Foundry.
Requisitos previos
Una suscripción Azure. Cree uno gratis.
Un proyecto Microsoft Foundry.
Al menos una implementación de modelos en el proyecto.
Función de propietario de la cuenta de Foundry.
Importante
Recientemente se cambió el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.
- Acceso a un rol que le permite crear un recurso foundry, como el propietario de la cuenta de Foundry o el propietario de Foundry en la suscripción o el grupo de recursos. Para obtener más información sobre los permisos, consulte Control de acceso basado en roles para Microsoft Foundry.
Importante
Recientemente se cambió el nombre de los roles RBAC de Foundry. Foundry User, Foundry Owner, Foundry Account Owner y Foundry Project Manager se llamaban anteriormente Usuario de Azure AI, Propietario de Azure AI, Propietario de la cuenta de Azure AI y Administrador de proyectos de Azure AI. Es posible que siga viendo los nombres anteriores en algunos lugares mientras se implementa el cambio de nombre. El cambio de nombre no modifica los identificadores de rol y los permisos principales.
- Acceso a un rol que le permite crear un recurso foundry, como el propietario de la cuenta de Foundry o el propietario de Foundry en la suscripción o el grupo de recursos. Para obtener más información sobre los permisos, consulte Control de acceso basado en roles para Microsoft Foundry.
Límites de protección para agentes frente a modelos
Un guardarraíl individual de Foundry se puede aplicar a uno o varios modelos y a uno o varios agentes en un proyecto. Algunos controles dentro de un límite de protección pueden no ser relevantes para los modelos porque los riesgos, los puntos de intervención o las acciones son específicos del comportamiento de agente o de las llamadas a herramientas. Esos controles no se ejecutan en modelos con esa barrera de protección.
Todavía no se admiten algunos riesgos en la versión preliminar para los agentes. Cuando los controles que implican esos riesgos se agregan a una barrera de protección y la barrera de protección se aplica a un agente, esos controles no tienen efecto en ese agente. Todavía se aplican a los modelos que usan la misma barrera de protección.
Aplicabilidad de riesgos
En la tabla siguiente se resumen los riesgos que se aplican a los modelos y agentes:
| Riesgo | Aplicable a los modelos | Aplicable a los agentes (versión preliminar) |
|---|---|---|
| Odio | ✅ | ✅ |
| Sexual | ✅ | ✅ |
| Autolesión | ✅ | ✅ |
| Violencia | ✅ | ✅ |
| Ataques de petición de usuario | ✅ | ✅ |
| Ataques indirectos | ✅ | ✅ |
| Contenido destacado (versión preliminar) | ✅ | ❌ |
| Material protegido para código | ✅ | ✅ |
| Material protegido para texto | ✅ | ✅ |
| Basado en la realidad (vista previa) | ✅ | ❌ |
| Información de identificación personal (versión preliminar) | ✅ | ✅ |
| Cumplimiento de tareas (versión preliminar) | ✅ | ✅ |
Niveles de gravedad
Para los riesgos de contenido (Odio, Sexual, Auto-daño, Violencia), cada control usa un umbral de nivel de gravedad que determina qué contenido se marca:
| Nivel de gravedad | Comportamiento |
|---|---|
| Desactivado | La detección está deshabilitada para este riesgo. Solo está disponible para los clientes aprobados, consulte filtros de contenido. |
| Bajo | Marca el contenido con una gravedad baja y superior. Menos restrictivo. |
| Medio | Marca contenido con gravedad media y superior. |
| Alto | Marca solo el contenido más grave. Más restrictivo. |
Para obtener un desglose detallado de lo que detecta cada nivel de gravedad, consulte Categorías de filtrado de contenido.
Para los modelos directos de Azure, solo los clientes que han sido aprobados para usar Guardrails modificados pueden desactivarlos. Solicitar límites de protección modificados a través de este formulario: Revisión de acceso limitado: Límites de protección modificados. Para los clientes de Azure Government, solicite límites de protección modificados a través de este formulario: Azure Government - Solicitar filtrado de contenido modificado.
Aplicabilidad del punto de intervención
En la tabla siguiente se resumen los puntos de intervención que se aplican a los modelos y agentes:
| Punto de intervención | Aplicable a los modelos | Aplicable a los agentes (versión preliminar) |
|---|---|---|
| Entrada del usuario | ✅ | ✅ |
| Invocación de herramienta | ❌ | ✅ (Versión preliminar) |
| Respuesta de la herramienta | ❌ | ✅ (Versión preliminar) |
| Salida | ✅ | ✅ |
Importante
Los riesgos se detectan en un agente en función de la barrera de protección asignada, no en la barrera de protección de su modelo subyacente. El límite de protección de agente invalida completamente el límite de protección del modelo.
Ejemplo: Comportamiento de anulación del límite de protección
Tenga en cuenta este escenario:
- Una implementación de modelos tiene un control con la detección de violencia establecida en Alta para la entrada y salida del usuario
- Un agente que usa ese modelo tiene un control con detección de violencia establecido en Bajo para la entrada y salida del usuario. El agente no tiene controles para la detección de violencia en absoluto para las llamadas y respuestas de herramientas
Aplicabilidad de acciones
Cuando un control detecta un riesgo, puede realizar una de estas dos acciones. En la tabla siguiente se resumen las acciones que se aplican a los modelos y agentes:
| Acción | Aplicable a los modelos | Aplicable a los agentes (versión preliminar) |
|---|---|---|
| Anotación | ✅ | ❌ |
| Anotar y bloquear | ✅ | ✅ |
Herencia e invalidación de límites de protección
Importante
Los riesgos se detectan en un agente en función de la barrera de protección asignada, no en la barrera de protección de su modelo subyacente. El límite de protección de agente invalida completamente el límite de protección del modelo.
Escenario de ejemplo:
- Una implementación de modelos tiene un control con la detección de violencia establecida en Alta para la entrada y salida del usuario
- Un agente que usa ese modelo tiene un control con detección de violencia establecido en Bajo para la entrada y salida del usuario. El agente no tiene controles para la detección de violencia en absoluto para las llamadas y respuestas de herramientas
Comportamiento esperado para la detección de violencia en ese agente:
Dada la configuración anterior, aquí se muestra cómo funciona la detección de violencia en cada fase:
- Las consultas de usuario al agente se examinan en busca de violencia en un nivel bajo
- Las llamadas a herramienta generadas internamente en el agente por medio de su modelo subyacente, incluido el contenido que luego se envía a esa herramienta durante la ejecución de la llamada a herramientas, no se examinará en busca de violencia
- La respuesta de la herramienta no se analizará en busca de violencia
- La respuesta final que se entrega al usuario en respuesta a su consulta original se examina en busca de violencia a un nivel bajo.
Límites de protección predeterminados
De forma predeterminada, a los modelos se les asigna la directriz Microsoft.DefaultV2. Para obtener más información sobre qué controles se incluyen, consulte Filtrado de contenido.
La asignación de barreras de seguridad predeterminada para los agentes sigue estas reglas:
- Si asigna una barrera de protección personalizada a un agente, se usará dicha barrera de protección.
- Si no se asigna ninguna barrera de protección personalizada, el agente heredará la barrera de protección de la implementación del modelo subyacente.
- Un agente solo usa el Microsoft. DefaultV2 límite de protección si su implementación del modelo usa esa barrera de protección o si la asigna explícitamente.
Nota
Por ejemplo, si no se especifican límites de protección personalizados para un agente y ese agente usa una implementación mini GPT-4o con un límite de protección denominado "MyCustomGuardrails", el agente también usa "MyCustomGuardrails" hasta que asigna un límite de protección diferente.
Solución de problemas
La barrera de protección no se aplica al agente
Síntoma: El comportamiento del agente no coincide con la configuración de límite de protección asignada.
Causas:
- El límite de protección contiene controles con vista previa de riesgos que aún no se admiten para los agentes (Resaltado, Solidez)
- Agente que usa la barrera de protección del modelo en lugar de la barrera de protección asignada
Solución:
- Comprobación de la barrera de protección asignada mediante Fundición de IA de Azure portal o SDK
- Compruebe que los controles de la barrera de seguridad no se basan en riesgos no admitidos por el agente.
- Asigne explícitamente límites de protección al agente para invalidar los valores predeterminados del modelo
Contenido marcado inesperadamente
Síntoma: Contenido legítimo bloqueado por barrera de protección.
Causas:
- Nivel de gravedad establecido demasiado restrictivamente (bloqueo alto)
- El modelo de clasificación detectó un patrón de caso límite.
Solución:
- Revisar la configuración del nivel de gravedad para la categoría de riesgo afectada
- Prueba con diferentes niveles de gravedad para encontrar el umbral adecuado
- Para los falsos positivos persistentes, póngase en contacto con el soporte técnico de Azure para revisar la clasificación.
No se analizan las llamadas a la herramienta
Síntoma: El contenido dañino pasa a través de llamadas o respuestas de herramientas.
Causas:
- Los puntos de intervención para la llamada y respuesta de herramientas no están configurados en el límite de protección.
- Uso de características en versión preliminar que pueden no estar totalmente habilitadas
Solución:
- Compruebe que el límite de protección incluye controles para los puntos de intervención de la llamada y respuesta de las herramientas
- Asegúrese de que las características de la versión preliminar del servicio Foundry Agent estén habilitadas para el proyecto.