Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Advertencia
Prompt flow en Microsoft Foundry y Azure Machine Learning se retirará el 20 de abril de 2027. Prompt flow ya no se recomienda para nuevos desarrollos. Migre las aplicaciones e implementaciones existentes de Prompt flow a Microsoft Agent Framework antes del 20 de abril de 2027.
Las imágenes de contenedor de Prompt flow ya no reciben actualizaciones, incluidas las actualizaciones de seguridad y de paquetes. Esto se aplica a las imágenes de entorno de ejecución de Prompt flow, incluidas promptflow-runtime, promptflow-runtime-stable y promptflow-python.
Después del 20 de abril de 2027, Prompt flow, incluida la experiencia de creación web en Microsoft Foundry y Azure Machine Learning, las extensiones de VS Code y las imágenes de contenedor relacionadas de Prompt flow, dejará de ser compatible y de estar disponible.
Si su aplicación depende de implementaciones de Prompt flow o de imágenes en tiempo de ejecución, planifique trasladar esas cargas de trabajo a alternativas compatibles, como Microsoft Agent Framework, antes de la fecha de retirada. Para obtener instrucciones sobre la migración, consulte la guía de migración de flujo de mensajes y ejemplos de código de migración.
Una ejecución por lotes ejecuta un flujo de comandos con un conjunto de datos grande y genera resultados para cada fila de datos. Para evaluar el rendimiento de su flujo de instrucciones con un conjunto de datos grande, puede enviar una ejecución por lotes y usar métodos de evaluación para generar métricas y puntuaciones de rendimiento.
Una vez completado el flujo por lotes, los métodos de evaluación se ejecutan automáticamente para calcular las puntuaciones y las métricas. Puede usar las métricas de evaluación para evaluar la salida del flujo con respecto a los criterios y objetivos de rendimiento.
En este artículo se describe cómo enviar una ejecución por lotes y usar un método de evaluación para medir la calidad de la salida del flujo. Aprenderá a ver el resultado y las métricas de evaluación y a iniciar una nueva ronda de evaluación con un método o subconjunto de variantes diferente.
Requisitos previos
Para ejecutar un flujo por lotes con un método de evaluación, necesita los siguientes componentes:
Flujo funcional de solicitud de Azure Machine Learning para el que desea probar el rendimiento.
Conjunto de datos de prueba que se va a usar para la ejecución por lotes.
El conjunto de datos de prueba debe estar en formato CSV, TSV o JSONL y debe tener encabezados que coincidan con los nombres de entrada del flujo. Sin embargo, puede asignar diferentes columnas del conjunto de datos a columnas de entrada durante el proceso de configuración de la ejecución de evaluación.
Cree y envíe una ejecución por lotes de evaluación
Para enviar una ejecución por lotes, seleccione el conjunto de datos con el que probar el flujo. También puede seleccionar un método de evaluación para calcular las métricas de la salida del flujo. Si no desea usar un método de evaluación, puede omitir los pasos de evaluación y ejecutar la ejecución por lotes sin calcular ninguna métrica. También puede ejecutar una ronda de evaluación más adelante.
Para iniciar una ejecución por lotes con o sin evaluación, seleccione Evaluar en la parte superior de la página del flujo del mensaje.
En la página Configuración básica del asistente Ejecución y evaluación &por lotes, personalice el nombre para mostrar de la ejecución si lo desea y, opcionalmente, proporcione una descripción de la ejecución y etiquetas. Seleccione Siguiente.
En la página Configuración de ejecución de Batch, seleccione el conjunto de datos que se va a utilizar y configurar la asignación de entrada.
El flujo de avisos admite la asignación de la entrada del flujo a una columna de datos específica del conjunto de datos. Puede asignar una columna de conjunto de datos a una determinada entrada mediante
${data.<column>}. Si desea asignar un valor constante a una entrada, puede escribir ese valor directamente.Puede seleccionar Revisar y enviar en este momento para omitir los pasos de evaluación y ejecutar la ejecución por lotes sin usar ningún método de evaluación. A continuación, la ejecución por lotes genera salidas individuales para cada elemento del conjunto de datos. Puede comprobar las salidas manualmente o exportarlas para su posterior análisis.
De lo contrario, para usar un método de evaluación para validar el rendimiento de esta ejecución, seleccione Siguiente. También puede añadir una nueva ronda de evaluación a una ejecución por lotes completada.
En la página Seleccionar evaluación , seleccione una o varias evaluaciones personalizadas o integradas que se van a ejecutar. Puede seleccionar el botón Ver detalles para ver más información sobre el método de evaluación, como las métricas que genera y las conexiones y entradas que requiere.
A continuación, en la pantalla Configurar evaluación , especifique los orígenes de las entradas necesarias para la evaluación. Por ejemplo, la columna de verdad fundamental podría provenir de un conjunto de datos. De forma predeterminada, la evaluación usa el mismo conjunto de datos que la ejecución por lotes general. Sin embargo, si las etiquetas correspondientes o los valores de verdad básica de destino están en un conjunto de datos diferente, puede utilizarlo.
Nota
Si el método de evaluación no requiere datos de un conjunto de datos, la selección del conjunto de datos es una configuración opcional que no afecta a los resultados de la evaluación. No es necesario seleccionar un conjunto de datos ni hacer referencia a ninguna columna de conjunto de datos en la sección mapeo de entrada.
En la sección Mapeo de entrada de evaluación, indique los orígenes de las entradas necesarias para la evaluación.
- Si los datos proceden del conjunto de datos de prueba, establezca el origen como
${data.[ColumnName]}. - Si los datos proceden de la salida de ejecución, establezca el origen como
${run.outputs.[OutputName]}.
- Si los datos proceden del conjunto de datos de prueba, establezca el origen como
Algunos métodos de evaluación requieren modelos de lenguaje grande (LLM), como GPT-4 o GPT-3.5, o necesitan otras conexiones para consumir credenciales o claves. Para esos métodos, debe escribir los datos de conexión en la sección Conexión de la parte inferior de esta pantalla para poder usar el flujo de evaluación. Para obtener más información, consulte Configuración de una conexión.
Seleccione Revisar y enviar para revisar la configuración y, a continuación, seleccione Enviar para iniciar la ejecución por lotes con evaluación.
Nota
- Algunos procesos de evaluación usan muchos tokens, por lo que se recomienda usar un modelo que admita >=16 000 tokens.
- Las ejecuciones por lotes tienen una duración máxima de 10 horas. Si una ejecución por lotes supera este límite, finaliza y se muestra como erróneo. Supervise la capacidad de LLM para evitar la limitación. Si es necesario, considere la posibilidad de reducir el tamaño de los datos. Si sigue teniendo problemas, envíe un formulario de comentarios o una solicitud de soporte técnico.
Visualización de resultados y métricas de evaluación
Puede encontrar la lista de ejecuciones por lotes enviadas en la pestaña Runs de la Estudio de Azure Machine Learning Prompt flow.
Para comprobar los resultados de una ejecución por lotes, seleccione la ejecución y, a continuación, seleccione Visualizar salidas.
En la pantalla Visualizar salidas, la sección Ejecuciones y métricas muestra los resultados generales de la ejecución por lotes y la ejecución de evaluación. En la sección Salidas, se muestran las entradas de ejecución línea por línea en una tabla de resultados que también incluye el ID de línea, ejecución, estado y métricas del sistema.
Si habilita el icono Ver junto a la ejecución en la sección Ejecuciones y métricas, la tabla de Resultados también muestra el puntaje de evaluación o la calificación de cada línea.
Seleccione el icono Ver detalles situado junto a cada línea de la tabla Salidas para observar y depurar la vista Seguimiento y Los detalles de ese caso de prueba. La vista Seguimiento muestra información como el número de tokens y la duración de ese caso. Expanda y seleccione cualquier paso para ver la información general y las entradas de ese paso.
También puede ver los resultados de la ejecución de evaluación desde el flujo de avisos que ha probado. En Ver ejecuciones por lotes, seleccione Ver ejecuciones por lotes para ver la lista de ejecuciones por lotes del flujo o seleccione Ver salidas de ejecuciones por lotes más recientes para ver las salidas de la última ejecución.
En la lista de ejecución por lotes, seleccione un nombre de ejecución por lotes para abrir la página de flujo de esa ejecución.
En la página de flujo de una ejecución de evaluación, seleccione Ver salidas o Detalles para ver los detalles del flujo. También puede clonar el flujo para crear un nuevo flujo o implementarlo como punto de conexión en línea.
En la pantalla Detalles :
La pestaña Información general muestra información completa sobre la ejecución, incluidas las propiedades de ejecución, el conjunto de datos de entrada, el conjunto de datos de salida, las etiquetas y la descripción.
La pestaña Salidas muestra un resumen de los resultados en la parte superior de la página, seguido de la tabla de resultados de ejecución por lotes. Si selecciona la ejecución de evaluación junto a Anexar resultados relacionados, la tabla también muestra los resultados de la ejecución de evaluación.
En la pestaña Registros se muestran los registros de ejecución, que pueden ser útiles para la depuración detallada de errores de ejecución. Puede descargar los archivos de registro.
La pestaña Métricas proporciona un vínculo a las métricas de la ejecución.
En la pestaña Seguimiento se muestra información detallada, como el número de tokens y la duración de cada caso de prueba. Expanda y seleccione cualquier paso para ver la información general y las entradas de ese paso.
La pestaña Instantánea muestra los archivos y el código de la ejecución. Puede ver la definición del archivo flow.dag.yaml y descargar cualquiera de los archivos.
Iniciar una nueva ronda de evaluación para la misma ejecución
Puede ejecutar una nueva ronda de evaluación para calcular las métricas de una ejecución por lotes completada sin volver a ejecutar el flujo. Este proceso ahorra el costo de volver a ejecutar el flujo y resulta útil en los escenarios siguientes:
- No ha seleccionado un método de evaluación al enviar una ejecución por lotes y ahora quiere evaluar el rendimiento de la ejecución.
- Ha usado un método de evaluación para calcular una determinada métrica y ahora desea calcular una métrica diferente.
- La ejecución de evaluación anterior falló, pero la ejecución por lotes generó correctamente las salidas y desea intentar la evaluación de nuevo.
Para iniciar otra ronda de evaluación, seleccione Evaluar en la parte superior de la página flujo de ejecución por lotes. El asistente de Nueva Evaluación se abre en la pantalla Seleccionar Evaluación. Complete la configuración y envíe la nueva ejecución de evaluación.
La nueva ejecución aparece en la lista Ejecutar del flujo de indicaciones, y puede seleccionar más de una fila de la lista y, a continuación, seleccionar Visualizar resultados para comparar los resultados y las métricas.
Comparar el historial de ejecución y las métricas de evaluación
Si modifica el flujo para mejorar su rendimiento, puede enviar varias ejecuciones por lotes para comparar el rendimiento de las distintas versiones de flujo. También puede comparar las métricas calculadas por diferentes métodos de evaluación para ver qué método es más adecuado para el flujo.
Para comprobar el historial de ejecución de lotes de flujo, seleccione Ver ejecuciones por lotes en la parte superior de la página de flujo. Puede seleccionar cada ejecución para comprobar los detalles. También puede seleccionar varias ejecuciones y seleccionar Visualizar salidas para comparar las métricas y las salidas de esas ejecuciones.
Descripción de las métricas de evaluación integradas
El flujo de avisos de Azure Machine Learning proporciona varios métodos de evaluación integrados para ayudarle a medir el rendimiento del resultado del flujo. Cada método de evaluación calcula métricas diferentes. En la tabla siguiente se describen los métodos de evaluación integrados disponibles.
| Método de evaluación | Métrica | Descripción | ¿Se requiere conexión? | Entrada necesaria | Valores de puntuación |
|---|---|---|---|---|---|
| Evaluación de precisión de clasificación | Precisión | Mide el rendimiento de un sistema de clasificación comparando sus salidas con la verdad básica | No | predicción, verdad fundamentar | En el intervalo [0, 1] |
| Evaluación de la fundamentación de QnA | Fundamentación | Mide cómo se basan las respuestas predichas del modelo en el origen de entrada. Incluso si las respuestas de LLM son precisas, no están fundamentadas si no son verificables frente a la fuente. | Sí | pregunta, respuesta, contexto (sin verdad de base) | De 1 a 5, con 1 = peor y 5 = mejor |
| Evaluación de similitud del GPT de QnA | Similitud de GPT | Mide la similitud entre las respuestas de verdad básica proporcionadas por el usuario y la respuesta predicha del modelo mediante un modelo GPT. | Sí | question, answer, ground truth (contexto no necesario) | De 1 a 5, con 1 = peor y 5 = mejor |
| Evaluación de relevancia de QnA | Relevancia | Mide la importancia de las respuestas previstas del modelo a las preguntas que se formulan. | Sí | pregunta, respuesta, contexto (sin verdad de base) | De 1 a 5, con 1 = peor y 5 = mejor |
| Evaluación de coherencia de QnA | Coherencia | Mide la calidad de todas las oraciones de la respuesta prevista de un modelo y cómo encajan de forma natural | Sí | pregunta, respuesta (ninguna verdad o contexto de base) | De 1 a 5, con 1 = peor y 5 = mejor |
| Evaluación de la fluencia de QnA | Fluidez | Mide la corrección gramatical y lingüística de la respuesta prevista del modelo | Sí | pregunta, respuesta (ninguna verdad o contexto de base) | De 1 a 5, con 1 = peor y 5 = mejor |
| Evaluación de los resultados de QnA F1 | Puntuación F1 | Mide la proporción del número de palabras compartidas entre la predicción del modelo y la verdad básica. | No | question, answer, ground truth (contexto no necesario) | En el intervalo [0, 1] |
| Evaluación de similitud de QnA Ada | Similitud de Ada | Calcula inserciones de nivel de oración (documento) mediante la API de inserción de Ada tanto para la verdad básica como para la predicción; a continuación, calcula la similitud del coseno entre ellas (un número de punto flotante). | Sí | question, answer, ground truth (contexto no necesario) | En el intervalo [0, 1] |
Para conocer las opciones más recientes del evaluador, incluidas las métricas basadas en NLP y de seguridad, consulte Evaluadores integrados.
Mejora del rendimiento del flujo
Si se produce un error en la ejecución, compruebe los datos de salida y registro y depure cualquier error de flujo. Para corregir el flujo o mejorar el rendimiento, pruebe a modificar el mensaje del flujo, el mensaje del sistema, los parámetros de flujo o la lógica de flujo.
Ingeniería de solicitudes
La construcción rápida puede ser difícil. Para obtener información sobre cómo construir un mensaje que pueda ayudar a lograr sus objetivos, consulte Técnicas de ingeniería de mensajes.
Mensaje del sistema
Puede usar el mensaje del sistema, a veces denominado metaprompt o aviso del sistema, para guiar el comportamiento de un sistema de inteligencia artificial y mejorar el rendimiento del sistema. Para obtener información sobre cómo mejorar el rendimiento del flujo con mensajes del sistema, consulte Diseño de mensajes del sistema y Mensajes del sistema de seguridad.
Conjuntos de datos de referencia
La creación de un copiloto que usa LLM normalmente implica la puesta a tierra del modelo en realidad mediante conjuntos de datos de origen. Un conjunto de datos de referencia ayuda a garantizar que los modelos de lenguaje grande (LLM) proporcionen las respuestas más precisas y útiles a las consultas de los clientes.
Un conjunto de datos dorado es una colección de preguntas realistas de los clientes y respuestas diseñadas de forma experta que sirven como una herramienta de control de calidad para los LLM que usa su copiloto. Los conjuntos de datos de referencia no se utilizan para entrenar un LLM ni para inyectar contexto en una solicitud de LLM, sino para evaluar la calidad de las respuestas que genera el LLM.
Si su escenario implica un copiloto o está creando su propio copiloto, consulte Producir conjuntos de datos dorados para obtener instrucciones detalladas y procedimientos recomendados.