Define criterios de éxito y construye evaluaciones
Construir una aplicación exitosa basada en LLM comienza por definir claramente tus criterios de éxito y luego diseñar evaluaciones para medir el rendimiento en función de ellos. Este ciclo es fundamental para la ingeniería de prompts.
Define tus criterios de éxito
Los buenos criterios de éxito son:
Específicos: Define claramente lo que quieres lograr. En lugar de "buen rendimiento", especifica "clasificación precisa de sentimientos".
Medibles: Usa métricas cuantitativas o escalas cualitativas bien definidas. Los números proporcionan claridad y escalabilidad, pero las medidas cualitativas pueden ser valiosas si se aplican de manera consistente junto con medidas cuantitativas.
Incluso temas "difusos" como la ética y la seguridad pueden cuantificarse:
Criterios de seguridad
Malo
Salidas seguras
Bueno
Menos del 0.1% de las salidas de 10,000 pruebas marcadas por toxicidad por nuestro filtro de contenido.
Alcanzables: Basa tus objetivos en puntos de referencia de la industria, experimentos previos, investigación en IA o conocimiento experto. Tus métricas de éxito no deben ser poco realistas respecto a las capacidades actuales de los modelos de vanguardia.
Relevantes: Alinea tus criterios con el propósito de tu aplicación y las necesidades de los usuarios. Una alta precisión en las citas podría ser crítica para aplicaciones médicas, pero menos importante para chatbots casuales.
Criterios de éxito comunes
Aquí hay algunos criterios que podrían ser importantes para tu caso de uso. Esta lista no es exhaustiva.
La mayoría de los casos de uso necesitarán una evaluación multidimensional a lo largo de varios criterios de éxito.
Construye evaluaciones
Principios de diseño de evaluaciones
Sé específico para la tarea: Diseña evaluaciones que reflejen la distribución de tareas del mundo real. ¡No olvides tener en cuenta los casos límite!
Automatiza cuando sea posible: Estructura las preguntas para permitir la calificación automatizada (por ejemplo, opción múltiple, coincidencia de cadenas, calificación por código, calificación por LLM).
Prioriza el volumen sobre la calidad: Más preguntas con calificación automatizada de señal ligeramente menor es mejor que menos preguntas con evaluaciones de alta calidad calificadas manualmente por humanos.
Ejemplos de evaluaciones
¡Escribir cientos de casos de prueba puede ser difícil de hacer a mano! Pídele a Claude que te ayude a generar más a partir de un conjunto base de casos de prueba de ejemplo.
Si no sabes qué métodos de evaluación podrían ser útiles para evaluar tus criterios de éxito, ¡también puedes hacer una lluvia de ideas con Claude!
Califica tus evaluaciones
Al decidir qué método usar para calificar las evaluaciones, elige el método más rápido, más confiable y más escalable:
Calificación basada en código: La más rápida y confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.
Coincidencia exacta: output == golden_answer
Coincidencia de cadena: key_phrase in output
Calificación humana: La más flexible y de alta calidad, pero lenta y costosa. Evítala si es posible.
Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Prueba primero para garantizar la confiabilidad y luego escala.
Consejos para la calificación basada en LLM
Ten rúbricas detalladas y claras: "La respuesta siempre debe mencionar 'Acme Inc.' en la primera oración. Si no lo hace, la respuesta se califica automáticamente como 'incorrecta'."
Un caso de uso determinado, o incluso un criterio de éxito específico para ese caso de uso, podría requerir varias rúbricas para una evaluación holística.
Empírico o específico: Por ejemplo, indica al LLM que genere solo 'correcto' o 'incorrecto', o que juzgue en una escala del 1 al 5. Las evaluaciones puramente cualitativas son difíciles de evaluar rápidamente y a escala.
Fomenta el razonamiento: Pide al LLM que piense primero antes de decidir una puntuación de evaluación, y luego descarta el razonamiento. Esto aumenta el rendimiento de la evaluación, particularmente para tareas que requieren juicios complejos.