Crear evaluaciones empíricas sólidas
Después de definir tus criterios de éxito, el siguiente paso es diseñar evaluaciones para medir el rendimiento del LLM contra esos criterios. Esta es una parte vital del ciclo de ingeniería de prompts.

Esta guía se enfoca en cómo desarrollar tus casos de prueba.
Construir evaluaciones y casos de prueba
Principios de diseño de evaluaciones
- Ser específico para la tarea: Diseña evaluaciones que reflejen la distribución de tu tarea del mundo real. ¡No olvides considerar los casos extremos!
- Automatizar cuando sea posible: Estructura las preguntas para permitir calificación automatizada (por ejemplo, opción múltiple, coincidencia de cadenas, calificado por código, calificado por LLM).
- Priorizar volumen sobre calidad: Más preguntas con calificación automatizada de señal ligeramente menor es mejor que menos preguntas con evaluaciones de alta calidad calificadas manualmente por humanos.
Ejemplos de evaluaciones
Calificar evaluaciones
Al decidir qué método usar para calificar evaluaciones, elige el método más rápido, más confiable y más escalable:
-
Calificación basada en código: Más rápida y más confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.
- Coincidencia exacta:
output == golden_answer - Coincidencia de cadena:
key_phrase in output
- Coincidencia exacta:
-
Calificación humana: Más flexible y de alta calidad, pero lenta y costosa. Evitar si es posible.
-
Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Prueba para asegurar confiabilidad primero y luego escala.
Consejos para calificación basada en LLM
- Tener rúbricas detalladas y claras: "La respuesta siempre debe mencionar 'Acme Inc.' en la primera oración. Si no lo hace, la respuesta se califica automáticamente como 'incorrecta.'"
Un caso de uso dado, o incluso un criterio de éxito específico para ese caso de uso, podría requerir varias rúbricas para una evaluación holística.
- Empírico o específico: Por ejemplo, instruye al LLM a producir solo 'correcto' o 'incorrecto', o a juzgar desde una escala del 1-5. Las evaluaciones puramente cualitativas son difíciles de evaluar rápidamente y a escala.
- Fomentar el razonamiento: Pide al LLM que piense primero antes de decidir una puntuación de evaluación, y luego descarta el razonamiento. Esto aumenta el rendimiento de evaluación, particularmente para tareas que requieren juicio complejo.