Después de definir tus criterios de éxito, el siguiente paso es diseñar evaluaciones para medir el rendimiento del LLM contra esos criterios. Esta es una parte vital del ciclo de ingeniería de prompts.

Esta guía se enfoca en cómo desarrollar tus casos de prueba.
Al decidir qué método usar para calificar evaluaciones, elige el método más rápido, más confiable y más escalable:
Calificación basada en código: Más rápida y más confiable, extremadamente escalable, pero también carece de matices para juicios más complejos que requieren menos rigidez basada en reglas.
output == golden_answerkey_phrase in outputCalificación humana: Más flexible y de alta calidad, pero lenta y costosa. Evitar si es posible.
Calificación basada en LLM: Rápida y flexible, escalable y adecuada para juicios complejos. Prueba para asegurar confiabilidad primero y luego escala.
Más ejemplos de código de evaluaciones calificadas por humanos, código y LLM.