Après avoir défini vos critères de succès, l'étape suivante consiste à concevoir des évaluations pour mesurer les performances du LLM par rapport à ces critères. C'est une partie vitale du cycle d'ingénierie des prompts.

Ce guide se concentre sur la façon de développer vos cas de test.
Lorsque vous décidez quelle méthode utiliser pour noter les évaluations, choisissez la méthode la plus rapide, la plus fiable et la plus évolutive :
Notation basée sur le code : La plus rapide et la plus fiable, extrêmement évolutive, mais manque aussi de nuance pour des jugements plus complexes qui nécessitent moins de rigidité basée sur des règles.
output == golden_answerkey_phrase in outputNotation humaine : La plus flexible et de haute qualité, mais lente et coûteuse. À éviter si possible.
Notation basée sur LLM : Rapide et flexible, évolutive et adaptée aux jugements complexes. Testez d'abord pour assurer la fiabilité puis mettez à l'échelle.
Plus d'exemples de code d'évaluations notées par des humains, du code et des LLM.