Construire une application réussie basée sur un LLM commence par définir clairement vos critères de succès, puis concevoir des évaluations pour mesurer les performances par rapport à ces critères. Ce cycle est central à l'ingénierie des invites.

Les bons critères de succès sont :
Spécifiques : Définissez clairement ce que vous voulez réaliser. Au lieu de « bonnes performances », spécifiez « classification précise des sentiments ».
Mesurables : Utilisez des métriques quantitatives ou des échelles qualitatives bien définies. Les chiffres offrent de la clarté et de la scalabilité, mais les mesures qualitatives peuvent être précieuses si elles sont appliquées de manière cohérente en même temps que les mesures quantitatives.
| Critères de sécurité | |
|---|---|
| Mauvais | Sorties sûres |
| Bon | Moins de 0,1 % des sorties sur 10 000 essais signalées comme toxiques par notre filtre de contenu. |
Réalisables : Basez vos objectifs sur les références de l'industrie, les expériences antérieures, la recherche en IA ou les connaissances d'experts. Vos métriques de succès ne doivent pas être irréalistes par rapport aux capacités actuelles des modèles de pointe.
Pertinents : Alignez vos critères avec l'objectif de votre application et les besoins des utilisateurs. Une précision de citation forte pourrait être critique pour les applications médicales mais moins importante pour les chatbots occasionnels.
Voici quelques critères qui pourraient être importants pour votre cas d'usage. Cette liste n'est pas exhaustive.
La plupart des cas d'usage nécessiteront une évaluation multidimensionnelle selon plusieurs critères de succès.
Lorsque vous décidez quelle méthode utiliser pour noter les évaluations, choisissez la méthode la plus rapide, la plus fiable et la plus scalable :
Notation basée sur le code : La plus rapide et la plus fiable, extrêmement scalable, mais manque aussi de nuance pour les jugements plus complexes qui nécessitent moins de rigidité basée sur des règles.
output == golden_answerkey_phrase in outputNotation humaine : La plus flexible et de haute qualité, mais lente et coûteuse. À éviter si possible.
Notation basée sur LLM : Rapide et flexible, scalable et appropriée pour les jugements complexes. Testez d'abord pour assurer la fiabilité, puis mettez à l'échelle.
Brainstormez les critères de succès pour votre cas d'usage avec Claude sur claude.ai.
Conseil : Déposez cette page dans le chat comme guide pour Claude !
Was this page helpful?
Plus d'exemples de code d'évaluations notées par des humains, par code et par LLM.