Créer des évaluations empiriques solides

Construire des évaluations et des cas de test

Principes de conception des évaluations

Être spécifique à la tâche : Concevez des évaluations qui reflètent votre distribution de tâches du monde réel. N'oubliez pas de prendre en compte les cas limites !

Automatiser quand c'est possible : Structurez les questions pour permettre une notation automatisée (par exemple, choix multiples, correspondance de chaîne, notation par code, notation par LLM).

Prioriser le volume sur la qualité : Plus de questions avec une notation automatisée de signal légèrement inférieur est mieux que moins de questions avec des évaluations manuelles de haute qualité notées par des humains.

Exemples d'évaluations

Écrire des centaines de cas de test peut être difficile à faire à la main ! Demandez à Claude de vous aider à en générer plus à partir d'un ensemble de base d'exemples de cas de test.

Si vous ne savez pas quelles méthodes d'évaluation pourraient être utiles pour évaluer vos critères de succès, vous pouvez aussi faire un brainstorming avec Claude !

Noter les évaluations

Lorsque vous décidez quelle méthode utiliser pour noter les évaluations, choisissez la méthode la plus rapide, la plus fiable et la plus évolutive :

Notation basée sur le code : La plus rapide et la plus fiable, extrêmement évolutive, mais manque aussi de nuance pour des jugements plus complexes qui nécessitent moins de rigidité basée sur des règles.

Correspondance exacte : output == golden_answer
Correspondance de chaîne : key_phrase in output

Notation humaine : La plus flexible et de haute qualité, mais lente et coûteuse. À éviter si possible.

Notation basée sur LLM : Rapide et flexible, évolutive et adaptée aux jugements complexes. Testez d'abord pour assurer la fiabilité puis mettez à l'échelle.

Conseils pour la notation basée sur LLM

Avoir des rubriques détaillées et claires : "La réponse devrait toujours mentionner 'Acme Inc.' dans la première phrase. Si ce n'est pas le cas, la réponse est automatiquement notée comme 'incorrecte'."

Un cas d'usage donné, ou même un critère de succès spécifique pour ce cas d'usage, pourrait nécessiter plusieurs rubriques pour une évaluation holistique.

Empirique ou spécifique : Par exemple, instruisez le LLM de sortir seulement 'correct' ou 'incorrect', ou de juger sur une échelle de 1-5. Les évaluations purement qualitatives sont difficiles à évaluer rapidement et à grande échelle.

Encourager le raisonnement : Demandez au LLM de réfléchir d'abord avant de décider d'un score d'évaluation, puis écartez le raisonnement. Cela augmente les performances d'évaluation, particulièrement pour les tâches nécessitant un jugement complexe.

Construire des évaluations et des cas de test

Principes de conception des évaluations

Exemples de cas limites

Exemples d'évaluations

Fidélité de tâche (analyse de sentiment) - évaluation de correspondance exacte

Noter les évaluations

Conseils pour la notation basée sur LLM

Exemple : Notation basée sur LLM

Prochaines étapes

Cohérence (bot FAQ) - évaluation de similarité cosinus

Pertinence et cohérence (résumé) - évaluation ROUGE-L

Ton et style (service client) - échelle de Likert basée sur LLM

Préservation de la confidentialité (chatbot médical) - classification binaire basée sur LLM

Utilisation du contexte (assistant de conversation) - échelle ordinale basée sur LLM