• Messages
  • Agents gérés
  • Administration

Search...
⌘K
Cas d'usage
AperçuRoutage de ticketsAgent de support clientModération de contenuSynthèse juridique
Ingénierie de prompts
AperçuBonnes pratiques de promptingPrompting de Claude Fable 5Prompting de Claude Opus 4.8Outils de prompting de la Console
Tester et évaluer
Définir le succès et créer des évaluationsUtilisation de l'outil d'évaluation dans la ConsoleRéduire la latence
Renforcer les garde-fous
Réduire les hallucinationsAméliorer la cohérence des sortiesAtténuer les jailbreaksRéduire les fuites de prompt
Référence
Glossaire

Log in
Définir le succès et créer des évaluations
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Bonnes pratiques/Tester et évaluer

Définir des critères de réussite et créer des évaluations

La création d'une application réussie basée sur un LLM commence par une définition claire de vos critères de réussite, puis par la conception d'évaluations permettant de mesurer les performances par rapport à ces critères. Ce cycle est au cœur de l'ingénierie de prompts.

Organigramme de l'ingénierie de prompts : cas de test, prompt préliminaire, tests et affinements itératifs, validation finale, mise en production

Définir vos critères de réussite

De bons critères de réussite sont :

  • Spécifiques : Définissez clairement ce que vous souhaitez accomplir. Au lieu de « bonnes performances », précisez « classification précise des sentiments ».

  • Mesurables : Utilisez des métriques quantitatives ou des échelles qualitatives bien définies. Les chiffres apportent clarté et évolutivité, mais les mesures qualitatives peuvent être précieuses si elles sont appliquées de manière cohérente en complément des mesures quantitatives.

    • Même des sujets « flous » comme l'éthique et la sécurité peuvent être quantifiés :
      Critères de sécurité
      MauvaisSorties sûres
      BonMoins de 0,1 % des sorties sur 10 000 essais signalées comme toxiques par notre filtre de contenu.

  • Atteignables : Basez vos objectifs sur des références du secteur, des expériences antérieures, la recherche en IA ou des connaissances d'experts. Vos métriques de réussite ne doivent pas être irréalistes par rapport aux capacités actuelles des modèles de pointe.

  • Pertinents : Alignez vos critères sur l'objectif de votre application et les besoins des utilisateurs. Une grande précision des citations peut être essentielle pour les applications médicales, mais moins pour les chatbots informels.

Critères de réussite courants

Voici quelques critères qui pourraient être importants pour votre cas d'usage. Cette liste n'est pas exhaustive.

La plupart des cas d'usage nécessiteront une évaluation multidimensionnelle selon plusieurs critères de réussite.


Créer des évaluations

Principes de conception des évaluations

  1. Soyez spécifique à la tâche : Concevez des évaluations qui reflètent la distribution réelle de vos tâches. N'oubliez pas de prendre en compte les cas limites !

  2. Automatisez lorsque c'est possible : Structurez les questions de manière à permettre une notation automatisée (par exemple, choix multiples, correspondance de chaînes, notation par code, notation par LLM).
  3. Privilégiez le volume à la qualité : Un plus grand nombre de questions avec une notation automatisée au signal légèrement inférieur vaut mieux qu'un nombre réduit de questions avec des évaluations de haute qualité notées manuellement par des humains.

Exemples d'évaluations


Rédiger des centaines de cas de test peut être difficile à faire manuellement ! Demandez à Claude de vous aider à en générer davantage à partir d'un ensemble de base d'exemples de cas de test.

Si vous ne savez pas quelles méthodes d'évaluation pourraient être utiles pour évaluer vos critères de réussite, vous pouvez également réfléchir avec Claude !

Noter vos évaluations

Lorsque vous décidez quelle méthode utiliser pour noter les évaluations, choisissez la méthode la plus rapide, la plus fiable et la plus évolutive :

  1. Notation par code : La plus rapide et la plus fiable, extrêmement évolutive, mais manque également de nuance pour les jugements plus complexes qui nécessitent moins de rigidité basée sur des règles.

    • Correspondance exacte : output == golden_answer
    • Correspondance de chaîne : key_phrase in output
  2. Notation humaine : La plus flexible et de haute qualité, mais lente et coûteuse. À éviter si possible.

  3. Notation par LLM : Rapide et flexible, évolutive et adaptée aux jugements complexes. Testez d'abord pour garantir la fiabilité, puis passez à l'échelle.

Conseils pour la notation par LLM

  • Ayez des grilles détaillées et claires : « La réponse doit toujours mentionner "Acme Inc." dans la première phrase. Si ce n'est pas le cas, la réponse est automatiquement notée comme "incorrecte". »
    
    Un cas d'usage donné, ou même un critère de réussite spécifique pour ce cas d'usage, peut nécessiter plusieurs grilles pour une évaluation holistique.
  • Empirique ou spécifique : Par exemple, demandez au LLM de produire uniquement « correct » ou « incorrect », ou de juger sur une échelle de 1 à 5. Les évaluations purement qualitatives sont difficiles à évaluer rapidement et à grande échelle.
  • Encouragez le raisonnement : Demandez au LLM de réfléchir d'abord avant de décider d'un score d'évaluation, puis écartez le raisonnement. Cela améliore les performances d'évaluation, en particulier pour les tâches nécessitant un jugement complexe.

Prochaines étapes


Réfléchir aux critères


Réfléchissez aux critères de réussite pour votre cas d'usage avec Claude sur claude.ai.

Conseil : Déposez cette page dans le chat comme guide pour Claude !


Cookbook d'évaluations


Plus d'exemples de code d'évaluations notées par des humains, par code et par LLM.

Was this page helpful?

  • Définir vos critères de réussite
  • Critères de réussite courants
  • Créer des évaluations
  • Principes de conception des évaluations
  • Exemples d'évaluations
  • Noter vos évaluations
  • Conseils pour la notation par LLM
  • Prochaines étapes