Loading...
    • Créer
    • Admin
    • Modèles et tarification
    • SDK clients
    • Référence API
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesCompétence Claude APIGérer les raisons d'arrêt
    Capacités du modèle
    Extended thinkingAdaptive thinkingEffortBudgets de tâches (bêta)Mode rapide (bêta : aperçu de recherche)Sorties structuréesCitationsMessages en continuTraitement par lotsRésultats de rechercheRefus en continuSupport multilingueEmbeddings
    Outils
    AperçuFonctionnement de l'utilisation des outilsOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil AdvisorOutil MemoryOutil BashOutil Computer useOutil Éditeur de texte
    Infrastructure des outils
    Référence des outilsRecherche d'outilsAppel programmatique des outilsStreaming granulaire des outils
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexteMise en cache des invitesComptage des tokens
    Travailler avec des fichiers
    API FilesSupport PDFImages et vision
    Compétences
    AperçuDémarrage rapideMeilleures pratiquesCompétences pour l'entrepriseCompétences dans l'API
    MCP
    Serveurs MCP distantsConnecteur MCP
    Ingénierie des invites
    AperçuMeilleures pratiques d'invitesOutils d'invites Console
    Tester et évaluer
    Définir le succès et créer des évaluationsUtiliser l'outil d'évaluation dans ConsoleRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRéduire les fuites d'invites
    Ressources
    Glossaire
    Notes de version
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Tester et évaluer

    Définir les critères de succès et construire des évaluations

    Apprenez à définir des critères de succès clairs et à concevoir des évaluations pour mesurer les performances de votre application LLM.

    Construire une application réussie basée sur un LLM commence par définir clairement vos critères de succès, puis concevoir des évaluations pour mesurer les performances par rapport à ces critères. Ce cycle est central à l'ingénierie des invites.

    Organigramme de l'ingénierie des invites : cas de test, invite préliminaire, test et raffinement itératifs, validation finale, déploiement

    Définir vos critères de succès

    Les bons critères de succès sont :

    • Spécifiques : Définissez clairement ce que vous voulez réaliser. Au lieu de « bonnes performances », spécifiez « classification précise des sentiments ».

    • Mesurables : Utilisez des métriques quantitatives ou des échelles qualitatives bien définies. Les chiffres offrent de la clarté et de la scalabilité, mais les mesures qualitatives peuvent être précieuses si elles sont appliquées de manière cohérente en même temps que les mesures quantitatives.

      • Même les sujets « flous » comme l'éthique et la sécurité peuvent être quantifiés :
        Critères de sécurité
        MauvaisSorties sûres
        BonMoins de 0,1 % des sorties sur 10 000 essais signalées comme toxiques par notre filtre de contenu.

    • Réalisables : Basez vos objectifs sur les références de l'industrie, les expériences antérieures, la recherche en IA ou les connaissances d'experts. Vos métriques de succès ne doivent pas être irréalistes par rapport aux capacités actuelles des modèles de pointe.

    • Pertinents : Alignez vos critères avec l'objectif de votre application et les besoins des utilisateurs. Une précision de citation forte pourrait être critique pour les applications médicales mais moins importante pour les chatbots occasionnels.

    Critères de succès courants

    Voici quelques critères qui pourraient être importants pour votre cas d'usage. Cette liste n'est pas exhaustive.

    La plupart des cas d'usage nécessiteront une évaluation multidimensionnelle selon plusieurs critères de succès.


    Construire des évaluations

    Principes de conception des évaluations

    1. Être spécifique à la tâche : Concevez des évaluations qui reflètent votre distribution de tâches réelle. N'oubliez pas de tenir compte des cas limites !

    2. Automatiser quand possible : Structurez les questions pour permettre une notation automatisée (par exemple, choix multiples, correspondance de chaîne, notation par code, notation par LLM).
    3. Prioriser le volume à la qualité : Plus de questions avec une notation automatisée légèrement moins précise est mieux que moins de questions avec des évaluations de haute qualité notées à la main par des humains.

    Exemples d'évaluations

    Écrire des centaines de cas de test à la main peut être difficile ! Demandez à Claude de vous aider à en générer d'autres à partir d'un ensemble de base de cas de test d'exemple.
    Si vous ne savez pas quelles méthodes d'évaluation pourraient être utiles pour évaluer vos critères de succès, vous pouvez aussi faire un brainstorming avec Claude !

    Noter vos évaluations

    Lorsque vous décidez quelle méthode utiliser pour noter les évaluations, choisissez la méthode la plus rapide, la plus fiable et la plus scalable :

    1. Notation basée sur le code : La plus rapide et la plus fiable, extrêmement scalable, mais manque aussi de nuance pour les jugements plus complexes qui nécessitent moins de rigidité basée sur des règles.

      • Correspondance exacte : output == golden_answer
      • Correspondance de chaîne : key_phrase in output
    2. Notation humaine : La plus flexible et de haute qualité, mais lente et coûteuse. À éviter si possible.

    3. Notation basée sur LLM : Rapide et flexible, scalable et appropriée pour les jugements complexes. Testez d'abord pour assurer la fiabilité, puis mettez à l'échelle.

    Conseils pour la notation basée sur LLM

    • Avoir des rubriques détaillées et claires : « La réponse doit toujours mentionner 'Acme Inc.' dans la première phrase. Si ce n'est pas le cas, la réponse est automatiquement notée comme 'incorrecte'. »
      Un cas d'usage donné, ou même un critère de succès spécifique pour ce cas d'usage, pourrait nécessiter plusieurs rubriques pour une évaluation holistique.
    • Empirique ou spécifique : Par exemple, instruisez le LLM de produire uniquement « correct » ou « incorrect », ou de juger sur une échelle de 1 à 5. Les évaluations purement qualitatives sont difficiles à évaluer rapidement et à l'échelle.
    • Encourager le raisonnement : Demandez au LLM de réfléchir d'abord avant de décider d'un score d'évaluation, puis jetez le raisonnement. Cela augmente les performances d'évaluation, en particulier pour les tâches nécessitant un jugement complexe.

    Prochaines étapes

    Brainstormer les critères

    Brainstormez les critères de succès pour votre cas d'usage avec Claude sur claude.ai.

    Conseil : Déposez cette page dans le chat comme guide pour Claude !

    Was this page helpful?

    • Définir vos critères de succès
    • Critères de succès courants
    • Construire des évaluations
    • Principes de conception des évaluations
    • Exemples d'évaluations
    • Noter vos évaluations
    • Conseils pour la notation basée sur LLM
    • Prochaines étapes

    Cookbook des évaluations

    Plus d'exemples de code d'évaluations notées par des humains, par code et par LLM.