Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.5Migration vers Claude 4.5Dépréciation des modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesFenêtres de contexteMeilleures pratiques de prompting
    Capacités
    Mise en cache des promptsÉdition de contexteRéflexion étendueEffortStreaming de messagesTraitement par lotsCitationsSupport multilingueComptage de tokensEmbeddingsVisionSupport PDFAPI FilesRésultats de rechercheSorties structurées
    Outils
    AperçuComment implémenter l'utilisation d'outilsStreaming d'outils granulaireOutil BashOutil d'exécution de codeAppel d'outils programmatiqueOutil Computer useOutil Éditeur de texteOutil Web fetchOutil Web searchOutil MemoryOutil Tool search
    Agent Skills
    AperçuDémarrage rapideMeilleures pratiquesUtiliser Skills avec l'API
    Agent SDK
    AperçuDémarrage rapideSDK TypeScriptTypeScript V2 (aperçu)SDK PythonGuide de migration
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur des plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-shot)Laisser Claude réfléchir (CoT)Utiliser des balises XMLDonner un rôle à Claude (prompts système)Pré-remplir la réponse de ClaudeChaîner des prompts complexesConseils pour le contexte longConseils pour la réflexion étendue
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminAPI Utilisation et coûtsAPI Claude Code Analytics
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Renforcer les garde-fous

    Atténuer les jailbreaks et les injections de prompt

    Les jailbreaks et les injections de prompt se produisent lorsque les utilisateurs élaborent des prompts pour exploiter les vulnérabilités du modèle, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résistant à de telles attaques, voici des étapes supplémentaires pour renforcer vos garde-fous, particulièrement contre les utilisations qui violent nos Conditions d'utilisation ou notre Politique d'utilisation.

    Claude est beaucoup plus résistant aux jailbreaks que les autres grands LLM, grâce à des méthodes d'entraînement avancées comme l'IA Constitutionnelle.
    • Filtres d'innocuité : Utilisez un modèle léger comme Claude Haiku 3 pour pré-filtrer les entrées des utilisateurs.

    • Validation des entrées : Filtrez les prompts pour détecter les modèles de jailbreaking. Vous pouvez même utiliser un LLM pour créer un filtre de validation généralisé en fournissant des exemples connus de langage de jailbreaking.

    • Ingénierie de prompt : Élaborez des prompts qui mettent l'accent sur les limites éthiques et légales.

    Ajustez les réponses et envisagez de limiter ou de bannir les utilisateurs qui s'engagent de façon répétée dans un comportement abusif tentant de contourner les garde-fous de Claude. Par exemple, si un utilisateur particulier déclenche le même type de refus plusieurs fois (par exemple, "sortie bloquée par la politique de filtrage de contenu"), informez l'utilisateur que ses actions violent les politiques d'utilisation pertinentes et prenez des mesures en conséquence.

    • Surveillance continue : Analysez régulièrement les sorties pour détecter les signes de jailbreaking. Utilisez cette surveillance pour affiner itérativement vos prompts et stratégies de validation.

    Avancé : Protections en chaîne

    Combinez les stratégies pour une protection robuste. Voici un exemple de niveau entreprise avec utilisation d'outils :

    En superposant ces stratégies, vous créez une défense robuste contre les jailbreaks et les injections de prompt, garantissant que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.

    • Avancé : Protections en chaîne
    • Prompt système du bot
    • Prompt dans l'outil harmlessness_screen