Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.6Guide de migrationDépréciation des modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesGérer les raisons d'arrêtBonnes pratiques de prompting
    Capacités du modèle
    Extended thinkingAdaptive thinkingEffortMode rapide (aperçu de recherche)Sorties structuréesCitationsStreaming de messagesTraitement par lotsSupport PDFRésultats de rechercheSupport multilingueEmbeddingsVision
    Outils
    AperçuComment implémenter l'utilisation d'outilsOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil de mémoireOutil BashOutil Computer useOutil d'éditeur de texte
    Infrastructure d'outils
    Recherche d'outilsAppel d'outils programmatiqueStreaming d'outils à granularité fine
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexteMise en cache des promptsComptage des tokens
    Fichiers et ressources
    API Files
    Agent Skills
    AperçuDémarrage rapideBonnes pratiquesSkills pour l'entrepriseUtiliser Skills avec l'API
    Agent SDK
    AperçuDémarrage rapideSDK TypeScriptTypeScript V2 (aperçu)SDK PythonGuide de migration
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur des plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-shots)Laisser Claude réfléchir (CoT)Utiliser des balises XMLDonner un rôle à Claude (prompts système)Chaîner des prompts complexesConseils pour le contexte longConseils pour extended thinking
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminRésidence des donnéesEspaces de travailAPI d'utilisation et de coûtsAPI Claude Code AnalyticsZéro rétention de données
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Renforcer les garde-fous

    Atténuer les jailbreaks et les injections de prompts

    Apprenez à renforcer vos garde-fous contre les jailbreaks et les injections de prompts avec des stratégies de validation, d'ingénierie de prompts et de surveillance continue.

    Les jailbreaks et les injections de prompts se produisent lorsque les utilisateurs créent des prompts pour exploiter les vulnérabilités du modèle, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résilient à ces attaques, voici des étapes supplémentaires pour renforcer vos garde-fous, en particulier contre les utilisations qui violent nos Conditions de service ou notre Politique d'utilisation.

    Claude est beaucoup plus résistant aux jailbreaks que les autres grands LLMs, grâce à des méthodes d'entraînement avancées comme Constitutional AI.
    • Écrans d'innocuité : Utilisez un modèle léger comme Claude Haiku 3 pour pré-filtrer les entrées utilisateur. (Remarque : le pré-remplissage est déprécié et non pris en charge sur Claude Opus 4.6 et Sonnet 4.5.)

    • Validation des entrées : Filtrez les prompts pour les modèles de jailbreak. Vous pouvez même utiliser un LLM pour créer un écran de validation généralisé en fournissant des exemples de langage de jailbreak connu.

    • Ingénierie de prompts : Créez des prompts qui mettent l'accent sur les limites éthiques et légales.

    Ajustez les réponses et envisagez de limiter ou d'interdire les utilisateurs qui s'engagent à plusieurs reprises dans un comportement abusif tentant de contourner les garde-fous de Claude. Par exemple, si un utilisateur particulier déclenche le même type de refus plusieurs fois (par exemple, « résultat bloqué par la politique de filtrage de contenu »), informez l'utilisateur que ses actions violent les politiques d'utilisation pertinentes et prenez les mesures appropriées.

    • Surveillance continue : Analysez régulièrement les résultats pour détecter les signes de jailbreak. Utilisez cette surveillance pour affiner itérativement vos prompts et vos stratégies de validation.

    Avancé : Chaîner les garde-fous

    Combinez les stratégies pour une protection robuste. Voici un exemple de qualité entreprise avec utilisation d'outils :

    En superposant ces stratégies, vous créez une défense robuste contre les jailbreaks et les injections de prompts, en veillant à ce que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.

    Was this page helpful?

    • Avancé : Chaîner les garde-fous
    • Prompt système du bot
    • Prompt dans l'outil harmlessness_screen