Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.6Guide de migrationDépréciation des modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesGérer les raisons d'arrêtMeilleures pratiques de prompting
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexte
    Capacités
    Mise en cache des promptsRéflexion étendueRéflexion adaptativeEffortStreaming de messagesTraitement par lotsCitationsSupport multilingueComptage des tokensEmbeddingsVisionSupport PDFAPI FilesRésultats de rechercheSorties structurées
    Outils
    AperçuComment implémenter l'utilisation d'outilsStreaming d'outils granulaireOutil BashOutil d'exécution de codeAppel d'outils programmatiqueOutil Computer useOutil Éditeur de texteOutil Web fetchOutil Web searchOutil MémoireOutil Tool search
    Compétences d'agent
    AperçuDémarrage rapideMeilleures pratiquesCompétences pour l'entrepriseUtiliser les compétences avec l'API
    SDK Agent
    AperçuDémarrage rapideSDK TypeScriptTypeScript V2 (aperçu)SDK PythonGuide de migration
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur les plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser les modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-coups)Laisser Claude réfléchir (CoT)Utiliser les balises XMLDonner un rôle à Claude (prompts système)Enchaîner les prompts complexesConseils pour le contexte longConseils pour la réflexion étendue
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminRésidence des donnéesEspaces de travailAPI d'utilisation et de coûtsAPI Claude Code AnalyticsRétention zéro des données
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Renforcer les garde-fous

    Atténuer les jailbreaks et les injections de prompts

    Apprenez à renforcer vos garde-fous contre les jailbreaks et les injections de prompts avec des stratégies de validation, d'ingénierie de prompts et de surveillance continue.

    Les jailbreaks et les injections de prompts se produisent lorsque les utilisateurs créent des prompts pour exploiter les vulnérabilités du modèle, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résilient à ces attaques, voici des étapes supplémentaires pour renforcer vos garde-fous, en particulier contre les utilisations qui violent nos Conditions de service ou notre Politique d'utilisation.

    Claude est beaucoup plus résistant aux jailbreaks que les autres grands LLMs, grâce à des méthodes d'entraînement avancées comme Constitutional AI.
    • Écrans d'innocuité : Utilisez un modèle léger comme Claude Haiku 3 pour pré-filtrer les entrées utilisateur. (Remarque : le pré-remplissage est déprécié et non pris en charge sur Claude Opus 4.6 et Sonnet 4.5.)

    • Validation des entrées : Filtrez les prompts pour les modèles de jailbreak. Vous pouvez même utiliser un LLM pour créer un écran de validation généralisé en fournissant des exemples de langage de jailbreak connu.

    • Ingénierie de prompts : Créez des prompts qui mettent l'accent sur les limites éthiques et légales.

    Ajustez les réponses et envisagez de limiter ou d'interdire les utilisateurs qui s'engagent à plusieurs reprises dans un comportement abusif tentant de contourner les garde-fous de Claude. Par exemple, si un utilisateur particulier déclenche le même type de refus plusieurs fois (par exemple, « résultat bloqué par la politique de filtrage de contenu »), informez l'utilisateur que ses actions violent les politiques d'utilisation pertinentes et prenez les mesures appropriées.

    • Surveillance continue : Analysez régulièrement les résultats pour détecter les signes de jailbreak. Utilisez cette surveillance pour affiner itérativement vos prompts et vos stratégies de validation.

    Avancé : Chaîner les garde-fous

    Combinez les stratégies pour une protection robuste. Voici un exemple de qualité entreprise avec utilisation d'outils :

    En superposant ces stratégies, vous créez une défense robuste contre les jailbreaks et les injections de prompts, en veillant à ce que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.

    Was this page helpful?

    • Avancé : Chaîner les garde-fous
    • Prompt système du bot
    • Prompt dans l'outil harmlessness_screen