• Messages
  • Agents gérés
  • Administration

Search...
⌘K
Cas d'usage
AperçuRoutage de ticketsAgent de support clientModération de contenuRésumé juridique
Ingénierie de prompts
AperçuBonnes pratiques de promptingPrompting pour Claude Fable 5Prompting pour Claude Opus 4.8Outils de prompting de la Console
Tester et évaluer
Définir le succès et créer des évaluationsUtilisation de l'outil d'évaluation dans la ConsoleRéduire la latence
Renforcer les garde-fous
Réduire les hallucinationsAméliorer la cohérence des sortiesAtténuer les jailbreaksRéduire les fuites de prompt
Référence
Glossaire

Log in
Atténuer les jailbreaks
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Bonnes pratiques/Renforcer les garde-fous

Atténuer les jailbreaks et les injections de prompts

Le « jailbreaking » (contournement des restrictions) et l'injection de prompts sont des tentatives visant à faire ignorer à Claude ses directives ou vos instructions. Bien que Claude soit intrinsèquement résilient face à de telles attaques, les étapes supplémentaires présentées sur cette page renforcent vos garde-fous, en particulier contre les utilisations qui enfreignent nos Conditions d'utilisation ou notre Politique d'utilisation.

Ces attaques se répartissent en deux catégories avec des modèles de menace différents :

  • Jailbreaks et injection directe de prompts, où l'utilisateur de votre application est l'adversaire et élabore des entrées destinées à contourner vos garde-fous.
  • Injection indirecte de prompts, où l'utilisateur est de confiance mais Claude traite du contenu tiers (pages web, e-mails, documents, résultats d'outils) qui contient des instructions malveillantes.

Jailbreaks et injection directe de prompts

Dans ce modèle de menace, un utilisateur élabore délibérément des entrées pour manipuler votre application afin qu'elle produise du contenu ou effectue des actions que vous ne souhaitez pas. Ces mesures d'atténuation renforcent les garde-fous de votre application :

  • Filtres d'innocuité : Utilisez un modèle léger comme Claude Haiku 4.5 pour pré-filtrer les entrées utilisateur avant qu'elles n'atteignent votre conversation principale. Utilisez les sorties structurées pour contraindre la réponse à une classification simple.

  • Validation des entrées : Filtrez les entrées utilisateur pour détecter les schémas d'injection connus avant qu'elles n'atteignent Claude. Vous pouvez utiliser un LLM pour créer un filtre de validation généralisé en fournissant des exemples de langage de jailbreaking connu.

  • Ingénierie de prompts : Rédigez des invites système qui mettent l'accent sur les limites éthiques et légales, et qui indiquent explicitement à Claude comment refuser.

  • Réagir aux récidivistes : Adaptez les réponses et envisagez de limiter ou de bannir les utilisateurs qui tentent de manière répétée de contourner les garde-fous de votre application. Par exemple, si un utilisateur particulier déclenche plusieurs fois le même type de refus (tel que « sortie bloquée par la politique de filtrage de contenu »), informez l'utilisateur que ses actions enfreignent les politiques d'utilisation applicables et agissez en conséquence.

Injection indirecte de prompts

Dans ce modèle de menace, vous protégez vos utilisateurs contre des instructions intégrées dans du contenu que Claude lit en leur nom : le corps d'un e-mail entrant, une page web récupérée, une sortie OCR d'un fichier téléversé, ou le résultat d'un appel d'outil. Un attaquant capable d'influencer ce contenu peut y intégrer des instructions qui tentent de rediriger Claude.

Structurez votre application de manière à ce que Claude puisse distinguer de façon fiable le contenu non fiable de vos instructions :

  • Placez le contenu non fiable uniquement dans les résultats d'outils. Transmettez le contenu tiers à Claude à l'intérieur de blocs tool_result, jamais dans des invites system ou des blocs text utilisateur simples. Claude est entraîné à traiter les instructions qui apparaissent dans les résultats d'outils avec un scepticisme approprié. Consultez Gérer les appels d'outils pour le format tool_result.

  • Indiquez à Claude ce qu'est le contenu et d'où il provient. Dans la description de l'outil, ou dans la structure du résultat lui-même, rendez explicites la nature et la source du contenu : par exemple, qu'il s'agit du corps d'un e-mail entrant provenant d'un expéditeur inconnu, ou de texte OCR extrait d'une image téléversée par l'utilisateur. Ce contexte aide Claude à calibrer le niveau de confiance à accorder aux directives intégrées.

  • Énoncez la politique dans votre invite système. Indiquez explicitement à Claude que le contenu renvoyé par les outils, documents ou recherches constitue des données non fiables et ne doit jamais prévaloir sur l'invite système ou la demande initiale de l'utilisateur.


Si vous utilisez l'outil d'utilisation d'ordinateur, Anthropic exécute des classificateurs supplémentaires qui détectent les injections de prompts potentielles dans les captures d'écran et orientent Claude pour qu'il demande une confirmation à l'utilisateur avant d'agir. Consultez cette page pour plus de détails et pour les informations de désactivation.

Surveillance continue

Analysez régulièrement les sorties pour détecter des signes d'injection réussie. Utilisez cette surveillance pour affiner de manière itérative vos prompts, votre validation et vos stratégies de filtrage.

Avancé : Enchaîner les protections

Combinez les stratégies pour une protection robuste. Voici un exemple de niveau entreprise avec utilisation d'outils :

En superposant ces stratégies, vous créez une défense robuste contre le jailbreaking et les injections de prompts, garantissant que vos applications basées sur Claude maintiennent les normes les plus élevées de sécurité et de conformité.

Was this page helpful?

  • Jailbreaks et injection directe de prompts
  • Injection indirecte de prompts
  • Surveillance continue
  • Avancé : Enchaîner les protections
  • Invite système du bot
  • Prompt dans l'outil harmlessness_screen
  • Encodez le contenu non fiable en JSON. Dans la mesure du possible, encapsulez les chaînes tierces dans un objet JSON plutôt que de les concaténer dans du texte libre. L'échappement JSON fournit des délimiteurs non ambigus entre la charge utile non fiable et la structure environnante, de sorte qu'un attaquant ne peut pas fermer un guillemet ou une balise pour « s'échapper » vers un contexte d'instruction.

  • Ne placez pas vos propres instructions dans les résultats d'outils. Étant donné que Claude traite le contenu des résultats d'outils comme des données non fiables, les instructions que vous y placez peuvent être ignorées ou signalées comme une injection potentielle. Envoyez vos instructions dans un tour user qui suit le bloc tool_result. Sur Claude Opus 4.8 et versions ultérieures, vous pouvez également utiliser un message système en milieu de conversation.

  • Limitez l'accès de Claude aux données et actions sensibles. Appliquez le principe du moindre privilège afin qu'une injection réussie ne puisse causer que des dommages minimes : ne donnez pas à Claude accès à des secrets dont il n'a pas besoin, exécutez les outils dans des environnements isolés (sandbox), et restreignez les permissions autant que possible.

  • Filtrez les sorties d'outils avant que Claude n'agisse sur elles. Appliquez le même schéma de filtrage par modèle léger que vous utilisez pour les entrées utilisateur au contenu renvoyé par vos outils. Exécutez chaque outil, transmettez sa sortie brute à un petit appel de classification avec Claude Haiku 4.5, et ne renvoyez le contenu sous forme de bloc tool_result que si le filtre ne signale aucune tentative d'injection. Utilisez les sorties structurées afin que le verdict du classificateur soit une valeur analysable sur laquelle votre application peut se baser pour prendre des décisions.

    Vous pouvez également appliquer les schémas de validation des entrées de la section précédente aux résultats d'outils avant de les transmettre à Claude.

  • Testez votre propre agent en conditions adverses (red-teaming). Avant le déploiement, testez votre flux de travail avec des documents, des e-mails et des sorties d'outils contenant délibérément des tentatives d'injection, et confirmez que Claude les ignore et que vos étapes de filtrage et de confirmation détectent le reste.