Loading...
  • Construire
  • Admin
  • Modèles & tarification
  • SDKs clients
  • Référence API
Search...
⌘K
Log in
Atténuer les jailbreaks
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construire/Renforcer les garde-fous

Atténuer les jailbreaks et les injections de prompts

Apprenez à renforcer vos garde-fous contre les jailbreaks et les injections de prompts avec des stratégies de validation, de modération et de surveillance.

Was this page helpful?

  • Avancé : Chaîner les garde-fous
  • Prompt système du bot
  • Prompt dans l'outil harmlessness_screen

Les jailbreaks et les injections de prompts se produisent lorsque les utilisateurs créent des prompts pour exploiter les vulnérabilités du modèle, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résilient à ces attaques, voici des étapes supplémentaires pour renforcer vos garde-fous, en particulier contre les utilisations qui violent nos Conditions de service ou notre Politique d'utilisation.

  • Écrans de non-nocivité : Utilisez un modèle léger comme Claude Haiku 4.5 pour pré-examiner les entrées des utilisateurs. Utilisez les sorties structurées pour contraindre la réponse à une simple classification.

  • Validation des entrées : Filtrez les prompts pour les modèles de jailbreak. Vous pouvez même utiliser un LLM pour créer un écran de validation généralisé en fournissant le langage de jailbreak connu comme exemples.

  • Ingénierie des prompts : Créez des prompts qui mettent l'accent sur les limites éthiques et légales.

Ajustez les réponses et envisagez de limiter le débit ou d'interdire les utilisateurs qui s'engagent à plusieurs reprises dans un comportement abusif tentant de contourner les garde-fous de Claude. Par exemple, si un utilisateur particulier déclenche le même type de refus plusieurs fois (par exemple, « sortie bloquée par la politique de filtrage de contenu »), informez l'utilisateur que ses actions violent les politiques d'utilisation pertinentes et prenez les mesures appropriées.

  • Surveillance continue : Analysez régulièrement les résultats pour détecter les signes de jailbreak. Utilisez cette surveillance pour affiner itérativement vos prompts et vos stratégies de validation.

Avancé : Chaîner les garde-fous

Combinez les stratégies pour une protection robuste. Voici un exemple de niveau entreprise avec utilisation d'outils :

En superposant ces stratégies, vous créez une défense robuste contre les jailbreaks et les injections de prompts, garantissant que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.