Les jailbreaks et les injections de prompts se produisent lorsque les utilisateurs créent des prompts pour exploiter les vulnérabilités du modèle, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résilient à ces attaques, voici des étapes supplémentaires pour renforcer vos garde-fous, en particulier contre les utilisations qui violent nos Conditions de service ou notre Politique d'utilisation.
Écrans d'innocuité : Utilisez un modèle léger comme Claude Haiku 3 pour pré-filtrer les entrées utilisateur. (Remarque : le pré-remplissage est déprécié et non pris en charge sur Claude Opus 4.6 et Sonnet 4.5.)
Validation des entrées : Filtrez les prompts pour les modèles de jailbreak. Vous pouvez même utiliser un LLM pour créer un écran de validation généralisé en fournissant des exemples de langage de jailbreak connu.
Ingénierie de prompts : Créez des prompts qui mettent l'accent sur les limites éthiques et légales.
Ajustez les réponses et envisagez de limiter ou d'interdire les utilisateurs qui s'engagent à plusieurs reprises dans un comportement abusif tentant de contourner les garde-fous de Claude. Par exemple, si un utilisateur particulier déclenche le même type de refus plusieurs fois (par exemple, « résultat bloqué par la politique de filtrage de contenu »), informez l'utilisateur que ses actions violent les politiques d'utilisation pertinentes et prenez les mesures appropriées.
Combinez les stratégies pour une protection robuste. Voici un exemple de qualité entreprise avec utilisation d'outils :
En superposant ces stratégies, vous créez une défense robuste contre les jailbreaks et les injections de prompts, en veillant à ce que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.
Was this page helpful?