Loading...
  • Costruisci
  • Amministrazione
  • Modelli e prezzi
  • Client SDK
  • Riferimento API
Search...
⌘K
Log in
Mitigare i jailbreak
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Costruisci/Rafforzare i guardrail

Mitigare i jailbreak e le iniezioni di prompt

Scopri come proteggere le tue applicazioni Claude da jailbreak e iniezioni di prompt con strategie di validazione, screening e monitoraggio.

Was this page helpful?

  • Avanzate: Protezioni a catena
  • Prompt di sistema del bot
  • Prompt all'interno dello strumento harmlessness_screen

I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l'obiettivo di generare contenuti inappropriati. Sebbene Claude sia intrinsecamente resiliente a tali attacchi, ecco alcuni passaggi aggiuntivi per rafforzare le tue protezioni, in particolare contro gli usi che violano i nostri Termini di servizio o la Politica di utilizzo.

  • Schermi di innocuità: Utilizza un modello leggero come Claude Haiku 4.5 per pre-filtrare gli input degli utenti. Utilizza output strutturati per vincolare la risposta a una semplice classificazione.

  • Validazione dell'input: Filtra i prompt per i modelli di jailbreak. Puoi persino utilizzare un LLM per creare uno schermo di validazione generalizzato fornendo il linguaggio di jailbreak noto come esempi.

  • Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.

Adatta le risposte e considera di limitare la velocità o bannare gli utenti che si impegnano ripetutamente in comportamenti abusivi nel tentativo di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva lo stesso tipo di rifiuto più volte (ad esempio, "output bloccato dalla politica di filtro dei contenuti"), comunica all'utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.

  • Monitoraggio continuo: Analizza regolarmente gli output per i segni di jailbreak. Utilizza questo monitoraggio per affinare iterativamente i tuoi prompt e le tue strategie di validazione.

Avanzate: Protezioni a catena

Combina strategie per una protezione robusta. Ecco un esempio di livello aziendale con l'uso di strumenti:

Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.