Rafforza i guardrail

Mitigare i jailbreak e le iniezioni di prompt

Scopri come proteggere le tue applicazioni Claude dai jailbreak e dalle iniezioni di prompt con strategie di validazione, ingegneria dei prompt e monitoraggio continuo.

I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l'obiettivo di generare contenuti inappropriati. Sebbene Claude sia intrinsecamente resiliente a tali attacchi, ecco alcuni passaggi aggiuntivi per rafforzare le tue protezioni, in particolare contro gli usi che violano i nostri Termini di servizio o la Politica di utilizzo.

Claude è molto più resistente ai jailbreak rispetto ad altri LLM principali, grazie a metodi di addestramento avanzati come Constitutional AI.

Schermi di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-controllare gli input degli utenti. (Nota: il prefilling è deprecato e non supportato su Claude Opus 4.6 e Sonnet 4.5.)
Validazione dell'input: Filtra i prompt per i modelli di jailbreak. Puoi persino utilizzare un LLM per creare uno schermo di validazione generalizzato fornendo il linguaggio di jailbreak noto come esempi.
Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.

Regola le risposte e considera di limitare la velocità o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi nel tentativo di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva lo stesso tipo di rifiuto più volte (ad es., "output bloccato dalla politica di filtro dei contenuti"), comunica all'utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.

Monitoraggio continuo: Analizza regolarmente gli output per segni di jailbreak. Utilizza questo monitoraggio per perfezionare iterativamente i tuoi prompt e le tue strategie di validazione.

Avanzate: Protezioni a catena

Combina strategie per una protezione robusta. Ecco un esempio di livello aziendale con l'uso di strumenti:

Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.

Was this page helpful?

Esempio: Schermo di innocuità per la moderazione dei contenuti

Esempio: Prompt di sistema etico per un chatbot aziendale

Avanzate: Protezioni a catena

Esempio: Protezione multi-livello per un chatbot di consulenza finanziaria

Esempio: Schermo di innocuità per la moderazione dei contenuti

Esempio: Prompt di sistema etico per un chatbot aziendale

Avanzate: Protezioni a catena

Esempio: Protezione multi-livello per un chatbot di consulenza finanziaria