I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l'obiettivo di generare contenuti inappropriati. Sebbene Claude sia intrinsecamente resiliente a tali attacchi, ecco alcuni passaggi aggiuntivi per rafforzare le tue protezioni, in particolare contro gli usi che violano i nostri Termini di servizio o la Politica di utilizzo.
Schermi di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-controllare gli input degli utenti. (Nota: il prefilling è deprecato e non supportato su Claude Opus 4.6 e Sonnet 4.5.)
Validazione dell'input: Filtra i prompt per i modelli di jailbreak. Puoi persino utilizzare un LLM per creare uno schermo di validazione generalizzato fornendo il linguaggio di jailbreak noto come esempi.
Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.
Regola le risposte e considera di limitare la velocità o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi nel tentativo di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva lo stesso tipo di rifiuto più volte (ad es., "output bloccato dalla politica di filtro dei contenuti"), comunica all'utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.
Combina strategie per una protezione robusta. Ecco un esempio di livello aziendale con l'uso di strumenti:
Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.
Was this page helpful?