Loading...
    • Guida per sviluppatori
    • Riferimento API
    • MCP
    • Risorse
    • Note sulla versione
    Search...
    ⌘K
    Primi passi
    Introduzione a ClaudeAvvio rapido
    Modelli e prezzi
    Panoramica dei modelliScelta di un modelloNovità in Claude 4.6Guida alla migrazioneDeprecazioni dei modelliPrezzi
    Crea con Claude
    Panoramica delle funzioniUtilizzo dell'API MessagesGestione dei motivi di arrestoBest practice per i prompt
    Capacità del modello
    Extended thinkingAdaptive thinkingEffortFast mode (anteprima di ricerca)Output strutturatiCitazioniStreaming dei messaggiElaborazione batchSupporto PDFRisultati di ricercaSupporto multilingueEmbeddingsVision
    Strumenti
    PanoramicaCome implementare l'uso degli strumentiStrumento di ricerca webStrumento di recupero webStrumento di esecuzione del codiceStrumento di memoriaStrumento BashStrumento Computer useStrumento editor di testo
    Infrastruttura degli strumenti
    Ricerca strumentiChiamata programmatica degli strumentiStreaming granulare degli strumenti
    Gestione del contesto
    Finestre di contestoCompattazioneModifica del contestoPrompt cachingConteggio dei token
    File e risorse
    API Files
    Agent Skills
    PanoramicaAvvio rapidoBest practiceSkills per l'aziendaUtilizzo di Skills con l'API
    Agent SDK
    PanoramicaAvvio rapidoTypeScript SDKTypeScript V2 (anteprima)Python SDKGuida alla migrazione
    MCP nell'API
    Connettore MCPServer MCP remoti
    Claude su piattaforme di terze parti
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt engineering
    PanoramicaGeneratore di promptUsa modelli di promptMiglioratore di promptSii chiaro e direttoUsa esempi (multishot prompting)Lascia che Claude pensi (CoT)Usa tag XMLDai a Claude un ruolo (prompt di sistema)Concatena prompt complessiSuggerimenti per il contesto lungoSuggerimenti per extended thinking
    Test e valutazione
    Definisci criteri di successoSviluppa casi di testUtilizzo dello strumento di valutazioneRiduzione della latenza
    Rafforza i guardrail
    Riduci le allucinazioniAumenta la coerenza dell'outputMitiga i jailbreakStreaming dei rifiutiRiduci la perdita di promptMantieni Claude nel personaggio
    Amministrazione e monitoraggio
    Panoramica dell'API AdminResidenza dei datiWorkspaceAPI di utilizzo e costiAPI Claude Code AnalyticsZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Rafforza i guardrail

    Mitigare i jailbreak e le iniezioni di prompt

    Scopri come proteggere le tue applicazioni Claude dai jailbreak e dalle iniezioni di prompt con strategie di validazione, ingegneria dei prompt e monitoraggio continuo.

    I jailbreak e le iniezioni di prompt si verificano quando gli utenti creano prompt per sfruttare le vulnerabilità del modello, con l'obiettivo di generare contenuti inappropriati. Sebbene Claude sia intrinsecamente resiliente a tali attacchi, ecco alcuni passaggi aggiuntivi per rafforzare le tue protezioni, in particolare contro gli usi che violano i nostri Termini di servizio o la Politica di utilizzo.

    Claude è molto più resistente ai jailbreak rispetto ad altri LLM principali, grazie a metodi di addestramento avanzati come Constitutional AI.
    • Schermi di innocuità: Utilizza un modello leggero come Claude Haiku 3 per pre-controllare gli input degli utenti. (Nota: il prefilling è deprecato e non supportato su Claude Opus 4.6 e Sonnet 4.5.)

    • Validazione dell'input: Filtra i prompt per i modelli di jailbreak. Puoi persino utilizzare un LLM per creare uno schermo di validazione generalizzato fornendo il linguaggio di jailbreak noto come esempi.

    • Ingegneria dei prompt: Crea prompt che enfatizzano i confini etici e legali.

    Regola le risposte e considera di limitare la velocità o bannare gli utenti che ripetutamente si impegnano in comportamenti abusivi nel tentativo di aggirare le protezioni di Claude. Ad esempio, se un particolare utente attiva lo stesso tipo di rifiuto più volte (ad es., "output bloccato dalla politica di filtro dei contenuti"), comunica all'utente che le sue azioni violano le politiche di utilizzo pertinenti e agisci di conseguenza.

    • Monitoraggio continuo: Analizza regolarmente gli output per segni di jailbreak. Utilizza questo monitoraggio per perfezionare iterativamente i tuoi prompt e le tue strategie di validazione.

    Avanzate: Protezioni a catena

    Combina strategie per una protezione robusta. Ecco un esempio di livello aziendale con l'uso di strumenti:

    Stratificando queste strategie, crei una difesa robusta contro i jailbreak e le iniezioni di prompt, assicurando che le tue applicazioni basate su Claude mantengano i più alti standard di sicurezza e conformità.

    Was this page helpful?

    • Avanzate: Protezioni a catena
    • Prompt di sistema del bot
    • Prompt all'interno dello strumento harmlessness_screen