Loading...
  • Construir
  • Admin
  • Modelos e preços
  • SDKs do cliente
  • Referência da API
Search...
⌘K
Log in
Mitigar jailbreaks
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Fortalecer guardrails

Mitigar jailbreaks e injeções de prompt

Aprenda estratégias para fortalecer as proteções contra jailbreaks e injeções de prompt em aplicações Claude.

Was this page helpful?

  • Avançado: Encadear proteções
  • Prompt de sistema do bot
  • Prompt dentro da ferramenta harmlessness_screen

Jailbreaking e injeções de prompt ocorrem quando usuários criam prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora Claude seja inerentemente resiliente a tais ataques, aqui estão passos adicionais para fortalecer suas proteções, particularmente contra usos que violem nossos Termos de Serviço ou Política de Uso.

  • Telas de inofensividade: Use um modelo leve como Claude Haiku 4.5 para pré-analisar entradas de usuários. Use saídas estruturadas para restringir a resposta a uma classificação simples.

  • Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada fornecendo linguagem de jailbreaking conhecida como exemplos.

  • Engenharia de prompt: Crie prompts que enfatizem limites éticos e legais.

Ajuste respostas e considere limitar a taxa ou banir usuários que repetidamente se envolvem em comportamento abusivo tentando contornar as proteções do Claude. Por exemplo, se um usuário específico dispara o mesmo tipo de recusa várias vezes (por exemplo, "saída bloqueada pela política de filtragem de conteúdo"), diga ao usuário que suas ações violam as políticas de uso relevantes e tome medidas adequadamente.

  • Monitoramento contínuo: Analise regularmente as saídas para sinais de jailbreaking. Use este monitoramento para refinar iterativamente seus prompts e estratégias de validação.

Avançado: Encadear proteções

Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:

Ao colocar em camadas essas estratégias, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que suas aplicações alimentadas por Claude mantenham os mais altos padrões de segurança e conformidade.