Jailbreaking e injeções de prompt ocorrem quando usuários criam prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora Claude seja inerentemente resiliente a tais ataques, aqui estão passos adicionais para fortalecer suas proteções, particularmente contra usos que violem nossos Termos de Serviço ou Política de Uso.
Telas de inofensividade: Use um modelo leve como Claude Haiku 3 para pré-verificar entradas de usuários. (Nota: prefilling está descontinuado e não é suportado em Claude Opus 4.6 e Sonnet 4.5.)
Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada fornecendo linguagem de jailbreaking conhecida como exemplos.
Engenharia de prompt: Crie prompts que enfatizem limites éticos e legais.
Ajuste respostas e considere limitar a taxa ou banir usuários que repetidamente se envolvem em comportamento abusivo tentando contornar as proteções do Claude. Por exemplo, se um usuário específico dispara o mesmo tipo de recusa várias vezes (por exemplo, "saída bloqueada pela política de filtragem de conteúdo"), diga ao usuário que suas ações violam as políticas de uso relevantes e tome medidas adequadamente.
Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:
Ao colocar em camadas essas estratégias, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que suas aplicações alimentadas por Claude mantenham os mais altos padrões de segurança e conformidade.
Was this page helpful?