Fortalecer proteções

Mitigar jailbreaks e injeções de prompt

Jailbreaking e injeções de prompt ocorrem quando usuários elaboram prompts para explorar vulnerabilidades do modelo, visando gerar conteúdo inadequado. Embora o Claude seja inerentemente resistente a tais ataques, aqui estão etapas adicionais para fortalecer suas proteções, particularmente contra usos que violam nossos Termos de Serviço ou Política de Uso.

Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como a IA Constitucional.

Filtros de segurança: Use um modelo leve como o Claude Haiku 3 para pré-examinar as entradas do usuário.
Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada, fornecendo linguagem conhecida de jailbreaking como exemplos.
Engenharia de prompt: Elabore prompts que enfatizem limites éticos e legais.

Ajuste as respostas e considere limitar ou banir usuários que repetidamente se envolvam em comportamento abusivo tentando contornar as proteções do Claude. Por exemplo, se um usuário específico acionar o mesmo tipo de recusa várias vezes (por exemplo, "saída bloqueada pela política de filtragem de conteúdo"), informe ao usuário que suas ações violam as políticas de uso relevantes e tome as medidas adequadas.

Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking. Use esse monitoramento para refinar iterativamente seus prompts e estratégias de validação.

Avançado: Proteções em cadeia

Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:

Ao combinar essas estratégias em camadas, você cria uma defesa robusta contra jailbreaking e injeções de prompt, garantindo que seus aplicativos baseados no Claude mantenham os mais altos padrões de segurança e conformidade.

Fortalecer proteções

Mitigar jailbreaks e injeções de prompt

Claude é muito mais resistente a jailbreaking do que outros LLMs importantes, graças a métodos avançados de treinamento como a IA Constitucional.

Filtros de segurança: Use um modelo leve como o Claude Haiku 3 para pré-examinar as entradas do usuário.
Validação de entrada: Filtre prompts para padrões de jailbreaking. Você pode até usar um LLM para criar uma tela de validação generalizada, fornecendo linguagem conhecida de jailbreaking como exemplos.
Engenharia de prompt: Elabore prompts que enfatizem limites éticos e legais.

Monitoramento contínuo: Analise regularmente as saídas em busca de sinais de jailbreaking. Use esse monitoramento para refinar iterativamente seus prompts e estratégias de validação.

Avançado: Proteções em cadeia

Combine estratégias para proteção robusta. Aqui está um exemplo de nível empresarial com uso de ferramentas:

Mitigar jailbreaks e injeções de prompt

Avançado: Proteções em cadeia

Products

Features

Models

Solutions

Claude Developer Platform

Learn

Company

Help and security

Terms and policies

Mitigar jailbreaks e injeções de prompt

Avançado: Proteções em cadeia

Products

Features

Models

Solutions

Claude Developer Platform

Learn

Company

Help and security

Terms and policies

Exemplo: Filtro de segurança para moderação de conteúdo

Exemplo: Prompt de sistema ético para um chatbot empresarial

Avançado: Proteções em cadeia

Exemplo: Proteção multicamada para um chatbot de consultoria financeira

Exemplo: Filtro de segurança para moderação de conteúdo

Exemplo: Prompt de sistema ético para um chatbot empresarial

Avançado: Proteções em cadeia

Exemplo: Proteção multicamada para um chatbot de consultoria financeira