Loading...
  • Construir
  • Administración
  • Modelos y precios
  • SDKs de cliente
  • Referencia de API
Search...
⌘K
Log in
Mitigar jailbreaks
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Reforzar salvaguardas

Mitigar jailbreaks e inyecciones de prompts

Aprende estrategias para fortalecer tus guardarraíles contra jailbreaks y inyecciones de prompts, incluyendo pantallas de inofensividad, validación de entrada y ingeniería de prompts.

Los jailbreaks e inyecciones de prompts ocurren cuando los usuarios crean prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Aunque Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus guardarraíles, particularmente contra usos que violen nuestros Términos de Servicio o Política de Uso.

  • Pantallas de inofensividad: Usa un modelo ligero como Claude Haiku 4.5 para pre-examinar las entradas del usuario. Usa salidas estructuradas para restringir la respuesta a una clasificación simple.

  • Validación de entrada: Filtra prompts para detectar patrones de jailbreaking. Incluso puedes usar un LLM para crear una pantalla de validación generalizada proporcionando lenguaje de jailbreaking conocido como ejemplos.

  • Ingeniería de prompts: Crea prompts que enfaticen límites éticos y legales.

Ajusta las respuestas y considera limitar la velocidad o prohibir a los usuarios que se involucren repetidamente en comportamiento abusivo intentando eludir los guardarraíles de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo varias veces (por ejemplo, "salida bloqueada por política de filtrado de contenido"), dile al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.

  • Monitoreo continuo: Analiza regularmente las salidas para detectar signos de jailbreaking. Usa este monitoreo para refinar iterativamente tus prompts y estrategias de validación.

Avanzado: Encadenar salvaguardas

Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:

Al superponer estas estrategias, creas una defensa robusta contra jailbreaks e inyecciones de prompts, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.

Was this page helpful?

  • Avanzado: Encadenar salvaguardas
  • Prompt del sistema del bot
  • Prompt dentro de la herramienta harmlessness_screen