Fortalecer protecciones

Mitigar jailbreaks e inyecciones de prompts

Aprende estrategias para proteger tu aplicación Claude contra jailbreaks y inyecciones de prompts

Los jailbreaks e inyecciones de prompts ocurren cuando los usuarios crean prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Aunque Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus salvaguardas, particularmente contra usos que violen nuestros Términos de Servicio o Política de Uso.

Claude es mucho más resistente al jailbreaking que otros LLMs principales, gracias a métodos de entrenamiento avanzados como Constitutional AI.

Pantallas de inofensividad: Utiliza un modelo ligero como Claude Haiku 3 para pre-examinar las entradas del usuario. (Nota: el prefilling está deprecado y no es compatible con Claude Opus 4.6 y Sonnet 4.5.)
Validación de entrada: Filtra prompts para detectar patrones de jailbreaking. Incluso puedes usar un LLM para crear una pantalla de validación generalizada proporcionando lenguaje de jailbreaking conocido como ejemplos.
Ingeniería de prompts: Crea prompts que enfaticen límites éticos y legales.

Ajusta las respuestas y considera limitar la velocidad o prohibir a los usuarios que se involucren repetidamente en comportamiento abusivo intentando eludir los salvaguardas de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo varias veces (por ejemplo, "salida bloqueada por política de filtrado de contenido"), dile al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.

Monitoreo continuo: Analiza regularmente los resultados para detectar signos de jailbreaking. Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.

Avanzado: Encadenar salvaguardas

Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:

Al estratificar estas estrategias, creas una defensa robusta contra jailbreaks e inyecciones de prompts, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.

Was this page helpful?

Ejemplo: Pantalla de inofensividad para moderación de contenido

Ejemplo: Prompt del sistema ético para un chatbot empresarial

Avanzado: Encadenar salvaguardas

Ejemplo: Protección multicapa para un chatbot asesor financiero

Ejemplo: Pantalla de inofensividad para moderación de contenido

Ejemplo: Prompt del sistema ético para un chatbot empresarial

Avanzado: Encadenar salvaguardas

Ejemplo: Protección multicapa para un chatbot asesor financiero