Mitigar jailbreaks e inyecciones de prompt
Los jailbreaks y las inyecciones de prompt ocurren cuando los usuarios elaboran prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Aunque Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus barreras de protección, particularmente contra usos que violan nuestros Términos de Servicio o Política de Uso.
-
Filtros de inocuidad: Utiliza un modelo ligero como Claude Haiku 3 para pre-examinar las entradas de los usuarios.
-
Validación de entrada: Filtra los prompts para detectar patrones de jailbreaking. Incluso puedes usar un LLM para crear un filtro de validación generalizado proporcionando ejemplos de lenguaje conocido de jailbreaking.
-
Ingeniería de prompts: Elabora prompts que enfaticen límites éticos y legales.
Ajusta las respuestas y considera limitar o prohibir a los usuarios que repetidamente participen en comportamientos abusivos intentando eludir las barreras de protección de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo varias veces (por ejemplo, "salida bloqueada por la política de filtrado de contenido"), informa al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.
- Monitoreo continuo: Analiza regularmente las salidas en busca de señales de jailbreaking. Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.
Avanzado: Salvaguardias en cadena
Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:
Al combinar estas estrategias en capas, creas una defensa robusta contra jailbreaking e inyecciones de prompt, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.