Loading...
    • Guía para desarrolladores
    • Referencia de API
    • MCP
    • Recursos
    • Notas de la versión
    Search...
    ⌘K
    Primeros pasos
    Introducción a ClaudeInicio rápido
    Modelos y precios
    Descripción general de modelosElegir un modeloNovedades en Claude 4.6Guía de migraciónModelos deprecadosPrecios
    Crear con Claude
    Descripción general de característicasUsar la API de MessagesManejar razones de paradaMejores prácticas de prompting
    Capacidades del modelo
    Extended thinkingAdaptive thinkingEsfuerzoModo rápido (vista previa de investigación)Salidas estructuradasCitasStreaming de MessagesProcesamiento por lotesSoporte de PDFResultados de búsquedaSoporte multilingüeEmbeddingsVisión
    Herramientas
    Descripción generalCómo implementar el uso de herramientasHerramienta de búsqueda webHerramienta de obtención webHerramienta de ejecución de códigoHerramienta de memoriaHerramienta BashHerramienta de uso de computadoraHerramienta de editor de texto
    Infraestructura de herramientas
    Búsqueda de herramientasLlamada de herramientas programáticaStreaming de herramientas de grano fino
    Gestión de contexto
    Ventanas de contextoCompactaciónEdición de contextoAlmacenamiento en caché de promptsConteo de tokens
    Archivos y activos
    API de archivos
    Agent Skills
    Descripción generalInicio rápidoMejores prácticasSkills para empresasUsar Skills con la API
    Agent SDK
    Descripción generalInicio rápidoTypeScript SDKTypeScript V2 (vista previa)Python SDKGuía de migración
    MCP en la API
    Conector MCPServidores MCP remotos
    Claude en plataformas de terceros
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingeniería de prompts
    Descripción generalGenerador de promptsUsar plantillas de promptsMejorador de promptsSer claro y directoUsar ejemplos (prompting multishot)Dejar que Claude piense (CoT)Usar etiquetas XMLDar a Claude un rol (prompts del sistema)Encadenar prompts complejosConsejos de contexto largoConsejos de extended thinking
    Probar y evaluar
    Definir criterios de éxitoDesarrollar casos de pruebaUsar la herramienta de evaluaciónReducir latencia
    Fortalecer guardarraíles
    Reducir alucinacionesAumentar consistencia de salidaMitigar jailbreaksRechazos de streamingReducir fuga de promptsMantener a Claude en personaje
    Administración y monitoreo
    Descripción general de Admin APIResidencia de datosEspacios de trabajoAPI de uso y costosAPI de análisis de Claude CodeRetención de datos cero
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Fortalecer guardarraíles

    Mitigar jailbreaks e inyecciones de prompts

    Aprende estrategias para proteger tu aplicación Claude contra jailbreaks y inyecciones de prompts

    Los jailbreaks e inyecciones de prompts ocurren cuando los usuarios crean prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Aunque Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus salvaguardas, particularmente contra usos que violen nuestros Términos de Servicio o Política de Uso.

    Claude es mucho más resistente al jailbreaking que otros LLMs principales, gracias a métodos de entrenamiento avanzados como Constitutional AI.
    • Pantallas de inofensividad: Utiliza un modelo ligero como Claude Haiku 3 para pre-examinar las entradas del usuario. (Nota: el prefilling está deprecado y no es compatible con Claude Opus 4.6 y Sonnet 4.5.)

    • Validación de entrada: Filtra prompts para detectar patrones de jailbreaking. Incluso puedes usar un LLM para crear una pantalla de validación generalizada proporcionando lenguaje de jailbreaking conocido como ejemplos.

    • Ingeniería de prompts: Crea prompts que enfaticen límites éticos y legales.

    Ajusta las respuestas y considera limitar la velocidad o prohibir a los usuarios que se involucren repetidamente en comportamiento abusivo intentando eludir los salvaguardas de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo varias veces (por ejemplo, "salida bloqueada por política de filtrado de contenido"), dile al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.

    • Monitoreo continuo: Analiza regularmente los resultados para detectar signos de jailbreaking. Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.

    Avanzado: Encadenar salvaguardas

    Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:

    Al estratificar estas estrategias, creas una defensa robusta contra jailbreaks e inyecciones de prompts, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.

    Was this page helpful?

    • Avanzado: Encadenar salvaguardas
    • Prompt del sistema del bot
    • Prompt dentro de la herramienta harmlessness_screen