Loading...
    • Guía para desarrolladores
    • Referencia de API
    • MCP
    • Recursos
    • Notas de la versión
    Search...
    ⌘K
    Primeros pasos
    Introducción a ClaudeInicio rápido
    Modelos y precios
    Descripción general de modelosElegir un modeloNovedades en Claude 4.5Migración a Claude 4.5Deprecación de modelosPrecios
    Construir con Claude
    Descripción general de característicasUsar la API de MessagesVentanas de contextoMejores prácticas de prompting
    Capacidades
    Almacenamiento en caché de promptsEdición de contextoPensamiento extendidoEsfuerzoStreaming de MessagesProcesamiento por lotesCitasSoporte multilingüeConteo de tokensEmbeddingsVisiónSoporte de PDFAPI de FilesResultados de búsquedaSalidas estructuradas
    Herramientas
    Descripción generalCómo implementar el uso de herramientasStreaming de herramientas de grano finoHerramienta BashHerramienta de ejecución de códigoLlamada de herramientas programáticaHerramienta de uso de computadoraHerramienta de editor de textoHerramienta de búsqueda webHerramienta de búsqueda webHerramienta de memoriaHerramienta de búsqueda de herramientas
    Agent Skills
    Descripción generalInicio rápidoMejores prácticasUsar Skills con la API
    Agent SDK
    Descripción generalInicio rápidoSDK de TypeScriptTypeScript V2 (vista previa)SDK de PythonGuía de migración
    MCP en la API
    Conector MCPServidores MCP remotos
    Claude en plataformas de terceros
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingeniería de prompts
    Descripción generalGenerador de promptsUsar plantillas de promptsMejorador de promptsSer claro y directoUsar ejemplos (prompting multishot)Dejar que Claude piense (CoT)Usar etiquetas XMLDar un rol a Claude (prompts del sistema)Rellenar la respuesta de ClaudeEncadenar prompts complejosConsejos de contexto largoConsejos de pensamiento extendido
    Probar y evaluar
    Definir criterios de éxitoDesarrollar casos de pruebaUsar la herramienta de evaluaciónReducir latencia
    Fortalecer protecciones
    Reducir alucinacionesAumentar consistencia de salidaMitigar ataques de jailbreakRechazos de streamingReducir fuga de promptsMantener a Claude en personaje
    Administración y monitoreo
    Descripción general de Admin APIAPI de uso y costoAPI de Claude Code Analytics
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Fortalecer protecciones

    Mitigar jailbreaks e inyecciones de prompt

    Los jailbreaks y las inyecciones de prompt ocurren cuando los usuarios elaboran prompts para explotar vulnerabilidades del modelo, con el objetivo de generar contenido inapropiado. Aunque Claude es inherentemente resistente a tales ataques, aquí hay pasos adicionales para fortalecer tus barreras de protección, particularmente contra usos que violan nuestros Términos de Servicio o Política de Uso.

    Claude es mucho más resistente a los jailbreaks que otros LLMs importantes, gracias a métodos avanzados de entrenamiento como la IA Constitucional.
    • Filtros de inocuidad: Utiliza un modelo ligero como Claude Haiku 3 para pre-examinar las entradas de los usuarios.

    • Validación de entrada: Filtra los prompts para detectar patrones de jailbreaking. Incluso puedes usar un LLM para crear un filtro de validación generalizado proporcionando ejemplos de lenguaje conocido de jailbreaking.

    • Ingeniería de prompts: Elabora prompts que enfaticen límites éticos y legales.

    Ajusta las respuestas y considera limitar o prohibir a los usuarios que repetidamente participen en comportamientos abusivos intentando eludir las barreras de protección de Claude. Por ejemplo, si un usuario en particular desencadena el mismo tipo de rechazo varias veces (por ejemplo, "salida bloqueada por la política de filtrado de contenido"), informa al usuario que sus acciones violan las políticas de uso relevantes y toma medidas en consecuencia.

    • Monitoreo continuo: Analiza regularmente las salidas en busca de señales de jailbreaking. Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.

    Avanzado: Salvaguardias en cadena

    Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:

    Al combinar estas estrategias en capas, creas una defensa robusta contra jailbreaking e inyecciones de prompt, asegurando que tus aplicaciones impulsadas por Claude mantengan los más altos estándares de seguridad y cumplimiento.

    • Avanzado: Salvaguardias en cadena
    • Prompt de sistema del bot
    • Prompt dentro de la herramienta harmlessness_screen