Loading...
    • Разработка
    • Администрирование
    • Модели и цены
    • Клиентские SDK
    • Справочник API
    Search...
    ⌘K
    Log in
    Защита от джейлбрейков
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Разработка/Укрепление ограничений

    Смягчение jailbreak-атак и prompt injection

    Узнайте, как защитить Claude от jailbreak-атак и prompt injection с помощью harmlessness screens, валидации входных данных, prompt engineering и многоуровневых стратегий защиты.

    Jailbreaking и prompt injections происходят, когда пользователи создают prompts для эксплуатации уязвимостей модели с целью генерации неприемлемого контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для укрепления ваших защитных механизмов, особенно против использования, которое нарушает наши Условия обслуживания или Политику использования.

    • Harmlessness screens: Используйте легкую модель, такую как Claude Haiku 4.5, для предварительной проверки входных данных пользователя. Используйте структурированные выходные данные для ограничения ответа простой классификацией.

    • Input validation: Фильтруйте prompts на предмет jailbreaking-паттернов. Вы даже можете использовать LLM для создания обобщенного экрана валидации, предоставив известный jailbreaking-язык в качестве примеров.

    • Prompt engineering: Создавайте prompts, которые подчеркивают этические и правовые границы.

    Корректируйте ответы и рассмотрите возможность ограничения скорости или блокировки пользователей, которые повторно занимаются оскорбительным поведением в попытке обойти защитные механизмы Claude. Например, если конкретный пользователь вызывает один и тот же вид отказа несколько раз (например, "output blocked by content filtering policy"), сообщите пользователю, что его действия нарушают соответствующие политики использования, и примите соответствующие меры.

    • Continuous monitoring: Регулярно анализируйте выходные данные на предмет признаков jailbreaking. Используйте это мониторирование для итеративного совершенствования ваших prompts и стратегий валидации.

    Advanced: Chain safeguards

    Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:

    Путем наслоения этих стратегий вы создаете надежную защиту от jailbreaking и prompt injections, обеспечивая, что ваши приложения на базе Claude поддерживают наивысшие стандарты безопасности и соответствия.

    Was this page helpful?

    • Advanced: Chain safeguards
    • Bot system prompt
    • Prompt within harmlessness_screen tool