Loading...
  • Разработка
  • Администрирование
  • Модели и цены
  • Клиентские SDK
  • Справочник API
Search...
⌘K
Log in
Защита от джейлбрейков
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Разработка/Укрепление ограничений

Смягчение jailbreak-атак и prompt injection

Узнайте, как защитить Claude от jailbreak-атак и prompt injection с помощью harmlessness screens, валидации входных данных, prompt engineering и многоуровневых стратегий защиты.

Jailbreaking и prompt injections происходят, когда пользователи создают prompts для эксплуатации уязвимостей модели с целью генерации неприемлемого контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для укрепления ваших защитных механизмов, особенно против использования, которое нарушает наши Условия обслуживания или Политику использования.

  • Harmlessness screens: Используйте легкую модель, такую как Claude Haiku 4.5, для предварительной проверки входных данных пользователя. Используйте структурированные выходные данные для ограничения ответа простой классификацией.

  • Input validation: Фильтруйте prompts на предмет jailbreaking-паттернов. Вы даже можете использовать LLM для создания обобщенного экрана валидации, предоставив известный jailbreaking-язык в качестве примеров.

  • Prompt engineering: Создавайте prompts, которые подчеркивают этические и правовые границы.

Корректируйте ответы и рассмотрите возможность ограничения скорости или блокировки пользователей, которые повторно занимаются оскорбительным поведением в попытке обойти защитные механизмы Claude. Например, если конкретный пользователь вызывает один и тот же вид отказа несколько раз (например, "output blocked by content filtering policy"), сообщите пользователю, что его действия нарушают соответствующие политики использования, и примите соответствующие меры.

  • Continuous monitoring: Регулярно анализируйте выходные данные на предмет признаков jailbreaking. Используйте это мониторирование для итеративного совершенствования ваших prompts и стратегий валидации.

Advanced: Chain safeguards

Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:

Путем наслоения этих стратегий вы создаете надежную защиту от jailbreaking и prompt injections, обеспечивая, что ваши приложения на базе Claude поддерживают наивысшие стандарты безопасности и соответствия.

Was this page helpful?

  • Advanced: Chain safeguards
  • Bot system prompt
  • Prompt within harmlessness_screen tool