Jailbreaking и prompt injections происходят, когда пользователи создают промпты для эксплуатации уязвимостей модели с целью генерации неприемлемого контента. Хотя Claude по своей природе устойчив к таким атакам, вот дополнительные шаги для укрепления ваших защитных механизмов, особенно против использования, которое нарушает наши Условия обслуживания или Политику использования.
Экраны безопасности: Используйте легковесную модель, такую как Claude Haiku 3, для предварительной проверки входных данных пользователя. (Примечание: заполнение префиксом устарело и не поддерживается на Claude Opus 4.6 и Sonnet 4.5.)
Валидация входных данных: Фильтруйте промпты на предмет jailbreaking-паттернов. Вы даже можете использовать LLM для создания обобщенного экрана валидации, предоставив известный jailbreaking-язык в качестве примеров.
Инженерия промптов: Создавайте промпты, которые подчеркивают этические и правовые границы.
Корректируйте ответы и рассмотрите возможность ограничения скорости или блокировки пользователей, которые повторно занимаются оскорбительным поведением, пытаясь обойти защитные механизмы Claude. Например, если конкретный пользователь несколько раз вызывает один и тот же вид отказа (например, "output blocked by content filtering policy"), сообщите пользователю, что его действия нарушают соответствующие политики использования, и примите соответствующие меры.
Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:
Путем наслоения этих стратегий вы создаете надежную защиту от jailbreaking и prompt injection-атак, обеспечивая, что ваши приложения на базе Claude поддерживают наивысшие стандарты безопасности и соответствия.
Was this page helpful?