탈옥 및 프롬프트 인젝션은 사용자가 모델의 취약점을 악용하여 부적절한 콘텐츠를 생성하려는 목적으로 프롬프트를 조작할 때 발생합니다. Claude는 본질적으로 이러한 공격에 대한 복원력이 뛰어나지만, 특히 서비스 약관 또는 사용 정책을 위반하는 사용에 대해 가드레일을 강화하기 위한 추가 단계를 소개합니다.
무해성 스크리닝: Claude Haiku 3와 같은 경량 모델을 사용하여 사용자 입력을 사전 스크리닝합니다. (참고: 프리필은 더 이상 사용되지 않으며 Claude Opus 4.6 및 Sonnet 4.5에서는 지원되지 않습니다.)
입력 검증: 탈옥 패턴에 대해 프롬프트를 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM을 사용해 일반화된 검증 스크리닝을 만들 수도 있습니다.
프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하는 프롬프트를 작성합니다.
Claude의 가드레일을 우회하려는 악의적인 행동에 반복적으로 관여하는 사용자에 대해 응답을 조정하고 제한 또는 차단을 고려하세요. 예를 들어, 특정 사용자가 동일한 종류의 거부를 여러 번 트리거하는 경우(예: "콘텐츠 필터링 정책에 의해 출력이 차단됨"), 해당 사용자에게 그들의 행동이 관련 사용 정책을 위반한다고 알리고 그에 따라 조치를 취하세요.
강력한 보호를 위해 전략을 결합합니다. 다음은 도구 사용이 포함된 엔터프라이즈급 예시입니다:
이러한 전략을 계층화함으로써 탈옥 및 프롬프트 인젝션에 대한 강력한 방어를 구축하여 Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 보장합니다.
Was this page helpful?