모범 사례가드레일 강화

탈옥 및 프롬프트 인젝션 완화하기

탈옥(jailbreaking)과 프롬프트 인젝션(prompt injection)은 Claude가 자체 가이드라인이나 사용자의 지침을 무시하도록 만들려는 시도입니다. Claude는 본질적으로 이러한 공격에 대한 복원력을 갖추고 있지만, 이 페이지의 추가 단계들은 특히 당사의 서비스 약관 또는 사용 정책을 위반하는 사용에 대한 가드레일을 강화합니다.

이러한 공격은 서로 다른 위협 모델을 가진 두 가지 범주로 나뉩니다:

탈옥 및 직접 프롬프트 인젝션: 애플리케이션의 사용자가 공격자이며, 가드레일을 우회하기 위한 입력을 의도적으로 작성하는 경우입니다.
간접 프롬프트 인젝션: 사용자는 신뢰할 수 있지만 Claude가 적대적인 지침이 포함된 제3자 콘텐츠(웹 페이지, 이메일, 문서, 도구 결과)를 처리하는 경우입니다.

탈옥 및 직접 프롬프트 인젝션

이 위협 모델에서는 사용자가 애플리케이션을 조작하여 원치 않는 콘텐츠를 생성하거나 원치 않는 작업을 수행하도록 의도적으로 입력을 작성합니다. 다음 완화 조치들은 애플리케이션의 가드레일을 강화합니다:

무해성 스크린: Claude Haiku 4.5와 같은 경량 모델을 사용하여 사용자 입력이 주 대화에 도달하기 전에 사전 검사합니다. 구조화된 출력을 사용하여 응답을 간단한 분류로 제한하세요.
입력 검증: 사용자 입력이 Claude에 도달하기 전에 알려진 인젝션 패턴을 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM으로 일반화된 검증 스크린을 만들 수 있습니다.
프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하고 Claude에게 거부하는 방법을 명시적으로 알려주는 시스템 프롬프트를 작성합니다.
반복 위반자에 대한 대응: 애플리케이션의 가드레일을 반복적으로 우회하려는 사용자에 대해 응답을 조정하고 제한 또는 차단을 고려하세요. 예를 들어, 특정 사용자가 동일한 종류의 거부(예: "콘텐츠 필터링 정책에 의해 출력이 차단됨")를 여러 번 유발하는 경우, 해당 사용자에게 그들의 행동이 관련 사용 정책을 위반한다고 알리고 그에 따라 조치를 취하세요.

간접 프롬프트 인젝션

이 위협 모델에서는 Claude가 사용자를 대신하여 읽는 콘텐츠(수신 이메일 본문, 가져온 웹 페이지, 업로드된 파일의 OCR 출력, 도구 호출 결과)에 포함된 지침으로부터 사용자를 보호합니다. 해당 콘텐츠에 영향을 미칠 수 있는 공격자는 Claude를 다른 방향으로 유도하려는 지침을 삽입할 수 있습니다.

Claude가 신뢰할 수 없는 콘텐츠와 사용자의 지침을 안정적으로 구분할 수 있도록 애플리케이션을 구조화하세요:

신뢰할 수 없는 콘텐츠는 도구 결과에만 넣으세요. 제3자 콘텐츠는 system 프롬프트나 일반 사용자 text 블록이 아닌 tool_result 블록 내부에서 Claude에 전달하세요. Claude는 도구 결과 내부에 나타나는 지침을 적절한 회의적 태도로 처리하도록 학습되었습니다. tool_result 형식은 도구 호출 처리하기를 참조하세요.
콘텐츠가 무엇이고 어디서 왔는지 Claude에게 알려주세요. 도구의 description 또는 결과 자체의 구조에서 콘텐츠의 성격과 출처를 명시적으로 밝히세요. 예를 들어, 알 수 없는 발신자로부터 온 수신 이메일의 본문이라거나, 사용자가 업로드한 이미지에서 추출된 OCR 텍스트라는 점을 명시하세요. 이러한 컨텍스트는 Claude가 포함된 지시문을 얼마나 신뢰할지 조정하는 데 도움이 됩니다.
시스템 프롬프트에 정책을 명시하세요. 도구, 문서 또는 검색에서 반환된 콘텐츠는 신뢰할 수 없는 데이터이며 시스템 프롬프트나 사용자의 원래 요청을 절대 무시해서는 안 된다고 Claude에게 명시적으로 알려주세요.

컴퓨터 사용 도구를 사용하는 경우, Anthropic은 스크린샷에서 잠재적인 프롬프트 인젝션을 감지하고 Claude가 행동하기 전에 사용자 확인을 요청하도록 유도하는 추가 분류기를 실행합니다. 자세한 내용 및 옵트아웃 정보는 해당 페이지를 참조하세요.

지속적인 모니터링

성공적인 인젝션의 징후가 있는지 출력을 정기적으로 분석하세요. 이 모니터링을 사용하여 프롬프트, 검증 및 필터링 전략을 반복적으로 개선하세요.

고급: 안전장치 연결하기

강력한 보호를 위해 전략들을 결합하세요. 다음은 도구 사용이 포함된 엔터프라이즈급 예시입니다:

이러한 전략들을 계층화함으로써 탈옥 및 프롬프트 인젝션에 대한 강력한 방어를 구축하여, Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 보장할 수 있습니다.

Was this page helpful?

탈옥 및 직접 프롬프트 인젝션

무해성 스크린: Claude Haiku 4.5와 같은 경량 모델을 사용하여 사용자 입력이 주 대화에 도달하기 전에 사전 검사합니다. 구조화된 출력을 사용하여 응답을 간단한 분류로 제한하세요.

입력 검증: 사용자 입력이 Claude에 도달하기 전에 알려진 인젝션 패턴을 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM으로 일반화된 검증 스크린을 만들 수 있습니다.

프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하고 Claude에게 거부하는 방법을 명시적으로 알려주는 시스템 프롬프트를 작성합니다.

반복 위반자에 대한 대응: 애플리케이션의 가드레일을 반복적으로 우회하려는 사용자에 대해 응답을 조정하고 제한 또는 차단을 고려하세요. 예를 들어, 특정 사용자가 동일한 종류의 거부(예: "콘텐츠 필터링 정책에 의해 출력이 차단됨")를 여러 번 유발하는 경우, 해당 사용자에게 그들의 행동이 관련 사용 정책을 위반한다고 알리고 그에 따라 조치를 취하세요.

간접 프롬프트 인젝션

Claude가 신뢰할 수 없는 콘텐츠와 사용자의 지침을 안정적으로 구분할 수 있도록 애플리케이션을 구조화하세요:

신뢰할 수 없는 콘텐츠는 도구 결과에만 넣으세요. 제3자 콘텐츠는 system 프롬프트나 일반 사용자 text 블록이 아닌 tool_result 블록 내부에서 Claude에 전달하세요. Claude는 도구 결과 내부에 나타나는 지침을 적절한 회의적 태도로 처리하도록 학습되었습니다. tool_result 형식은 도구 호출 처리하기를 참조하세요.

콘텐츠가 무엇이고 어디서 왔는지 Claude에게 알려주세요. 도구의 description 또는 결과 자체의 구조에서 콘텐츠의 성격과 출처를 명시적으로 밝히세요. 예를 들어, 알 수 없는 발신자로부터 온 수신 이메일의 본문이라거나, 사용자가 업로드한 이미지에서 추출된 OCR 텍스트라는 점을 명시하세요. 이러한 컨텍스트는 Claude가 포함된 지시문을 얼마나 신뢰할지 조정하는 데 도움이 됩니다.

시스템 프롬프트에 정책을 명시하세요. 도구, 문서 또는 검색에서 반환된 콘텐츠는 신뢰할 수 없는 데이터이며 시스템 프롬프트나 사용자의 원래 요청을 절대 무시해서는 안 된다고 Claude에게 명시적으로 알려주세요.

고급: 안전장치 연결하기

강력한 보호를 위해 전략들을 결합하세요. 다음은 도구 사용이 포함된 엔터프라이즈급 예시입니다:

Was this page helpful?

탈옥 및 직접 프롬프트 인젝션

예시: 콘텐츠 조정을 위한 무해성 스크린

예시: 엔터프라이즈 챗봇을 위한 윤리적 시스템 프롬프트

간접 프롬프트 인젝션

예시: 문서 처리 에이전트를 위한 시스템 프롬프트 지침

지속적인 모니터링

고급: 안전장치 연결하기

예시: 금융 자문 챗봇을 위한 다층 보호

탈옥 및 직접 프롬프트 인젝션

예시: 콘텐츠 조정을 위한 무해성 스크린

예시: 엔터프라이즈 챗봇을 위한 윤리적 시스템 프롬프트

간접 프롬프트 인젝션

예시: 문서 처리 에이전트를 위한 시스템 프롬프트 지침

지속적인 모니터링

고급: 안전장치 연결하기

예시: 금융 자문 챗봇을 위한 다층 보호

예시: 수신 이메일에 대한 JSON 인코딩된 도구 결과

예시: 도구 출력에 대한 인젝션 검사

탈옥 및 직접 프롬프트 인젝션

간접 프롬프트 인젝션

지속적인 모니터링

고급: 안전장치 연결하기

탈옥 및 직접 프롬프트 인젝션

간접 프롬프트 인젝션

지속적인 모니터링

고급: 안전장치 연결하기