Loading...
    • 빌드
    • 관리
    • 모델 및 가격
    • 클라이언트 SDK
    • API 참조
    Search...
    ⌘K
    시작하기
    Claude 소개빠른 시작
    Claude로 구축하기
    기능 개요Messages API 사용중지 이유 처리
    모델 기능
    확장 사고적응형 사고노력빠른 모드 (베타: 리서치 프리뷰)구조화된 출력인용스트리밍 메시지일괄 처리검색 결과스트리밍 거부다국어 지원임베딩
    도구
    개요도구 사용 방법웹 검색 도구웹 가져오기 도구코드 실행 도구메모리 도구Bash 도구컴퓨터 사용 도구텍스트 편집기 도구
    도구 인프라
    도구 검색프로그래밍 방식 도구 호출세밀한 도구 스트리밍
    컨텍스트 관리
    컨텍스트 윈도우압축컨텍스트 편집프롬프트 캐싱토큰 계산
    파일 작업
    Files APIPDF 지원이미지 및 비전
    스킬
    개요빠른 시작모범 사례엔터프라이즈용 스킬API의 스킬
    MCP
    원격 MCP 서버MCP 커넥터
    프롬프트 엔지니어링
    개요프롬프트 모범 사례Console 프롬프트 도구
    테스트 및 평가
    성공 기준 정의 및 평가 구축Console의 평가 도구 사용지연 시간 줄이기
    가드레일 강화
    환각 줄이기출력 일관성 높이기탈옥 방지프롬프트 유출 줄이기
    리소스
    용어집
    릴리스 노트
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    가드레일 강화

    탈옥 및 프롬프트 인젝션 완화

    탈옥 및 프롬프트 인젝션으로부터 Claude 기반 애플리케이션을 보호하는 방법을 알아보세요.

    탈옥 및 프롬프트 인젝션은 사용자가 모델의 취약점을 악용하여 부적절한 콘텐츠를 생성하려는 목적으로 프롬프트를 조작할 때 발생합니다. Claude는 본질적으로 이러한 공격에 대한 복원력이 뛰어나지만, 특히 서비스 약관 또는 사용 정책을 위반하는 사용에 대해 가드레일을 강화하기 위한 추가 단계를 소개합니다.

    Claude는 Constitutional AI와 같은 고급 훈련 방법 덕분에 다른 주요 LLM보다 탈옥에 훨씬 더 강한 저항력을 가지고 있습니다.
    • 무해성 스크리닝: Claude Haiku 3와 같은 경량 모델을 사용하여 사용자 입력을 사전 스크리닝합니다. (참고: 프리필은 더 이상 사용되지 않으며 Claude Opus 4.6 및 Sonnet 4.5에서는 지원되지 않습니다.)

    • 입력 검증: 탈옥 패턴에 대해 프롬프트를 필터링합니다. 알려진 탈옥 언어를 예시로 제공하여 LLM을 사용해 일반화된 검증 스크리닝을 만들 수도 있습니다.

    • 프롬프트 엔지니어링: 윤리적 및 법적 경계를 강조하는 프롬프트를 작성합니다.

    Claude의 가드레일을 우회하려는 악의적인 행동에 반복적으로 관여하는 사용자에 대해 응답을 조정하고 제한 또는 차단을 고려하세요. 예를 들어, 특정 사용자가 동일한 종류의 거부를 여러 번 트리거하는 경우(예: "콘텐츠 필터링 정책에 의해 출력이 차단됨"), 해당 사용자에게 그들의 행동이 관련 사용 정책을 위반한다고 알리고 그에 따라 조치를 취하세요.

    • 지속적 모니터링: 탈옥 징후에 대해 출력을 정기적으로 분석합니다. 이 모니터링을 사용하여 프롬프트와 검증 전략을 반복적으로 개선하세요.

    고급: 안전장치 체이닝

    강력한 보호를 위해 전략을 결합합니다. 다음은 도구 사용이 포함된 엔터프라이즈급 예시입니다:

    이러한 전략을 계층화함으로써 탈옥 및 프롬프트 인젝션에 대한 강력한 방어를 구축하여 Claude 기반 애플리케이션이 최고 수준의 안전성과 규정 준수를 유지하도록 보장합니다.

    Was this page helpful?

    • harmlessness_screen 도구 내 프롬프트