Loading...
    • 개발자 가이드
    • API 레퍼런스
    • MCP
    • 리소스
    • 릴리스 노트
    Search...
    ⌘K
    시작하기
    Claude 소개빠른 시작
    모델 및 가격
    모델 개요모델 선택Claude 4.6의 새로운 기능마이그레이션 가이드모델 지원 중단가격
    Claude로 구축하기
    기능 개요Messages API 사용중지 사유 처리프롬프트 모범 사례
    컨텍스트 관리
    컨텍스트 윈도우압축컨텍스트 편집
    기능
    프롬프트 캐싱확장 사고적응형 사고노력 수준메시지 스트리밍배치 처리인용다국어 지원토큰 카운팅임베딩비전PDF 지원Files API검색 결과구조화된 출력
    도구
    개요도구 사용 구현 방법세분화된 도구 스트리밍Bash 도구코드 실행 도구프로그래밍 방식 도구 호출컴퓨터 사용 도구텍스트 편집기 도구웹 페치 도구웹 검색 도구메모리 도구도구 검색 도구
    Agent Skills
    개요빠른 시작모범 사례엔터프라이즈용 SkillsAPI로 Skills 사용
    Agent SDK
    개요빠른 시작TypeScript SDKTypeScript V2 (미리보기)Python SDK마이그레이션 가이드
    API에서 MCP
    MCP 커넥터원격 MCP 서버
    서드파티 플랫폼의 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    프롬프트 엔지니어링
    개요프롬프트 생성기프롬프트 템플릿 사용프롬프트 개선기명확하고 직접적으로 작성예시 사용 (멀티샷 프롬프팅)Claude에게 생각하게 하기 (CoT)XML 태그 사용Claude에게 역할 부여 (시스템 프롬프트)복잡한 프롬프트 연결긴 컨텍스트 팁확장 사고 팁
    테스트 및 평가
    성공 기준 정의테스트 케이스 개발평가 도구 사용지연 시간 줄이기
    가드레일 강화
    환각 줄이기출력 일관성 높이기탈옥 방지스트리밍 거부프롬프트 유출 줄이기Claude 캐릭터 유지
    관리 및 모니터링
    Admin API 개요데이터 상주워크스페이스사용량 및 비용 APIClaude Code Analytics API제로 데이터 보존
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    컨텍스트 관리

    컨텍스트 윈도우

    컨텍스트 윈도우의 작동 방식과 효과적인 관리 전략을 알아보세요.

    대화가 길어지면 결국 컨텍스트 윈도우 한계에 도달하게 됩니다. 이 가이드에서는 컨텍스트 윈도우의 작동 방식을 설명하고 이를 효과적으로 관리하기 위한 전략을 소개합니다.

    장시간 실행되는 대화 및 에이전트 워크플로우의 경우, 서버 측 압축이 컨텍스트 관리의 주요 전략입니다. 보다 전문적인 요구 사항에 대해서는 컨텍스트 편집이 도구 결과 지우기 및 사고 블록 지우기와 같은 추가 전략을 제공합니다.

    컨텍스트 윈도우 이해하기

    "컨텍스트 윈도우"는 응답 자체를 포함하여 언어 모델이 응답을 생성할 때 참조할 수 있는 모든 텍스트를 의미합니다. 이는 언어 모델이 학습된 대규모 데이터 코퍼스와는 다르며, 대신 모델의 "작업 메모리"를 나타냅니다. 더 큰 컨텍스트 윈도우는 모델이 더 복잡하고 긴 프롬프트를 처리할 수 있게 합니다. 더 작은 컨텍스트 윈도우는 확장된 대화에서 모델의 일관성 유지 능력을 제한할 수 있습니다.

    아래 다이어그램은 API 요청에 대한 표준 컨텍스트 윈도우 동작을 보여줍니다1:

    컨텍스트 윈도우 다이어그램

    1claude.ai와 같은 채팅 인터페이스의 경우, 컨텍스트 윈도우는 롤링 "선입선출" 시스템으로 설정할 수도 있습니다.

    • 점진적 토큰 축적: 대화가 턴을 거치면서 각 사용자 메시지와 어시스턴트 응답이 컨텍스트 윈도우 내에 축적됩니다. 이전 턴은 완전히 보존됩니다.
    • 선형 성장 패턴: 컨텍스트 사용량은 각 턴마다 선형적으로 증가하며, 이전 턴은 완전히 보존됩니다.
    • 200K 토큰 용량: 총 사용 가능한 컨텍스트 윈도우(200,000 토큰)는 대화 기록을 저장하고 Claude에서 새로운 출력을 생성하기 위한 최대 용량을 나타냅니다.
    • 입력-출력 흐름: 각 턴은 다음으로 구성됩니다:
      • 입력 단계: 모든 이전 대화 기록과 현재 사용자 메시지를 포함합니다
      • 출력 단계: 향후 입력의 일부가 되는 텍스트 응답을 생성합니다

    확장된 사고가 포함된 컨텍스트 윈도우

    확장된 사고를 사용할 때, 사고에 사용된 토큰을 포함한 모든 입력 및 출력 토큰은 컨텍스트 윈도우 한계에 포함되며, 다중 턴 상황에서 몇 가지 뉘앙스가 있습니다.

    사고 예산 토큰은 max_tokens 매개변수의 하위 집합이며, 출력 토큰으로 청구되고 속도 제한에 포함됩니다. 적응형 사고를 사용하면 Claude가 사고 할당을 동적으로 결정하므로 실제 사고 토큰 사용량은 요청마다 다를 수 있습니다.

    그러나 이전 사고 블록은 Claude API에 의해 컨텍스트 윈도우 계산에서 자동으로 제거되며, 후속 턴에서 모델이 "보는" 대화 기록의 일부가 아니므로 실제 대화 콘텐츠를 위한 토큰 용량을 보존합니다.

    아래 다이어그램은 확장된 사고가 활성화되었을 때의 전문화된 토큰 관리를 보여줍니다:

    확장된 사고가 포함된 컨텍스트 윈도우 다이어그램

    • 확장된 사고 제거: 확장된 사고 블록(진한 회색으로 표시)은 각 턴의 출력 단계에서 생성되지만, 후속 턴의 입력 토큰으로 전달되지 않습니다. 사고 블록을 직접 제거할 필요가 없습니다. Claude API가 다시 전달하면 자동으로 이를 처리합니다.
    • 기술적 구현 세부 사항:
      • API는 대화 기록의 일부로 다시 전달할 때 이전 턴의 사고 블록을 자동으로 제외합니다.
      • 확장된 사고 토큰은 생성 시 한 번만 출력 토큰으로 청구됩니다.
      • 유효 컨텍스트 윈도우 계산은 다음과 같습니다: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • 사고 토큰에는 thinking 블록과 redacted_thinking 블록이 모두 포함됩니다.

    이 아키텍처는 토큰 효율적이며, 사고 블록이 상당한 길이가 될 수 있으므로 토큰 낭비 없이 광범위한 추론을 가능하게 합니다.

    컨텍스트 윈도우와 확장된 사고에 대한 자세한 내용은 확장된 사고 가이드에서 확인할 수 있습니다.

    확장된 사고와 도구 사용이 포함된 컨텍스트 윈도우

    아래 다이어그램은 확장된 사고와 도구 사용을 결합할 때의 컨텍스트 윈도우 토큰 관리를 보여줍니다:

    확장된 사고와 도구 사용이 포함된 컨텍스트 윈도우 다이어그램

    1. 1

      첫 번째 턴 아키텍처

      • 입력 구성 요소: 도구 구성 및 사용자 메시지
      • 출력 구성 요소: 확장된 사고 + 텍스트 응답 + 도구 사용 요청
      • 토큰 계산: 모든 입력 및 출력 구성 요소가 컨텍스트 윈도우에 포함되며, 모든 출력 구성 요소는 출력 토큰으로 청구됩니다.
    2. 2

      도구 결과 처리 (턴 2)

      • 입력 구성 요소: 첫 번째 턴의 모든 블록과 tool_result. 확장된 사고 블록은 해당 도구 결과와 함께 반드시 반환되어야 합니다. 이것은 사고 블록을 반드시 반환해야 하는 유일한 경우입니다.
      • 출력 구성 요소: 도구 결과가 Claude에 다시 전달된 후, Claude는 텍스트만으로 응답합니다(다음 user 메시지까지 추가 확장된 사고 없음).
      • 토큰 계산: 모든 입력 및 출력 구성 요소가 컨텍스트 윈도우에 포함되며, 모든 출력 구성 요소는 출력 토큰으로 청구됩니다.
    3. 3

      세 번째 단계

      • 입력 구성 요소: 이전 턴의 모든 입력과 출력이 전달되며, 사고 블록은 예외로 Claude가 전체 도구 사용 사이클을 완료했으므로 이제 삭제할 수 있습니다. API는 다시 전달하면 자동으로 사고 블록을 제거하거나, 이 단계에서 직접 제거할 수도 있습니다. 이것은 또한 다음 User 턴을 추가하는 곳입니다.
      • 출력 구성 요소: 도구 사용 사이클 외부에 새로운 User 턴이 있으므로, Claude는 새로운 확장된 사고 블록을 생성하고 거기서부터 계속합니다.
      • 토큰 계산: 이전 사고 토큰은 컨텍스트 윈도우 계산에서 자동으로 제거됩니다. 다른 모든 이전 블록은 여전히 토큰 윈도우의 일부로 포함되며, 현재 Assistant 턴의 사고 블록은 컨텍스트 윈도우의 일부로 포함됩니다.
    • 확장된 사고와 도구 사용 시 고려 사항:
      • 도구 결과를 게시할 때, 해당 특정 도구 요청에 수반되는 전체 수정되지 않은 사고 블록(서명/수정된 부분 포함)이 포함되어야 합니다.
      • 확장된 사고와 도구 사용에 대한 유효 컨텍스트 윈도우 계산은 다음과 같습니다: context_window = input_tokens + current_turn_tokens.
      • 시스템은 암호화 서명을 사용하여 사고 블록의 진위를 확인합니다. 도구 사용 중 사고 블록을 보존하지 않으면 Claude의 추론 연속성이 깨질 수 있습니다. 따라서 사고 블록을 수정하면 API가 오류를 반환합니다.

    Claude 4 모델은 인터리브 사고를 지원하여 Claude가 도구 호출 사이에 사고하고 도구 결과를 받은 후 더 정교한 추론을 할 수 있습니다.

    Claude Sonnet 3.7은 인터리브 사고를 지원하지 않으므로, tool_result가 아닌 사용자 턴 없이는 확장된 사고와 도구 호출의 인터리빙이 없습니다.

    확장된 사고와 도구 사용에 대한 자세한 내용은 확장된 사고 가이드를 참조하세요.

    1M 토큰 컨텍스트 윈도우

    Claude Opus 4.6, Sonnet 4.5, Sonnet 4는 100만 토큰 컨텍스트 윈도우를 지원합니다. 이 확장된 컨텍스트 윈도우를 통해 훨씬 더 큰 문서를 처리하고, 더 긴 대화를 유지하며, 더 광범위한 코드베이스로 작업할 수 있습니다.

    1M 토큰 컨텍스트 윈도우는 현재 사용 티어 4 및 맞춤 속도 제한이 있는 조직을 위한 베타 버전입니다. 1M 토큰 컨텍스트 윈도우는 Claude Opus 4.6, Sonnet 4.5, Sonnet 4에서만 사용할 수 있습니다.

    1M 토큰 컨텍스트 윈도우를 사용하려면 API 요청에 context-1m-2025-08-07 베타 헤더를 포함하세요:

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: context-1m-2025-08-07" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {"role": "user", "content": "Process this large document..."}
        ]
      }'

    중요 고려 사항:

    • 베타 상태: 이것은 변경될 수 있는 베타 기능입니다. 기능 및 가격은 향후 릴리스에서 수정되거나 제거될 수 있습니다.
    • 사용 티어 요구 사항: 1M 토큰 컨텍스트 윈도우는 사용 티어 4 및 맞춤 속도 제한이 있는 조직에서 사용할 수 있습니다. 하위 티어 조직은 이 기능에 액세스하려면 사용 티어 4로 승급해야 합니다.
    • 가용성: 1M 토큰 컨텍스트 윈도우는 현재 Claude API, Microsoft Foundry, Amazon Bedrock, Google Cloud의 Vertex AI에서 사용할 수 있습니다.
    • 가격: 200K 토큰을 초과하는 요청은 자동으로 프리미엄 요금(입력 2배, 출력 1.5배 가격)으로 청구됩니다. 자세한 내용은 가격 문서를 참조하세요.
    • 속도 제한: 긴 컨텍스트 요청에는 전용 속도 제한이 있습니다. 자세한 내용은 속도 제한 문서를 참조하세요.
    • 멀티모달 고려 사항: 많은 수의 이미지나 PDF를 처리할 때 파일의 토큰 사용량이 다를 수 있다는 점에 유의하세요. 큰 프롬프트와 많은 수의 이미지를 함께 사용할 때 요청 크기 제한에 도달할 수 있습니다.

    Claude Sonnet 4.5 및 Haiku 4.5의 컨텍스트 인식

    Claude Sonnet 4.5와 Claude Haiku 4.5는 컨텍스트 인식 기능을 갖추고 있습니다. 이 기능을 통해 이러한 모델은 대화 전반에 걸쳐 남은 컨텍스트 윈도우(즉, "토큰 예산")를 추적할 수 있습니다. 이를 통해 Claude는 작업할 수 있는 공간이 얼마나 남았는지 이해하여 작업을 실행하고 컨텍스트를 더 효과적으로 관리할 수 있습니다. Claude는 이 컨텍스트를 정확하게 사용하도록 학습되어, 남은 토큰 수를 추측하는 대신 맨 마지막까지 작업을 지속합니다. 모델에게 컨텍스트 인식이 없다는 것은 시계 없이 요리 대회에 참가하는 것과 같습니다. Claude 4.5 모델은 모델에게 남은 컨텍스트에 대해 명시적으로 알려줌으로써 이를 변경하여, 사용 가능한 토큰을 최대한 활용할 수 있게 합니다.

    작동 방식:

    대화 시작 시 Claude는 전체 컨텍스트 윈도우에 대한 정보를 받습니다:

    <budget:token_budget>200000</budget:token_budget>

    예산은 200K 토큰(표준), 500K 토큰(claude.ai Enterprise), 또는 1M 토큰(베타, 적격 조직용)으로 설정됩니다.

    각 도구 호출 후 Claude는 남은 용량에 대한 업데이트를 받습니다:

    <system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

    이 인식은 Claude가 작업에 남은 용량을 파악하는 데 도움이 되며, 장시간 실행되는 작업에서 더 효과적인 실행을 가능하게 합니다. 이미지 토큰도 이러한 예산에 포함됩니다.

    이점:

    컨텍스트 인식은 특히 다음에 유용합니다:

    • 지속적인 집중이 필요한 장시간 실행 에이전트 세션
    • 상태 전환이 중요한 다중 컨텍스트 윈도우 워크플로우
    • 신중한 토큰 관리가 필요한 복잡한 작업

    컨텍스트 인식을 활용하기 위한 프롬프팅 가이드는 프롬프팅 모범 사례 가이드를 참조하세요.

    압축을 통한 컨텍스트 관리

    대화가 정기적으로 컨텍스트 윈도우 한계에 도달하는 경우, 서버 측 압축이 권장되는 접근 방식입니다. 압축은 대화의 이전 부분을 자동으로 요약하는 서버 측 요약을 제공하여, 최소한의 통합 작업으로 컨텍스트 한계를 넘어서는 장시간 대화를 가능하게 합니다. 현재 Claude Opus 4.6에 대해 베타로 제공됩니다.

    보다 전문적인 요구 사항에 대해서는 컨텍스트 편집이 추가 전략을 제공합니다:

    • 도구 결과 지우기 - 에이전트 워크플로우에서 오래된 도구 결과 지우기
    • 사고 블록 지우기 - 확장된 사고와 함께 사고 블록 관리

    최신 Claude 모델의 컨텍스트 윈도우 관리

    최신 Claude 모델(Claude Sonnet 3.7부터)은 프롬프트와 출력 토큰이 컨텍스트 윈도우를 초과할 때 자동으로 잘라내는 대신 유효성 검사 오류를 반환합니다. 이 변경은 더 예측 가능한 동작을 제공하지만 더 신중한 토큰 관리가 필요합니다.

    Claude에 메시지를 보내기 전에 토큰 카운팅 API를 사용하여 토큰 사용량을 추정하세요. 이를 통해 계획을 세우고 컨텍스트 윈도우 한계 내에 머물 수 있습니다.

    모델별 컨텍스트 윈도우 크기 목록은 모델 비교 표를 참조하세요.

    다음 단계

    압축

    장시간 실행되는 대화에서 컨텍스트를 관리하기 위한 권장 전략입니다.

    컨텍스트 편집

    도구 결과 지우기 및 사고 블록 지우기와 같은 세밀한 전략입니다.

    모델 비교 표

    모델별 컨텍스트 윈도우 크기 및 입력/출력 토큰 가격 목록은 모델 비교 표를 참조하세요.

    확장된 사고 개요

    확장된 사고의 작동 방식과 도구 사용 및 프롬프트 캐싱과 같은 다른 기능과 함께 구현하는 방법에 대해 자세히 알아보세요.

    Was this page helpful?

    • 1M 토큰 컨텍스트 윈도우
    • Claude Sonnet 4.5 및 Haiku 4.5의 컨텍스트 인식
    • 최신 Claude 모델의 컨텍스트 윈도우 관리