"컨텍스트 윈도우"는 언어 모델이 새로운 텍스트를 생성할 때 참조할 수 있는 텍스트의 전체 양과 생성하는 새로운 텍스트를 의미합니다. 이는 언어 모델이 학습한 대규모 데이터 코퍼스와는 다르며, 대신 모델의 "작업 메모리"를 나타냅니다. 더 큰 컨텍스트 윈도우는 모델이 더 복잡하고 긴 프롬프트를 이해하고 응답할 수 있게 하며, 더 작은 컨텍스트 윈도우는 모델의 긴 프롬프트 처리 능력이나 확장된 대화에서의 일관성 유지 능력을 제한할 수 있습니다.
아래 다이어그램은 API 요청에 대한 표준 컨텍스트 윈도우 동작을 보여줍니다1:
1claude.ai와 같은 채팅 인터페이스의 경우, 컨텍스트 윈도우는 "선입선출" 롤링 시스템으로도 설정할 수 있습니다.
확장된 사고를 사용할 때, 사고에 사용된 토큰을 포함한 모든 입력 및 출력 토큰은 컨텍스트 윈도우 제한에 포함되며, 다중 턴 상황에서 몇 가지 미묘한 차이가 있습니다.
사고 예산 토큰은 max_tokens 매개변수의 부분집합이며, 출력 토큰으로 청구되고 속도 제한에 포함됩니다.
그러나 이전 사고 블록은 Claude API에 의해 자동으로 컨텍스트 윈도우 계산에서 제거되며 모델이 후속 턴에서 "보는" 대화 기록의 일부가 아니므로, 실제 대화 내용을 위한 토큰 용량을 보존합니다.
아래 다이어그램은 확장된 사고가 활성화되었을 때의 특수한 토큰 관리를 보여줍니다:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking 블록과 redacted_thinking 블록을 모두 포함합니다.이 아키텍처는 토큰 효율적이며 사고 블록이 상당한 길이일 수 있으므로 광범위한 추론을 토큰 낭비 없이 가능하게 합니다.
컨텍스트 윈도우 및 확장된 사고에 대해 자세히 알아보려면 확장된 사고 가이드를 참조하세요.
아래 다이어그램은 확장된 사고와 도구 사용을 결합할 때의 컨텍스트 윈도우 토큰 관리를 보여줍니다:
첫 번째 턴 아키텍처
도구 결과 처리(턴 2)
tool_result. 확장된 사고 블록은 반드시 해당 도구 결과와 함께 반환되어야 합니다. 이것이 사고 블록을 반드시 반환해야 하는 유일한 경우입니다.user 메시지까지 추가 확장된 사고 없음).세 번째 단계
User 턴을 추가할 위치입니다.User 턴이 있으므로, Claude는 새로운 확장된 사고 블록을 생성하고 계속 진행합니다.Assistant 턴의 사고 블록은 컨텍스트 윈도우의 일부로 계산됩니다.context_window = input_tokens + current_turn_tokens.Claude 4 모델은 인터리브된 사고를 지원하며, 이를 통해 Claude는 도구 호출 사이에 생각하고 도구 결과를 받은 후 더 정교한 추론을 할 수 있습니다.
Claude Sonnet 3.7은 인터리브된 사고를 지원하지 않으므로, 비tool_result 사용자 턴 없이 확장된 사고와 도구 호출의 인터리빙이 없습니다.
도구와 함께 확장된 사고를 사용하는 방법에 대한 자세한 정보는 확장된 사고 가이드를 참조하세요.
Claude Sonnet 4 및 4.5는 1백만 토큰 컨텍스트 윈도우를 지원합니다. 이 확장된 컨텍스트 윈도우를 통해 훨씬 더 큰 문서를 처리하고, 더 긴 대화를 유지하며, 더 광범위한 코드베이스로 작업할 수 있습니다.
1M 토큰 컨텍스트 윈도우는 현재 사용 계층 4의 조직 및 사용자 정의 속도 제한이 있는 조직에 대해 베타 버전입니다. 1M 토큰 컨텍스트 윈도우는 Claude Sonnet 4 및 Sonnet 4.5에서만 사용 가능합니다.
1M 토큰 컨텍스트 윈도우를 사용하려면 API 요청에 context-1m-2025-08-07 베타 헤더를 포함하세요:
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)중요 고려사항:
Claude Sonnet 4.5 및 Claude Haiku 4.5는 컨텍스트 인식 기능을 갖추고 있으며, 이러한 모델이 대화 전체에서 남은 컨텍스트 윈도우(즉, "토큰 예산")를 추적할 수 있게 합니다. 이를 통해 Claude는 작업할 수 있는 공간의 크기를 이해함으로써 작업을 실행하고 컨텍스트를 더 효과적으로 관리할 수 있습니다. Claude는 남은 토큰 수를 추측해야 하는 대신, 정확히 이 컨텍스트를 사용하여 작업을 끝까지 지속하도록 기본적으로 학습되었습니다. 모델의 경우, 컨텍스트 인식이 없는 것은 시계 없이 요리 쇼에 참가하는 것과 같습니다. Claude 4.5 모델은 모델에 남은 컨텍스트를 명시적으로 알려줌으로써 이를 변경하므로, 사용 가능한 토큰을 최대한 활용할 수 있습니다.
작동 방식:
대화 시작 시 Claude는 총 컨텍스트 윈도우에 대한 정보를 받습니다:
<budget:token_budget>200000</budget:token_budget>예산은 200K 토큰(표준), 500K 토큰(Claude.ai Enterprise) 또는 1M 토큰(베타, 적격 조직의 경우)으로 설정됩니다.
각 도구 호출 후 Claude는 남은 용량에 대한 업데이트를 받습니다:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>이 인식은 Claude가 작업에 남은 용량을 결정하는 데 도움이 되며 장시간 실행되는 작업에서 더 효과적인 실행을 가능하게 합니다. 이미지 토큰은 이러한 예산에 포함됩니다.
이점:
컨텍스트 인식은 특히 다음에 유용합니다:
프롬프팅 지침을 통해 컨텍스트 인식을 활용하려면 Claude 4 모범 사례 가이드를 참조하세요.
최신 Claude 모델(Claude Sonnet 3.7부터 시작)에서, 프롬프트 토큰과 출력 토큰의 합이 모델의 컨텍스트 윈도우를 초과하면, 시스템은 컨텍스트를 자동으로 자르는 대신 검증 오류를 반환합니다. 이 변경은 더 예측 가능한 동작을 제공하지만 더 신중한 토큰 관리가 필요합니다.
토큰 사용을 계획하고 컨텍스트 윈도우 제한 내에 머물러 있는지 확인하려면, 토큰 계산 API를 사용하여 Claude로 보내기 전에 메시지가 사용할 토큰 수를 추정할 수 있습니다.
모델별 컨텍스트 윈도우 크기 목록은 모델 비교 표를 참조하세요.