Claude Platform Docs
  • Messages
  • Managed Agents
  • 관리자

Search...
⌘K

Log in
서비스 티어
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
API 레퍼런스/지원 및 구성

서비스 티어

다양한 서비스 티어를 통해 애플리케이션의 요구 사항에 따라 가용성, 성능 및 예측 가능한 비용 간의 균형을 맞출 수 있습니다.

Anthropic은 세 가지 서비스 티어를 제공합니다:

  • Priority Tier: 시간, 가용성 및 예측 가능한 가격이 중요한 프로덕션 환경에 배포된 워크플로에 가장 적합합니다
  • Standard: 일상적인 사용 사례의 파일럿 및 확장 모두를 위한 기본 티어입니다
  • Batch: 대기할 수 있거나 일반 용량 외부에서 처리되는 것이 유리한 비동기 워크플로에 가장 적합합니다

Standard Tier

Standard tier(표준 티어)는 모든 API 요청에 대한 기본 서비스 티어입니다. API는 이러한 요청을 다른 모든 요청과 함께 최선의 노력(best-effort) 가용성으로 우선순위를 지정합니다.

Priority Tier

API는 이 티어의 요청을 다른 모든 요청보다 우선적으로 처리합니다. 이러한 우선순위 지정은 피크 시간대에도 "서버 과부하" 오류를 최소화하는 데 도움이 됩니다.

자세한 내용은 Priority Tier 시작하기를 참조하세요.

요청에 티어가 할당되는 방식

요청을 처리할 때 Anthropic은 다음 시나리오에서 요청을 Priority Tier에 할당하기로 결정합니다:

  • 조직에 분당 충분한 Priority Tier 용량의 입력 토큰이 있는 경우
  • 조직에 분당 충분한 Priority Tier 용량의 출력 토큰이 있는 경우

Anthropic은 Priority Tier 용량에 대한 사용량을 다음과 같이 계산합니다:

입력 토큰

  • 캐시 읽기는 캐시에서 읽은 토큰당 0.1 토큰으로 계산됩니다
  • 5분 TTL로 캐시에 기록된 캐시 쓰기는 토큰당 1.25 토큰으로 계산됩니다
  • 1시간 TTL로 캐시에 기록된 캐시 쓰기는 토큰당 2.00 토큰으로 계산됩니다
  • Claude Opus 4.6, Claude Sonnet 4.6 및 이후 모델에서 미국 전용 추론(inference_geo: "us") 요청의 경우, 입력 토큰은 토큰당 1.1 토큰으로 계산됩니다
  • 그 외 모든 입력 토큰은 토큰당 1 토큰으로 계산됩니다

출력 토큰

  • Claude Opus 4.6, Claude Sonnet 4.6 및 이후 모델에서 미국 전용 추론(inference_geo: "us") 요청의 경우, 출력 토큰은 토큰당 1.1 토큰으로 계산됩니다
  • 그 외 모든 출력 토큰은 토큰당 1 토큰으로 계산됩니다

그렇지 않은 경우 요청은 Standard tier로 진행됩니다.



이러한 차감 비율은 각 토큰 유형의 상대적 가격을 반영합니다. 예를 들어, 미국 전용 추론은 Opus 4.6, Sonnet 4.6 및 이후 모델에서 1.1배로 가격이 책정되므로, inference_geo: "us"로 소비된 각 토큰은 Priority Tier 용량에서 1.1 토큰을 차감합니다.



Priority Tier에 할당된 요청은 Priority Tier 용량과 일반 속도 제한 모두에서 차감됩니다. 요청을 처리하면 속도 제한을 초과하게 되는 경우 해당 요청은 거부됩니다.

서비스 티어 사용하기

service_tier 매개변수를 설정하여 요청에 사용할 수 있는 서비스 티어를 제어할 수 있습니다:

Python
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

service_tier 매개변수는 다음 값을 허용합니다:

  • "auto" (기본값) - 사용 가능한 경우 Priority Tier 용량을 사용하고, 그렇지 않은 경우 다른 용량으로 대체합니다
  • "standard_only" - Standard tier 용량만 사용하며, Priority Tier 용량을 사용하고 싶지 않을 때 유용합니다

응답의 usage 객체에는 요청에 할당된 서비스 티어도 포함됩니다:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

이를 통해 요청에 어떤 서비스 티어가 할당되었는지 확인할 수 있습니다.

Priority Tier 약정이 있는 모델로 service_tier="auto"를 요청하는 경우, 다음 응답 헤더가 인사이트를 제공합니다:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

이러한 헤더의 존재 여부를 통해 요청이 한도를 초과했더라도 Priority Tier 대상이었는지 감지할 수 있습니다.

Priority Tier 시작하기

다음 사항에 관심이 있다면 Priority Tier 용량 약정을 고려해 볼 수 있습니다:

  • 더 높은 가용성: 우선순위가 지정된 컴퓨팅 리소스로 99.5% 가동 시간 목표
  • 비용 관리: 예측 가능한 지출 및 장기 약정에 대한 할인
  • 유연한 오버플로: 약정된 용량을 초과하면 자동으로 Standard tier로 대체됩니다

Priority Tier 약정에는 다음 사항을 결정해야 합니다:

  • 분당 입력 토큰 수
  • 분당 출력 토큰 수
  • 약정 기간(1, 3, 6 또는 12개월)
  • 특정 모델 버전


구매하는 입력 대 출력 토큰의 비율이 중요합니다. Priority Tier 용량을 실제 트래픽 패턴에 맞게 조정하면 구매한 토큰의 활용도를 극대화하는 데 도움이 됩니다.

지원되는 모델

Priority Tier는 Claude Mythos Preview 및 Claude Mythos 5를 제외한 모든 사용 가능한 Claude 모델(Claude Fable 5 및 Claude Opus 4.8 포함)에서 지원됩니다.

사용 가능한 모델에 대한 자세한 내용은 모델 개요를 확인하세요.

Priority Tier 액세스 방법

Priority Tier 사용을 시작하려면:

  1. 영업팀에 문의하여 프로비저닝을 완료하세요.
  2. (선택 사항) API 요청을 업데이트하여 service_tier 매개변수를 auto로 설정하세요.
  3. 응답 헤더와 Claude Console을 통해 사용량을 모니터링하세요.

Was this page helpful?

  • Standard Tier
  • Priority Tier
  • 요청에 티어가 할당되는 방식
  • 서비스 티어 사용하기
  • Priority Tier 시작하기
  • 지원되는 모델
  • Priority Tier 액세스 방법