Claude Platform Docs
  • Messages
  • Managed Agents
  • 관리자

Search...
⌘K

Log in
속도 제한
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
API 레퍼런스/지원 및 구성

속도 제한

오용을 방지하고 API 용량을 관리하기 위해 조직이 Claude API를 사용할 수 있는 양에 제한이 적용됩니다.


AWS 기반 Claude Platform: 이 페이지의 속도 제한이 적용됩니다. 청구 및 지출 한도는 다릅니다. 지출 한도는 제공되지 않으며, 청구는 Anthropic 크레딧 구매가 아닌 AWS Marketplace를 통해 이루어집니다. 조직은 Tier 1에서 시작합니다. 속도 제한 상향은 Anthropic 계정 담당자를 통해 진행되며, 자동 티어 승급은 없고 워크스페이스별 속도 제한 구성은 제공되지 않습니다. Fast mode는 AWS 기반 Claude Platform에서 사용할 수 없습니다.

제한에는 두 가지 유형이 있습니다.

  1. 지출 한도는 조직이 API 사용에 대해 발생시킬 수 있는 최대 월간 비용을 설정합니다.
  2. 속도 제한은 조직이 정의된 기간 동안 수행할 수 있는 최대 API 요청 수를 설정합니다.

API는 조직 수준에서 서비스 구성 제한을 적용하지만, 조직의 워크스페이스에 대해 사용자 구성 가능한 제한을 설정할 수도 있습니다.

이러한 제한은 Standard Tier와 Priority Tier 사용 모두에 적용됩니다. 약정 지출의 대가로 향상된 서비스 수준을 제공하는 Priority Tier에 대한 자세한 내용은 서비스 티어를 참조하세요.

속도 제한 소개

  • 제한은 일반적인 고객 사용 패턴에 미치는 영향을 최소화하면서 API 남용을 방지하도록 설계되었습니다.
  • 제한은 사용 티어별로 정의되며, 각 티어는 서로 다른 지출 및 속도 제한 세트와 연결됩니다.
  • API를 사용하면서 특정 임계값에 도달하면 조직의 티어가 자동으로 상향됩니다. 제한은 조직 수준에서 설정됩니다. Claude Console의 Limits 페이지에서 조직의 제한을 확인할 수 있습니다.
  • 더 짧은 시간 간격에서 속도 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)의 속도는 초당 1개 요청으로 적용될 수 있습니다. 짧은 시간에 집중된 요청은 제한을 초과하여 속도 제한 오류를 유발할 수 있습니다.
  • 아래에 설명된 제한은 표준 티어 제한입니다. 더 높은 맞춤형 제한이나 향상된 서비스 수준을 위한 Priority Tier를 원하시면 Limits 페이지에서 영업팀에 문의하세요.
  • API는 토큰 버킷 알고리즘을 사용하여 속도 제한을 수행합니다. 즉, 용량이 고정된 간격으로 재설정되는 것이 아니라 최대 제한까지 지속적으로 보충됩니다.
  • 여기에 설명된 모든 제한은 보장된 최소값이 아니라 허용되는 최대 사용량을 나타냅니다. 이러한 제한은 의도하지 않은 과다 지출을 줄이고 사용자 간에 리소스를 공정하게 분배하기 위한 것입니다.

지출 한도

각 사용 티어에는 매월 API에 지출할 수 있는 금액에 대한 한도가 있습니다. 해당 티어의 지출 한도에 도달하면 다음 티어 자격을 얻을 때까지 다음 달까지 기다려야 API를 다시 사용할 수 있습니다.

다음 티어 자격을 얻으려면 예치금 요건을 충족해야 합니다. 계정에 과도한 자금이 예치되는 위험을 최소화하기 위해 월간 지출 한도를 초과하여 예치할 수 없습니다.

티어 승급 요건

사용 티어크레딧 구매최대 크레딧 구매월간 지출 한도
Tier 1$5$500$500
Tier 2$40$500$500
Tier 3$200$1,000$1,000
Tier 4$400$200,000$200,000
월간 인보이스해당 없음해당 없음제한 없음


크레딧 구매는 해당 티어로 승급하는 데 필요한 누적 크레딧 구매액(세금 제외)을 나타냅니다. 임계값에 도달하면 즉시 승급됩니다.

최대 크레딧 구매는 계정 과다 충전을 방지하기 위해 단일 거래로 계정에 추가할 수 있는 최대 금액을 제한합니다.

월간 지출 한도는 해당 티어에서 매월 API에 지출할 수 있는 최대 금액입니다.

지출 한도 상향

조직에는 두 가지 종류의 지출 한도가 있습니다. 직접 제어하는 고객 설정 한도와 사용 티어에 의해 설정되는 티어 적용 상한입니다. 각각 상향하는 절차가 다릅니다.

고객 설정 지출 한도

비용을 제어하기 위해 티어의 상한보다 낮은 지출 한도를 설정할 수 있습니다. 조정하려면 다음을 수행하세요.

  1. 1

    Limits 페이지로 이동

    Claude Console에서 Settings > Limits로 이동하세요.

  2. 2

    지출 한도 편집기 열기

    Spend limits 섹션에서 Change Limit(또는 현재 한도가 설정되지 않은 경우 Set spend limit)을 클릭하세요.

  3. 3

    지출 한도 조정

    새 값을 입력하세요. 고객 설정 한도는 현재 티어의 한도를 초과할 수 없습니다.

티어 적용 지출 한도

티어의 상한보다 높은 한도가 필요한 경우(Tier 4의 상한은 월 $200,000), Limits 페이지에서 Contact Sales를 클릭하세요. 그러면 새 탭에서 문의 양식이 열리며, 조직이 업그레이드되면 영업팀 담당자가 이메일로 후속 연락을 드립니다.

월간 인보이스는 월간 지출 상한을 완전히 제거하며 기본적으로 Net-30 결제 조건을 사용합니다.



지원팀도 티어 적용 한도를 상향할 수 있습니다. 긴급한 경우 지원팀에 문의하세요.

속도 제한

Messages API의 속도 제한은 각 모델 클래스에 대해 "requests per minute"(분당 요청 수), 즉 RPM, "input tokens per minute"(분당 입력 토큰 수), 즉 ITPM, "output tokens per minute"(분당 출력 토큰 수), 즉 OTPM으로 측정됩니다. 속도 제한 중 하나라도 초과하면 어떤 속도 제한이 초과되었는지 설명하는 429 오류와 함께 대기 시간을 나타내는 retry-after 헤더를 받게 됩니다.



조직의 사용량이 급격히 증가하는 경우 API의 가속 제한으로 인해 429 오류가 발생할 수도 있습니다. 가속 제한에 도달하지 않으려면 트래픽을 점진적으로 늘리고 일관된 사용 패턴을 유지하세요.

캐시 인식 ITPM

많은 API 제공업체는 캐시된 토큰과 캐시되지 않은 토큰, 입력 및 출력을 모두 포함할 수 있는 통합 "tokens per minute"(분당 토큰 수), 즉 TPM 제한을 사용합니다. 대부분의 Claude 모델에서는 캐시되지 않은 입력 토큰만 ITPM 속도 제한에 포함됩니다. 이는 속도 제한이 처음 보이는 것보다 실질적으로 더 높게 작용하도록 하는 주요 이점입니다.

ITPM 속도 제한은 각 요청 시작 시 추정되며, 요청 중에 실제 사용된 입력 토큰 수를 반영하도록 추정치가 조정됩니다.

ITPM에 포함되는 항목은 다음과 같습니다.

  • input_tokens (마지막 캐시 중단점 이후의 토큰) ✓ ITPM에 포함됨
  • cache_creation_input_tokens (캐시에 기록되는 토큰) ✓ ITPM에 포함됨
  • cache_read_input_tokens (캐시에서 읽은 토큰) ✗ 대부분의 모델에서 ITPM에 포함되지 않음


input_tokens 필드는 요청의 모든 입력 토큰이 아니라 마지막 캐시 중단점 이후에 나타나는 토큰만 나타냅니다. 총 입력 토큰을 계산하려면 다음을 사용하세요.

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

즉, 캐시된 콘텐츠가 있는 경우 input_tokens는 일반적으로 총 입력보다 훨씬 작습니다. 예를 들어, 200k 토큰의 캐시된 문서와 50 토큰의 사용자 질문이 있는 경우 총 입력이 200,050 토큰이더라도 input_tokens: 50으로 표시됩니다.

대부분의 모델에서 속도 제한 목적으로는 input_tokens + cache_creation_input_tokens만 ITPM 제한에 포함되므로, 프롬프트 캐싱은 실질적인 처리량을 늘리는 효과적인 방법입니다.

예시: ITPM 제한이 2,000,000이고 캐시 적중률이 80%인 경우, 캐시된 토큰은 속도 제한에 포함되지 않으므로 분당 총 10,000,000개의 입력 토큰(캐시되지 않은 2M + 캐시된 8M)을 실질적으로 처리할 수 있습니다.



Claude Haiku 3.5(다음 속도 제한 표에서 †로 표시됨)는 cache_read_input_tokens도 ITPM 속도 제한에 포함합니다.

† 표시가 없는 모든 모델의 경우, 캐시된 입력 토큰은 속도 제한에 포함되지 않으며 할인된 요금(기본 입력 토큰 가격의 10%)으로 청구됩니다. 즉, 프롬프트 캐싱을 사용하면 실질적인 처리량을 크게 높일 수 있습니다.



프롬프트 캐싱으로 속도 제한 극대화하기

속도 제한을 최대한 활용하려면 다음과 같은 반복 콘텐츠에 프롬프트 캐싱을 사용하세요.

  • 시스템 지침 및 프롬프트
  • 대용량 컨텍스트 문서
  • 도구 정의
  • 대화 기록

효과적인 캐싱을 통해 속도 제한을 늘리지 않고도 실제 처리량을 크게 높일 수 있습니다. Usage 페이지에서 캐시 적중률을 모니터링하여 캐싱 전략을 최적화하세요.

OTPM 속도 제한은 출력 토큰이 생성되는 동안 실시간으로 평가되며, 실제로 생성된 토큰만 계산합니다. max_tokens 매개변수는 OTPM 속도 제한 계산에 반영되지 않으므로, 더 높은 max_tokens 값을 설정해도 속도 제한 측면에서 불이익이 없습니다.

속도 제한은 각 모델에 대해 별도로 적용되므로, 서로 다른 모델을 각각의 제한까지 동시에 사용할 수 있습니다. Claude Console에서 현재 속도 제한 및 동작을 확인하거나, Rate Limits API를 사용하여 구성된 제한을 프로그래밍 방식으로 읽을 수 있습니다.



속도 제한은 현재 모든 inference_geo 값에서 공유됩니다. inference_geo: "us"와 inference_geo: "global"을 사용하는 요청은 동일한 속도 제한 풀에서 차감됩니다.

* - Opus 속도 제한은 Claude Opus 4.8, Opus 4.7, Opus 4.6, Opus 4.5 및 Opus 4.1(지원 중단됨)의 통합 트래픽에 적용되는 총 제한입니다.

** - Sonnet 4.x 속도 제한은 Sonnet 4.6 및 Sonnet 4.5의 통합 트래픽에 적용되는 총 제한입니다.

† - 제한이 cache_read_input_tokens를 ITPM 사용량에 포함합니다.

Message Batches API

Message Batches API에는 모든 모델에서 공유되는 자체 속도 제한 세트가 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 대기열에 있을 수 있는 배치 요청 수에 대한 제한이 포함됩니다. 여기서 "배치 요청"은 Message Batch의 일부를 의미합니다. 수천 개의 배치 요청을 포함하는 Message Batch를 생성할 수 있으며, 각 요청은 이 제한에 포함됩니다. 배치 요청은 모델에 의해 아직 성공적으로 처리되지 않은 경우 처리 대기열의 일부로 간주됩니다.

Managed Agents

Claude Managed Agents 엔드포인트는 조직별로 속도 제한이 적용됩니다. 이러한 제한은 위의 Messages API 속도 제한과 별개입니다.

작업제한
생성 엔드포인트(예: 에이전트, 세션, 환경)분당 300개 요청
읽기 엔드포인트(예: 조회, 목록, 스트림)분당 600개 요청

Fast mode 속도 제한

Claude Opus 4.8, Opus 4.7 또는 Opus 4.6에서 speed: "fast"로 fast mode(연구 프리뷰)를 사용하는 경우, 표준 Opus 속도 제한과 별개인 전용 속도 제한이 적용됩니다. Fast mode 속도 제한을 초과하면 API는 retry-after 헤더와 함께 429 오류를 반환합니다.

응답에는 fast mode 속도 제한 상태를 나타내는 anthropic-fast-* 헤더가 포함됩니다. 이러한 헤더에 대한 자세한 내용은 Fast mode를 참조하세요.

Console에서 속도 제한 모니터링

Claude Console의 Usage 페이지에서 속도 제한 사용량을 모니터링할 수 있습니다.

토큰 및 요청 차트를 제공하는 것 외에도 Usage 페이지는 두 개의 별도 속도 제한 차트를 제공합니다. 이러한 차트를 사용하여 성장할 수 있는 여유 공간, 최대 사용량에 도달하는 시점, 요청할 속도 제한, 캐싱 비율을 개선하는 방법을 더 잘 이해할 수 있습니다. 차트는 주어진 속도 제한(예: 모델별)에 대한 여러 지표를 시각화합니다.

  • Rate Limit - Input Tokens 차트에는 다음이 포함됩니다.
    • 시간당 최대 캐시되지 않은 분당 입력 토큰 수
    • 현재 분당 입력 토큰 속도 제한
    • 입력 토큰의 캐시 비율(즉, 캐시에서 읽은 입력 토큰의 백분율)
  • Rate Limit - Output Tokens 차트에는 다음이 포함됩니다.
    • 시간당 최대 분당 출력 토큰 수
    • 현재 분당 출력 토큰 속도 제한

워크스페이스에 더 낮은 제한 설정

워크스페이스에 대한 자세한 내용은 워크스페이스를 참조하세요.

조직의 워크스페이스를 잠재적인 과다 사용으로부터 보호하기 위해 워크스페이스별로 맞춤형 지출 및 속도 제한을 설정할 수 있습니다.

예시: 조직의 제한이 분당 40,000개 입력 토큰 및 분당 8,000개 출력 토큰인 경우, 한 워크스페이스를 분당 30,000개 입력 토큰으로 제한할 수 있습니다. 이렇게 하면 다른 워크스페이스를 잠재적인 과다 사용으로부터 보호하고 조직 전체에서 리소스를 더 공평하게 분배할 수 있습니다. 남은 분당 미사용 토큰(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 그 이상)은 다른 워크스페이스에서 사용할 수 있습니다.

참고:

  • 기본 워크스페이스에는 제한을 설정할 수 없습니다.
  • 설정하지 않으면 워크스페이스 제한은 조직의 제한과 일치합니다.
  • 워크스페이스 제한은 제한 유형별(예: 분당 요청 수, 분당 입력 토큰 수, 분당 출력 토큰 수)로 설정됩니다.
  • 워크스페이스 제한의 합계가 더 크더라도 조직 전체 제한은 항상 적용됩니다.

현재 조직 및 워크스페이스 속도 제한을 프로그래밍 방식으로 읽으려면 Rate Limits API를 사용하세요.

응답 헤더

API 응답에는 적용된 속도 제한, 현재 사용량 및 제한이 재설정되는 시점을 보여주는 헤더가 포함됩니다.

다음 헤더가 반환됩니다.

헤더설명
retry-after요청을 재시도할 수 있을 때까지 대기해야 하는 시간(초)입니다. 더 이른 재시도는 실패합니다.
anthropic-ratelimit-requests-limit속도 제한 기간 내에 허용되는 최대 요청 수입니다.
anthropic-ratelimit-requests-remaining속도 제한이 적용되기 전까지 남은 요청 수입니다.
anthropic-ratelimit-requests-reset요청 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-tokens-limit속도 제한 기간 내에 허용되는 최대 토큰 수입니다.
anthropic-ratelimit-tokens-remaining속도 제한이 적용되기 전까지 남은 토큰 수(천 단위로 반올림)입니다.
anthropic-ratelimit-tokens-reset토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-input-tokens-limit속도 제한 기간 내에 허용되는 최대 입력 토큰 수입니다.
anthropic-ratelimit-input-tokens-remaining속도 제한이 적용되기 전까지 남은 입력 토큰 수(천 단위로 반올림)입니다.
anthropic-ratelimit-input-tokens-reset입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-output-tokens-limit속도 제한 기간 내에 허용되는 최대 출력 토큰 수입니다.
anthropic-ratelimit-output-tokens-remaining속도 제한이 적용되기 전까지 남은 출력 토큰 수(천 단위로 반올림)입니다.
anthropic-ratelimit-output-tokens-reset출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-priority-input-tokens-limit속도 제한 기간 내에 허용되는 최대 Priority Tier 입력 토큰 수입니다. (Priority Tier 전용)
anthropic-priority-input-tokens-remaining속도 제한이 적용되기 전까지 남은 Priority Tier 입력 토큰 수(천 단위로 반올림)입니다. (Priority Tier 전용)
anthropic-priority-input-tokens-resetPriority Tier 입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용)
anthropic-priority-output-tokens-limit속도 제한 기간 내에 허용되는 최대 Priority Tier 출력 토큰 수입니다. (Priority Tier 전용)
anthropic-priority-output-tokens-remaining속도 제한이 적용되기 전까지 남은 Priority Tier 출력 토큰 수(천 단위로 반올림)입니다. (Priority Tier 전용)
anthropic-priority-output-tokens-resetPriority Tier 출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용)

anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 속도 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우 헤더는 남은 총 토큰 수를 반환하며, 여기서 총합은 입력 토큰과 출력 토큰의 합입니다. 이 방식은 현재 API 사용에 대한 가장 관련성 높은 제약 조건을 파악할 수 있도록 보장합니다.

Was this page helpful?

  • 속도 제한 소개
  • 지출 한도
  • 티어 승급 요건
  • 지출 한도 상향
  • 고객 설정 지출 한도
  • 티어 적용 지출 한도
  • 속도 제한
  • 캐시 인식 ITPM
  • Message Batches API
  • Managed Agents
  • Fast mode 속도 제한
  • Console에서 속도 제한 모니터링
  • 워크스페이스에 더 낮은 제한 설정
  • 응답 헤더