AWS 기반 Claude Platform: 이 페이지의 속도 제한이 적용됩니다. 청구 및 지출 한도는 다릅니다. 지출 한도는 제공되지 않으며, 청구는 Anthropic 크레딧 구매가 아닌 AWS Marketplace를 통해 이루어집니다. 조직은 Tier 1에서 시작합니다. 속도 제한 상향은 Anthropic 계정 담당자를 통해 진행되며, 자동 티어 승급은 없고 워크스페이스별 속도 제한 구성은 제공되지 않습니다. Fast mode는 AWS 기반 Claude Platform에서 사용할 수 없습니다.
제한에는 두 가지 유형이 있습니다.
API는 조직 수준에서 서비스 구성 제한을 적용하지만, 조직의 워크스페이스에 대해 사용자 구성 가능한 제한을 설정할 수도 있습니다.
이러한 제한은 Standard Tier와 Priority Tier 사용 모두에 적용됩니다. 약정 지출의 대가로 향상된 서비스 수준을 제공하는 Priority Tier에 대한 자세한 내용은 서비스 티어를 참조하세요.
각 사용 티어에는 매월 API에 지출할 수 있는 금액에 대한 한도가 있습니다. 해당 티어의 지출 한도에 도달하면 다음 티어 자격을 얻을 때까지 다음 달까지 기다려야 API를 다시 사용할 수 있습니다.
다음 티어 자격을 얻으려면 예치금 요건을 충족해야 합니다. 계정에 과도한 자금이 예치되는 위험을 최소화하기 위해 월간 지출 한도를 초과하여 예치할 수 없습니다.
| 사용 티어 | 크레딧 구매 | 최대 크레딧 구매 | 월간 지출 한도 |
|---|---|---|---|
| Tier 1 | $5 | $500 | $500 |
| Tier 2 | $40 | $500 | $500 |
| Tier 3 | $200 | $1,000 | $1,000 |
| Tier 4 | $400 | $200,000 | $200,000 |
| 월간 인보이스 | 해당 없음 | 해당 없음 | 제한 없음 |
크레딧 구매는 해당 티어로 승급하는 데 필요한 누적 크레딧 구매액(세금 제외)을 나타냅니다. 임계값에 도달하면 즉시 승급됩니다.
최대 크레딧 구매는 계정 과다 충전을 방지하기 위해 단일 거래로 계정에 추가할 수 있는 최대 금액을 제한합니다.
월간 지출 한도는 해당 티어에서 매월 API에 지출할 수 있는 최대 금액입니다.
조직에는 두 가지 종류의 지출 한도가 있습니다. 직접 제어하는 고객 설정 한도와 사용 티어에 의해 설정되는 티어 적용 상한입니다. 각각 상향하는 절차가 다릅니다.
비용을 제어하기 위해 티어의 상한보다 낮은 지출 한도를 설정할 수 있습니다. 조정하려면 다음을 수행하세요.
Limits 페이지로 이동
Claude Console에서 Settings > Limits로 이동하세요.
지출 한도 편집기 열기
Spend limits 섹션에서 Change Limit(또는 현재 한도가 설정되지 않은 경우 Set spend limit)을 클릭하세요.
지출 한도 조정
새 값을 입력하세요. 고객 설정 한도는 현재 티어의 한도를 초과할 수 없습니다.
티어의 상한보다 높은 한도가 필요한 경우(Tier 4의 상한은 월 $200,000), Limits 페이지에서 Contact Sales를 클릭하세요. 그러면 새 탭에서 문의 양식이 열리며, 조직이 업그레이드되면 영업팀 담당자가 이메일로 후속 연락을 드립니다.
월간 인보이스는 월간 지출 상한을 완전히 제거하며 기본적으로 Net-30 결제 조건을 사용합니다.
지원팀도 티어 적용 한도를 상향할 수 있습니다. 긴급한 경우 지원팀에 문의하세요.
Messages API의 속도 제한은 각 모델 클래스에 대해 "requests per minute"(분당 요청 수), 즉 RPM, "input tokens per minute"(분당 입력 토큰 수), 즉 ITPM, "output tokens per minute"(분당 출력 토큰 수), 즉 OTPM으로 측정됩니다.
속도 제한 중 하나라도 초과하면 어떤 속도 제한이 초과되었는지 설명하는 429 오류와 함께 대기 시간을 나타내는 retry-after 헤더를 받게 됩니다.
조직의 사용량이 급격히 증가하는 경우 API의 가속 제한으로 인해 429 오류가 발생할 수도 있습니다. 가속 제한에 도달하지 않으려면 트래픽을 점진적으로 늘리고 일관된 사용 패턴을 유지하세요.
많은 API 제공업체는 캐시된 토큰과 캐시되지 않은 토큰, 입력 및 출력을 모두 포함할 수 있는 통합 "tokens per minute"(분당 토큰 수), 즉 TPM 제한을 사용합니다. 대부분의 Claude 모델에서는 캐시되지 않은 입력 토큰만 ITPM 속도 제한에 포함됩니다. 이는 속도 제한이 처음 보이는 것보다 실질적으로 더 높게 작용하도록 하는 주요 이점입니다.
ITPM 속도 제한은 각 요청 시작 시 추정되며, 요청 중에 실제 사용된 입력 토큰 수를 반영하도록 추정치가 조정됩니다.
ITPM에 포함되는 항목은 다음과 같습니다.
input_tokens (마지막 캐시 중단점 이후의 토큰) ✓ ITPM에 포함됨cache_creation_input_tokens (캐시에 기록되는 토큰) ✓ ITPM에 포함됨cache_read_input_tokens (캐시에서 읽은 토큰) ✗ 대부분의 모델에서 ITPM에 포함되지 않음input_tokens 필드는 요청의 모든 입력 토큰이 아니라 마지막 캐시 중단점 이후에 나타나는 토큰만 나타냅니다. 총 입력 토큰을 계산하려면 다음을 사용하세요.
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens즉, 캐시된 콘텐츠가 있는 경우 input_tokens는 일반적으로 총 입력보다 훨씬 작습니다. 예를 들어, 200k 토큰의 캐시된 문서와 50 토큰의 사용자 질문이 있는 경우 총 입력이 200,050 토큰이더라도 input_tokens: 50으로 표시됩니다.
대부분의 모델에서 속도 제한 목적으로는 input_tokens + cache_creation_input_tokens만 ITPM 제한에 포함되므로, 프롬프트 캐싱은 실질적인 처리량을 늘리는 효과적인 방법입니다.
예시: ITPM 제한이 2,000,000이고 캐시 적중률이 80%인 경우, 캐시된 토큰은 속도 제한에 포함되지 않으므로 분당 총 10,000,000개의 입력 토큰(캐시되지 않은 2M + 캐시된 8M)을 실질적으로 처리할 수 있습니다.
Claude Haiku 3.5(다음 속도 제한 표에서 †로 표시됨)는 cache_read_input_tokens도 ITPM 속도 제한에 포함합니다.
† 표시가 없는 모든 모델의 경우, 캐시된 입력 토큰은 속도 제한에 포함되지 않으며 할인된 요금(기본 입력 토큰 가격의 10%)으로 청구됩니다. 즉, 프롬프트 캐싱을 사용하면 실질적인 처리량을 크게 높일 수 있습니다.
OTPM 속도 제한은 출력 토큰이 생성되는 동안 실시간으로 평가되며, 실제로 생성된 토큰만 계산합니다. max_tokens 매개변수는 OTPM 속도 제한 계산에 반영되지 않으므로, 더 높은 max_tokens 값을 설정해도 속도 제한 측면에서 불이익이 없습니다.
속도 제한은 각 모델에 대해 별도로 적용되므로, 서로 다른 모델을 각각의 제한까지 동시에 사용할 수 있습니다. Claude Console에서 현재 속도 제한 및 동작을 확인하거나, Rate Limits API를 사용하여 구성된 제한을 프로그래밍 방식으로 읽을 수 있습니다.
속도 제한은 현재 모든 inference_geo 값에서 공유됩니다. inference_geo: "us"와 inference_geo: "global"을 사용하는 요청은 동일한 속도 제한 풀에서 차감됩니다.
* - Opus 속도 제한은 Claude Opus 4.8, Opus 4.7, Opus 4.6, Opus 4.5 및 Opus 4.1(지원 중단됨)의 통합 트래픽에 적용되는 총 제한입니다.
** - Sonnet 4.x 속도 제한은 Sonnet 4.6 및 Sonnet 4.5의 통합 트래픽에 적용되는 총 제한입니다.
† - 제한이 cache_read_input_tokens를 ITPM 사용량에 포함합니다.
Message Batches API에는 모든 모델에서 공유되는 자체 속도 제한 세트가 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 대기열에 있을 수 있는 배치 요청 수에 대한 제한이 포함됩니다. 여기서 "배치 요청"은 Message Batch의 일부를 의미합니다. 수천 개의 배치 요청을 포함하는 Message Batch를 생성할 수 있으며, 각 요청은 이 제한에 포함됩니다. 배치 요청은 모델에 의해 아직 성공적으로 처리되지 않은 경우 처리 대기열의 일부로 간주됩니다.
Claude Managed Agents 엔드포인트는 조직별로 속도 제한이 적용됩니다. 이러한 제한은 위의 Messages API 속도 제한과 별개입니다.
| 작업 | 제한 |
|---|---|
| 생성 엔드포인트(예: 에이전트, 세션, 환경) | 분당 300개 요청 |
| 읽기 엔드포인트(예: 조회, 목록, 스트림) | 분당 600개 요청 |
Claude Opus 4.8, Opus 4.7 또는 Opus 4.6에서 speed: "fast"로 fast mode(연구 프리뷰)를 사용하는 경우, 표준 Opus 속도 제한과 별개인 전용 속도 제한이 적용됩니다. Fast mode 속도 제한을 초과하면 API는 retry-after 헤더와 함께 429 오류를 반환합니다.
응답에는 fast mode 속도 제한 상태를 나타내는 anthropic-fast-* 헤더가 포함됩니다. 이러한 헤더에 대한 자세한 내용은 Fast mode를 참조하세요.
Claude Console의 Usage 페이지에서 속도 제한 사용량을 모니터링할 수 있습니다.
토큰 및 요청 차트를 제공하는 것 외에도 Usage 페이지는 두 개의 별도 속도 제한 차트를 제공합니다. 이러한 차트를 사용하여 성장할 수 있는 여유 공간, 최대 사용량에 도달하는 시점, 요청할 속도 제한, 캐싱 비율을 개선하는 방법을 더 잘 이해할 수 있습니다. 차트는 주어진 속도 제한(예: 모델별)에 대한 여러 지표를 시각화합니다.
워크스페이스에 대한 자세한 내용은 워크스페이스를 참조하세요.
조직의 워크스페이스를 잠재적인 과다 사용으로부터 보호하기 위해 워크스페이스별로 맞춤형 지출 및 속도 제한을 설정할 수 있습니다.
예시: 조직의 제한이 분당 40,000개 입력 토큰 및 분당 8,000개 출력 토큰인 경우, 한 워크스페이스를 분당 30,000개 입력 토큰으로 제한할 수 있습니다. 이렇게 하면 다른 워크스페이스를 잠재적인 과다 사용으로부터 보호하고 조직 전체에서 리소스를 더 공평하게 분배할 수 있습니다. 남은 분당 미사용 토큰(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 그 이상)은 다른 워크스페이스에서 사용할 수 있습니다.
참고:
현재 조직 및 워크스페이스 속도 제한을 프로그래밍 방식으로 읽으려면 Rate Limits API를 사용하세요.
API 응답에는 적용된 속도 제한, 현재 사용량 및 제한이 재설정되는 시점을 보여주는 헤더가 포함됩니다.
다음 헤더가 반환됩니다.
| 헤더 | 설명 |
|---|---|
retry-after | 요청을 재시도할 수 있을 때까지 대기해야 하는 시간(초)입니다. 더 이른 재시도는 실패합니다. |
anthropic-ratelimit-requests-limit | 속도 제한 기간 내에 허용되는 최대 요청 수입니다. |
anthropic-ratelimit-requests-remaining | 속도 제한이 적용되기 전까지 남은 요청 수입니다. |
anthropic-ratelimit-requests-reset | 요청 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-tokens-limit | 속도 제한 기간 내에 허용되는 최대 토큰 수입니다. |
anthropic-ratelimit-tokens-remaining | 속도 제한이 적용되기 전까지 남은 토큰 수(천 단위로 반올림)입니다. |
anthropic-ratelimit-tokens-reset | 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-input-tokens-limit | 속도 제한 기간 내에 허용되는 최대 입력 토큰 수입니다. |
anthropic-ratelimit-input-tokens-remaining | 속도 제한이 적용되기 전까지 남은 입력 토큰 수(천 단위로 반올림)입니다. |
anthropic-ratelimit-input-tokens-reset | 입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-output-tokens-limit | 속도 제한 기간 내에 허용되는 최대 출력 토큰 수입니다. |
anthropic-ratelimit-output-tokens-remaining | 속도 제한이 적용되기 전까지 남은 출력 토큰 수(천 단위로 반올림)입니다. |
anthropic-ratelimit-output-tokens-reset | 출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-priority-input-tokens-limit | 속도 제한 기간 내에 허용되는 최대 Priority Tier 입력 토큰 수입니다. (Priority Tier 전용) |
anthropic-priority-input-tokens-remaining | 속도 제한이 적용되기 전까지 남은 Priority Tier 입력 토큰 수(천 단위로 반올림)입니다. (Priority Tier 전용) |
anthropic-priority-input-tokens-reset | Priority Tier 입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용) |
anthropic-priority-output-tokens-limit | 속도 제한 기간 내에 허용되는 최대 Priority Tier 출력 토큰 수입니다. (Priority Tier 전용) |
anthropic-priority-output-tokens-remaining | 속도 제한이 적용되기 전까지 남은 Priority Tier 출력 토큰 수(천 단위로 반올림)입니다. (Priority Tier 전용) |
anthropic-priority-output-tokens-reset | Priority Tier 출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용) |
anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 속도 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우 헤더는 남은 총 토큰 수를 반환하며, 여기서 총합은 입력 토큰과 출력 토큰의 합입니다. 이 방식은 현재 API 사용에 대한 가장 관련성 높은 제약 조건을 파악할 수 있도록 보장합니다.
Was this page helpful?