Was this page helpful?
빠른 모드는 Claude Opus 4.6의 출력 토큰 생성 속도를 크게 향상시킵니다. API 요청에 speed: "fast"를 설정하면 프리미엄 가격으로 동일한 모델에서 최대 2.5배 높은 초당 출력 토큰을 얻을 수 있습니다.
빠른 모드는 베타(리서치 프리뷰) 상태입니다. 대기자 명단에 등록하여 액세스를 요청하세요. Anthropic이 피드백을 수집하는 동안 가용성이 제한됩니다.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
빠른 모드는 다음 모델에서 지원됩니다:
claude-opus-4-6)빠른 모드는 더 빠른 추론 구성으로 동일한 모델을 실행합니다. 지능이나 기능에는 변화가 없습니다.
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)빠른 모드는 200k 입력 토큰을 초과하는 요청을 포함하여 전체 컨텍스트 창에 걸쳐 표준 Opus 요금의 6배로 책정됩니다. 다음 표는 빠른 모드를 사용하는 Claude Opus 4.6의 가격을 보여줍니다:
| 입력 | 출력 |
|---|---|
| $30 / MTok | $150 / MTok |
빠른 모드 가격은 다른 가격 수정자와 함께 적용됩니다:
전체 가격 세부 정보는 가격 페이지를 참조하세요.
빠른 모드에는 표준 Opus 속도 제한과 별도의 전용 속도 제한이 있습니다. 빠른 모드 속도 제한을 초과하면 API는 용량이 언제 사용 가능해질지를 나타내는 retry-after 헤더와 함께 429 오류를 반환합니다.
응답에는 빠른 모드 속도 제한 상태를 나타내는 헤더가 포함됩니다:
| 헤더 | 설명 |
|---|---|
anthropic-fast-input-tokens-limit | 분당 최대 빠른 모드 입력 토큰 |
anthropic-fast-input-tokens-remaining | 남은 빠른 모드 입력 토큰 |
anthropic-fast-input-tokens-reset | 빠른 모드 입력 토큰 제한이 재설정되는 시간 |
anthropic-fast-output-tokens-limit | 분당 최대 빠른 모드 출력 토큰 |
anthropic-fast-output-tokens-remaining | 남은 빠른 모드 출력 토큰 |
anthropic-fast-output-tokens-reset | 빠른 모드 출력 토큰 제한이 재설정되는 시간 |
티어별 속도 제한은 속도 제한 페이지를 참조하세요.
응답 usage 객체에는 사용된 속도를 나타내는 speed 필드가 포함되며, "fast" 또는 "standard" 중 하나입니다:
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}조직 전체의 빠른 모드 사용량 및 비용을 추적하려면 사용량 및 비용 API를 참조하세요.
빠른 모드 속도 제한을 초과하면 API는 retry-after 헤더와 함께 429 오류를 반환합니다. Anthropic SDK는 기본적으로 이러한 요청을 최대 2번 자동으로 재시도하며(max_retries를 통해 구성 가능), 각 재시도 전에 서버가 지정한 지연 시간을 기다립니다. 빠른 모드는 연속적인 토큰 보충을 사용하므로 retry-after 지연 시간은 일반적으로 짧으며 용량이 확보되면 요청이 성공합니다.
빠른 모드 용량을 기다리는 대신 표준 속도로 폴백하려면 속도 제한 오류를 포착하고 speed: "fast" 없이 재시도하세요. 초기 빠른 요청에서 max_retries를 0으로 설정하여 자동 재시도를 건너뛰고 속도 제한 오류 시 즉시 실패하도록 합니다.
빠른 속도에서 표준 속도로 폴백하면 프롬프트 캐시 미스가 발생합니다. 다른 속도의 요청은 캐시된 접두사를 공유하지 않습니다.
max_retries를 0으로 설정하면 다른 일시적 오류(과부하, 내부 서버 오류)에 대한 재시도도 비활성화되므로, 아래 예제는 해당 경우에 기본 재시도로 원래 요청을 다시 발행합니다.
speed: "fast"를 전송하면 오류가 반환됩니다.response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)