빠른 모드는 Claude Opus 4.6에 대해 상당히 빠른 출력 토큰 생성을 제공합니다. API 요청에서 speed: "fast"를 설정하면 프리미엄 가격으로 동일한 모델에서 최대 2.5배 높은 초당 출력 토큰을 얻을 수 있습니다.
빠른 모드는 현재 연구 프리뷰 단계입니다. 액세스를 요청하려면 대기자 명단에 등록하세요. 피드백을 수집하는 동안 가용성이 제한됩니다.
빠른 모드는 다음 모델에서 지원됩니다:
claude-opus-4-6)빠른 모드는 더 빠른 추론 구성으로 동일한 모델을 실행합니다. 지능이나 기능에는 변화가 없습니다.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'빠른 모드는 프롬프트 ≤200K 토큰의 경우 표준 Opus 요금의 6배, 프롬프트 > 200K 토큰의 경우 표준 Opus 요금의 12배로 가격이 책정됩니다. 다음 표는 빠른 모드를 사용한 Claude Opus 4.6의 가격을 보여줍니다:
| 컨텍스트 윈도우 | 입력 | 출력 |
|---|---|---|
| ≤ 200K 입력 토큰 | $30 / MTok | $150 / MTok |
| > 200K 입력 토큰 | $60 / MTok | $225 / MTok |
빠른 모드 가격은 다른 가격 수정자와 중첩됩니다:
전체 가격 세부 정보는 가격 페이지를 참조하세요.
빠른 모드에는 표준 Opus 속도 제한과 별도인 전용 속도 제한이 있습니다. ≤200K 및 >200K 입력 토큰에 대해 별도의 제한이 있는 표준 속도와 달리, 빠른 모드는 전체 컨텍스트 범위를 포괄하는 단일 속도 제한을 사용합니다. 빠른 모드 속도 제한이 초과되면 API는 용량이 사용 가능해지는 시점을 나타내는 retry-after 헤더와 함께 429 오류를 반환합니다.
응답에는 빠른 모드 속도 제한 상태를 나타내는 헤더가 포함됩니다:
| 헤더 | 설명 |
|---|---|
anthropic-fast-input-tokens-limit | 분당 최대 빠른 모드 입력 토큰 |
anthropic-fast-input-tokens-remaining | 남은 빠른 모드 입력 토큰 |
anthropic-fast-input-tokens-reset | 빠른 모드 입력 토큰 제한이 재설정되는 시간 |
anthropic-fast-output-tokens-limit | 분당 최대 빠른 모드 출력 토큰 |
anthropic-fast-output-tokens-remaining | 남은 빠른 모드 출력 토큰 |
anthropic-fast-output-tokens-reset | 빠른 모드 출력 토큰 제한이 재설정되는 시간 |
티어별 속도 제한은 속도 제한 페이지를 참조하세요.
응답 usage 객체에는 사용된 속도를 나타내는 speed 필드가 포함되며, "fast" 또는 "standard" 중 하나입니다:
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}조직 전체의 빠른 모드 사용량과 비용을 추적하려면 사용량 및 비용 API를 참조하세요.
빠른 모드 속도 제한이 초과되면 API는 retry-after 헤더와 함께 429 오류를 반환합니다. Anthropic SDK는 기본적으로 이러한 요청을 최대 2회까지 자동으로 재시도하며(max_retries를 통해 구성 가능), 각 재시도 전에 서버가 지정한 지연 시간을 기다립니다. 빠른 모드는 연속적인 토큰 보충을 사용하므로 retry-after 지연은 일반적으로 짧으며 용량이 사용 가능해지면 요청이 성공합니다.
빠른 모드 용량을 기다리는 대신 표준 속도로 폴백하려면 속도 제한 오류를 잡고 speed: "fast" 없이 재시도하세요. 초기 빠른 요청에서 max_retries를 0으로 설정하여 자동 재시도를 건너뛰고 속도 제한 오류 시 즉시 실패하도록 합니다.
빠른 모드에서 표준 속도로 폴백하면 프롬프트 캐시 미스가 발생합니다. 다른 속도의 요청은 캐시된 접두사를 공유하지 않습니다.
max_retries를 0으로 설정하면 다른 일시적 오류(과부하, 내부 서버 오류)에 대한 재시도도 비활성화되므로, 아래 예제에서는 해당 경우에 기본 재시도로 원래 요청을 다시 발행합니다.
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast"를 보내면 오류가 반환됩니다.Was this page helpful?