Loading...
  • 빌드
  • 관리
  • 모델 및 가격
  • 클라이언트 SDK
  • API 참조
Search...
⌘K
Log in
빠른 모드 (베타: 연구 미리보기)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
빌드/모델 기능

빠른 모드 (베타: 리서치 프리뷰)

Claude Opus 4.6의 출력 속도를 높여 지연 시간에 민감한 워크플로우와 에이전틱 워크플로우에서 훨씬 빠른 토큰 생성을 제공합니다.

Was this page helpful?

빠른 모드는 Claude Opus 4.6의 출력 토큰 생성 속도를 크게 향상시킵니다. API 요청에 speed: "fast"를 설정하면 프리미엄 가격으로 동일한 모델에서 최대 2.5배 높은 초당 출력 토큰을 얻을 수 있습니다.

빠른 모드는 베타(리서치 프리뷰) 상태입니다. 대기자 명단에 등록하여 액세스를 요청하세요. Anthropic이 피드백을 수집하는 동안 가용성이 제한됩니다.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

지원 모델

빠른 모드는 다음 모델에서 지원됩니다:

  • Claude Opus 4.6 (claude-opus-4-6)

빠른 모드 작동 방식

빠른 모드는 더 빠른 추론 구성으로 동일한 모델을 실행합니다. 지능이나 기능에는 변화가 없습니다.

  • 표준 속도 대비 최대 2.5배 높은 초당 출력 토큰
  • 속도 이점은 첫 번째 토큰까지의 시간(TTFT)이 아닌 초당 출력 토큰(OTPS)에 집중됩니다
  • 동일한 모델 가중치 및 동작 (다른 모델이 아님)

기본 사용법

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

가격

빠른 모드는 200k 입력 토큰을 초과하는 요청을 포함하여 전체 컨텍스트 창에 걸쳐 표준 Opus 요금의 6배로 책정됩니다. 다음 표는 빠른 모드를 사용하는 Claude Opus 4.6의 가격을 보여줍니다:

입력출력
$30 / MTok$150 / MTok

빠른 모드 가격은 다른 가격 수정자와 함께 적용됩니다:

  • 프롬프트 캐싱 배수는 빠른 모드 가격 위에 적용됩니다
  • 데이터 레지던시 배수는 빠른 모드 가격 위에 적용됩니다

전체 가격 세부 정보는 가격 페이지를 참조하세요.

속도 제한

빠른 모드에는 표준 Opus 속도 제한과 별도의 전용 속도 제한이 있습니다. 빠른 모드 속도 제한을 초과하면 API는 용량이 언제 사용 가능해질지를 나타내는 retry-after 헤더와 함께 429 오류를 반환합니다.

응답에는 빠른 모드 속도 제한 상태를 나타내는 헤더가 포함됩니다:

헤더설명
anthropic-fast-input-tokens-limit분당 최대 빠른 모드 입력 토큰
anthropic-fast-input-tokens-remaining남은 빠른 모드 입력 토큰
anthropic-fast-input-tokens-reset빠른 모드 입력 토큰 제한이 재설정되는 시간
anthropic-fast-output-tokens-limit분당 최대 빠른 모드 출력 토큰
anthropic-fast-output-tokens-remaining남은 빠른 모드 출력 토큰
anthropic-fast-output-tokens-reset빠른 모드 출력 토큰 제한이 재설정되는 시간

티어별 속도 제한은 속도 제한 페이지를 참조하세요.

사용된 속도 확인

응답 usage 객체에는 사용된 속도를 나타내는 speed 필드가 포함되며, "fast" 또는 "standard" 중 하나입니다:

Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

조직 전체의 빠른 모드 사용량 및 비용을 추적하려면 사용량 및 비용 API를 참조하세요.

재시도 및 폴백

자동 재시도

빠른 모드 속도 제한을 초과하면 API는 retry-after 헤더와 함께 429 오류를 반환합니다. Anthropic SDK는 기본적으로 이러한 요청을 최대 2번 자동으로 재시도하며(max_retries를 통해 구성 가능), 각 재시도 전에 서버가 지정한 지연 시간을 기다립니다. 빠른 모드는 연속적인 토큰 보충을 사용하므로 retry-after 지연 시간은 일반적으로 짧으며 용량이 확보되면 요청이 성공합니다.

표준 속도로 폴백

빠른 모드 용량을 기다리는 대신 표준 속도로 폴백하려면 속도 제한 오류를 포착하고 speed: "fast" 없이 재시도하세요. 초기 빠른 요청에서 max_retries를 0으로 설정하여 자동 재시도를 건너뛰고 속도 제한 오류 시 즉시 실패하도록 합니다.

빠른 속도에서 표준 속도로 폴백하면 프롬프트 캐시 미스가 발생합니다. 다른 속도의 요청은 캐시된 접두사를 공유하지 않습니다.

max_retries를 0으로 설정하면 다른 일시적 오류(과부하, 내부 서버 오류)에 대한 재시도도 비활성화되므로, 아래 예제는 해당 경우에 기본 재시도로 원래 요청을 다시 발행합니다.

고려 사항

  • 프롬프트 캐싱: 빠른 속도와 표준 속도 간에 전환하면 프롬프트 캐시가 무효화됩니다. 다른 속도의 요청은 캐시된 접두사를 공유하지 않습니다.
  • 지원 모델: 빠른 모드는 현재 Opus 4.6에서만 지원됩니다. 지원되지 않는 모델과 함께 speed: "fast"를 전송하면 오류가 반환됩니다.
  • TTFT: 빠른 모드의 이점은 첫 번째 토큰까지의 시간(TTFT)이 아닌 초당 출력 토큰(OTPS)에 집중됩니다.
  • 배치 API: 빠른 모드는 배치 API와 함께 사용할 수 없습니다.
  • 우선순위 티어: 빠른 모드는 우선순위 티어와 함께 사용할 수 없습니다.

다음 단계

가격

빠른 모드 가격 정보를 자세히 확인하세요.

속도 제한

빠른 모드의 속도 제한 티어를 확인하세요.

노력 파라미터

노력 파라미터로 토큰 사용량을 제어하세요.

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)