Loading...
    • 개발자 가이드
    • API 레퍼런스
    • MCP
    • 리소스
    • 릴리스 노트
    Search...
    ⌘K
    시작하기
    Claude 소개빠른 시작
    모델 및 가격
    모델 개요모델 선택Claude 4.6의 새로운 기능마이그레이션 가이드모델 지원 중단가격
    Claude로 구축하기
    기능 개요Messages API 사용중지 사유 처리프롬프트 모범 사례
    모델 기능
    확장 사고적응형 사고노력도빠른 모드 (연구 프리뷰)구조화된 출력인용스트리밍 메시지배치 처리PDF 지원검색 결과다국어 지원임베딩비전
    도구
    개요도구 사용 구현 방법웹 검색 도구웹 페치 도구코드 실행 도구메모리 도구Bash 도구컴퓨터 사용 도구텍스트 편집기 도구
    도구 인프라
    도구 검색프로그래밍 방식 도구 호출세분화된 도구 스트리밍
    컨텍스트 관리
    컨텍스트 윈도우압축컨텍스트 편집프롬프트 캐싱토큰 카운팅
    파일 및 자산
    Files API
    Agent Skills
    개요빠른 시작모범 사례엔터프라이즈용 SkillsAPI에서 Skills 사용
    Agent SDK
    개요빠른 시작TypeScript SDKTypeScript V2 (프리뷰)Python SDK마이그레이션 가이드
    API에서 MCP 사용
    MCP 커넥터원격 MCP 서버
    서드파티 플랫폼의 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    프롬프트 엔지니어링
    개요프롬프트 생성기프롬프트 템플릿 사용프롬프트 개선기명확하고 직접적으로 작성하기예시 사용 (멀티샷 프롬프팅)Claude에게 생각하게 하기 (CoT)XML 태그 사용Claude에게 역할 부여 (시스템 프롬프트)복잡한 프롬프트 연결긴 컨텍스트 팁확장 사고 팁
    테스트 및 평가
    성공 기준 정의테스트 케이스 개발평가 도구 사용지연 시간 줄이기
    가드레일 강화
    환각 줄이기출력 일관성 높이기탈옥 방지스트리밍 거부프롬프트 유출 줄이기Claude 캐릭터 유지
    관리 및 모니터링
    Admin API 개요데이터 레지던시워크스페이스사용량 및 비용 APIClaude Code Analytics API제로 데이터 보존
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    모델 기능

    빠른 모드 (연구 프리뷰)

    Claude Opus 4.6의 더 높은 출력 속도로, 지연 시간에 민감한 워크플로우와 에이전트 워크플로우를 위해 상당히 빠른 토큰 생성을 제공합니다.

    빠른 모드는 Claude Opus 4.6에 대해 상당히 빠른 출력 토큰 생성을 제공합니다. API 요청에서 speed: "fast"를 설정하면 프리미엄 가격으로 동일한 모델에서 최대 2.5배 높은 초당 출력 토큰을 얻을 수 있습니다.

    빠른 모드는 현재 연구 프리뷰 단계입니다. 액세스를 요청하려면 대기자 명단에 등록하세요. 피드백을 수집하는 동안 가용성이 제한됩니다.

    지원 모델

    빠른 모드는 다음 모델에서 지원됩니다:

    • Claude Opus 4.6 (claude-opus-4-6)

    빠른 모드 작동 방식

    빠른 모드는 더 빠른 추론 구성으로 동일한 모델을 실행합니다. 지능이나 기능에는 변화가 없습니다.

    • 표준 속도 대비 최대 2.5배 높은 초당 출력 토큰
    • 속도 이점은 첫 번째 토큰까지의 시간(TTFT)이 아닌 초당 출력 토큰(OTPS)에 집중됩니다
    • 동일한 모델 가중치와 동작 (다른 모델이 아님)

    기본 사용법

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    가격

    빠른 모드는 프롬프트 ≤200K 토큰의 경우 표준 Opus 요금의 6배, 프롬프트 > 200K 토큰의 경우 표준 Opus 요금의 12배로 가격이 책정됩니다. 다음 표는 빠른 모드를 사용한 Claude Opus 4.6의 가격을 보여줍니다:

    컨텍스트 윈도우입력출력
    ≤ 200K 입력 토큰$30 / MTok$150 / MTok
    > 200K 입력 토큰$60 / MTok$225 / MTok

    빠른 모드 가격은 다른 가격 수정자와 중첩됩니다:

    • 프롬프트 캐싱 배수는 빠른 모드 가격 위에 적용됩니다
    • 데이터 레지던시 배수는 빠른 모드 가격 위에 적용됩니다

    전체 가격 세부 정보는 가격 페이지를 참조하세요.

    속도 제한

    빠른 모드에는 표준 Opus 속도 제한과 별도인 전용 속도 제한이 있습니다. ≤200K 및 >200K 입력 토큰에 대해 별도의 제한이 있는 표준 속도와 달리, 빠른 모드는 전체 컨텍스트 범위를 포괄하는 단일 속도 제한을 사용합니다. 빠른 모드 속도 제한이 초과되면 API는 용량이 사용 가능해지는 시점을 나타내는 retry-after 헤더와 함께 429 오류를 반환합니다.

    응답에는 빠른 모드 속도 제한 상태를 나타내는 헤더가 포함됩니다:

    헤더설명
    anthropic-fast-input-tokens-limit분당 최대 빠른 모드 입력 토큰
    anthropic-fast-input-tokens-remaining남은 빠른 모드 입력 토큰
    anthropic-fast-input-tokens-reset빠른 모드 입력 토큰 제한이 재설정되는 시간
    anthropic-fast-output-tokens-limit분당 최대 빠른 모드 출력 토큰
    anthropic-fast-output-tokens-remaining남은 빠른 모드 출력 토큰
    anthropic-fast-output-tokens-reset빠른 모드 출력 토큰 제한이 재설정되는 시간

    티어별 속도 제한은 속도 제한 페이지를 참조하세요.

    사용된 속도 확인

    응답 usage 객체에는 사용된 속도를 나타내는 speed 필드가 포함되며, "fast" 또는 "standard" 중 하나입니다:

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    조직 전체의 빠른 모드 사용량과 비용을 추적하려면 사용량 및 비용 API를 참조하세요.

    재시도 및 폴백

    자동 재시도

    빠른 모드 속도 제한이 초과되면 API는 retry-after 헤더와 함께 429 오류를 반환합니다. Anthropic SDK는 기본적으로 이러한 요청을 최대 2회까지 자동으로 재시도하며(max_retries를 통해 구성 가능), 각 재시도 전에 서버가 지정한 지연 시간을 기다립니다. 빠른 모드는 연속적인 토큰 보충을 사용하므로 retry-after 지연은 일반적으로 짧으며 용량이 사용 가능해지면 요청이 성공합니다.

    표준 속도로 폴백

    빠른 모드 용량을 기다리는 대신 표준 속도로 폴백하려면 속도 제한 오류를 잡고 speed: "fast" 없이 재시도하세요. 초기 빠른 요청에서 max_retries를 0으로 설정하여 자동 재시도를 건너뛰고 속도 제한 오류 시 즉시 실패하도록 합니다.

    빠른 모드에서 표준 속도로 폴백하면 프롬프트 캐시 미스가 발생합니다. 다른 속도의 요청은 캐시된 접두사를 공유하지 않습니다.

    max_retries를 0으로 설정하면 다른 일시적 오류(과부하, 내부 서버 오류)에 대한 재시도도 비활성화되므로, 아래 예제에서는 해당 경우에 기본 재시도로 원래 요청을 다시 발행합니다.

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    고려 사항

    • 프롬프트 캐싱: 빠른 속도와 표준 속도 간 전환 시 프롬프트 캐시가 무효화됩니다. 다른 속도의 요청은 캐시된 접두사를 공유하지 않습니다.
    • 지원 모델: 빠른 모드는 현재 Opus 4.6에서만 지원됩니다. 지원되지 않는 모델에 speed: "fast"를 보내면 오류가 반환됩니다.
    • TTFT: 빠른 모드의 이점은 첫 번째 토큰까지의 시간(TTFT)이 아닌 초당 출력 토큰(OTPS)에 집중됩니다.
    • Batch API: 빠른 모드는 Batch API에서 사용할 수 없습니다.
    • Priority Tier: 빠른 모드는 Priority Tier에서 사용할 수 없습니다.

    다음 단계

    가격

    빠른 모드 가격 정보를 자세히 확인하세요.

    속도 제한

    빠른 모드의 속도 제한 티어를 확인하세요.

    Effort 파라미터

    effort 파라미터로 토큰 사용량을 제어하세요.

    Was this page helpful?