Возможности модели

Быстрый режим (исследовательский предпросмотр)

Более высокая скорость вывода для Claude Opus 4.6, обеспечивающая значительно более быструю генерацию токенов для рабочих процессов, чувствительных к задержкам и агентских рабочих процессов.

Быстрый режим обеспечивает значительно более быструю генерацию выходных токенов для Claude Opus 4.6. Установив speed: "fast" в вашем запросе API, вы получаете до 2,5x более высокую скорость выходных токенов в секунду от той же модели по премиум-цене.

Быстрый режим находится в исследовательском предпросмотре. Присоединитесь к списку ожидания, чтобы запросить доступ. Доступность ограничена, пока мы собираем отзывы.

Поддерживаемые модели

Быстрый режим поддерживается на следующих моделях:

Claude Opus 4.6 (claude-opus-4-6)

Как работает быстрый режим

Быстрый режим запускает ту же модель с более быстрой конфигурацией вывода. Нет никаких изменений в интеллекте или возможностях.

До 2,5x более высокая скорость выходных токенов в секунду по сравнению со стандартной скоростью
Преимущества скорости сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT)
Те же веса модели и поведение (не другая модель)

Базовое использование

curl https://api.anthropic.com/v1/messages \
    --header "x-api-key: $ANTHROPIC_API_KEY" \
    --header "anthropic-version: 2023-06-01" \
    --header "anthropic-beta: fast-mode-2026-02-01" \
    --header "content-type: application/json" \
    --data '{
        "model": "claude-opus-4-6",
        "max_tokens": 4096,
        "speed": "fast",
        "messages": [{
            "role": "user",
            "content": "Refactor this module to use dependency injection"
        }]
    }'

Цены

Быстрый режим оценивается в 6x стандартные ставки Opus для подсказок ≤200K токенов и 12x стандартные ставки Opus для подсказок > 200K токенов. В следующей таблице показаны цены для Claude Opus 4.6 с быстрым режимом:

Окно контекста	Ввод	Вывод
≤ 200K входных токенов	$30 / MTok	$150 / MTok
> 200K входных токенов	$60 / MTok	$225 / MTok

Цены быстрого режима складываются с другими модификаторами цен:

Множители кэширования подсказок применяются поверх цен быстрого режима
Множители местоположения данных применяются поверх цен быстрого режима

Для получения полной информации о ценах см. страницу цен.

Ограничения скорости

Быстрый режим имеет выделенное ограничение скорости, которое отделено от стандартных ограничений скорости Opus. В отличие от стандартной скорости, которая имеет отдельные ограничения для ≤200K и >200K входных токенов, быстрый режим использует одно ограничение скорости, которое охватывает весь диапазон контекста. Когда ваше ограничение скорости быстрого режима превышено, API возвращает ошибку 429 с заголовком retry-after, указывающим, когда будет доступна емкость.

Ответ включает заголовки, которые указывают статус вашего ограничения скорости быстрого режима:

Заголовок	Описание
`anthropic-fast-input-tokens-limit`	Максимум входных токенов быстрого режима в минуту
`anthropic-fast-input-tokens-remaining`	Оставшиеся входные токены быстрого режима
`anthropic-fast-input-tokens-reset`	Время, когда ограничение входных токенов быстрого режима сбрасывается
`anthropic-fast-output-tokens-limit`	Максимум выходных токенов быстрого режима в минуту
`anthropic-fast-output-tokens-remaining`	Оставшиеся выходные токены быстрого режима
`anthropic-fast-output-tokens-reset`	Время, когда ограничение выходных токенов быстрого режима сбрасывается

Для ограничений скорости, зависящих от уровня, см. страницу ограничений скорости.

Проверка использованной скорости

Объект usage ответа включает поле speed, которое указывает, какая скорость была использована, либо "fast", либо "standard":

curl https://api.anthropic.com/v1/messages \
    --header "x-api-key: $ANTHROPIC_API_KEY" \
    --header "anthropic-version: 2023-06-01" \
    --header "anthropic-beta: fast-mode-2026-02-01" \
    --header "content-type: application/json" \
    --data '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "speed": "fast",
        "messages": [{"role": "user", "content": "Hello"}]
    }'

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Для отслеживания использования быстрого режима и затрат в вашей организации см. API использования и затрат.

Повторные попытки и откат

Автоматические повторные попытки

Когда ограничения скорости быстрого режима превышены, API возвращает ошибку 429 с заголовком retry-after. SDK Anthropic автоматически повторяют эти запросы до 2 раз по умолчанию (настраивается через max_retries), ожидая задержку, указанную сервером, перед каждой повторной попыткой. Поскольку быстрый режим использует непрерывное пополнение токенов, задержка retry-after обычно короткая и запросы успешны, как только доступна емкость.

Откат на стандартную скорость

Если вы предпочитаете откатиться на стандартную скорость вместо ожидания емкости быстрого режима, перехватите ошибку ограничения скорости и повторите попытку без speed: "fast". Установите max_retries на 0 для начального быстрого запроса, чтобы пропустить автоматические повторные попытки и немедленно завершить работу при ошибках ограничения скорости.

Откат с быстрого на стандартную скорость приведет к промежуточному кэшу промаху. Запросы с разными скоростями не используют кэшированные префиксы.

Поскольку установка max_retries на 0 также отключает повторные попытки для других временных ошибок (перегружено, внутренние ошибки сервера), примеры ниже повторно выдают исходный запрос с повторными попытками по умолчанию для этих случаев.

import anthropic

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Рассмотрения

Кэширование подсказок: Переключение между быстрой и стандартной скоростью делает кэш подсказок недействительным. Запросы с разными скоростями не используют кэшированные префиксы.
Поддерживаемые модели: Быстрый режим в настоящее время поддерживается только на Opus 4.6. Отправка speed: "fast" с неподдерживаемой моделью возвращает ошибку.
TTFT: Преимущества быстрого режима сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT).
Batch API: Быстрый режим недоступен с Batch API.
Priority Tier: Быстрый режим недоступен с Priority Tier.

Следующие шаги

Цены

Просмотрите подробную информацию о ценах быстрого режима.

Ограничения скорости

Проверьте уровни ограничений скорости для быстрого режима.

Параметр усилия

Контролируйте использование токенов с помощью параметра усилия.

Was this page helpful?

Возможности модели

Быстрый режим (исследовательский предпросмотр)

Поддерживаемые модели

Быстрый режим поддерживается на следующих моделях:

Claude Opus 4.6 (claude-opus-4-6)

Как работает быстрый режим

До 2,5x более высокая скорость выходных токенов в секунду по сравнению со стандартной скоростью
Преимущества скорости сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT)
Те же веса модели и поведение (не другая модель)

Базовое использование

curl https://api.anthropic.com/v1/messages \
    --header "x-api-key: $ANTHROPIC_API_KEY" \
    --header "anthropic-version: 2023-06-01" \
    --header "anthropic-beta: fast-mode-2026-02-01" \
    --header "content-type: application/json" \
    --data '{
        "model": "claude-opus-4-6",
        "max_tokens": 4096,
        "speed": "fast",
        "messages": [{
            "role": "user",
            "content": "Refactor this module to use dependency injection"
        }]
    }'

Цены

Окно контекста	Ввод	Вывод
≤ 200K входных токенов	$30 / MTok	$150 / MTok
> 200K входных токенов	$60 / MTok	$225 / MTok

Цены быстрого режима складываются с другими модификаторами цен:

Множители кэширования подсказок применяются поверх цен быстрого режима
Множители местоположения данных применяются поверх цен быстрого режима

Для получения полной информации о ценах см. страницу цен.

Ограничения скорости

Ответ включает заголовки, которые указывают статус вашего ограничения скорости быстрого режима:

Заголовок	Описание
`anthropic-fast-input-tokens-limit`	Максимум входных токенов быстрого режима в минуту
`anthropic-fast-input-tokens-remaining`	Оставшиеся входные токены быстрого режима
`anthropic-fast-input-tokens-reset`	Время, когда ограничение входных токенов быстрого режима сбрасывается
`anthropic-fast-output-tokens-limit`	Максимум выходных токенов быстрого режима в минуту
`anthropic-fast-output-tokens-remaining`	Оставшиеся выходные токены быстрого режима
`anthropic-fast-output-tokens-reset`	Время, когда ограничение выходных токенов быстрого режима сбрасывается

Для ограничений скорости, зависящих от уровня, см. страницу ограничений скорости.

Проверка использованной скорости

curl https://api.anthropic.com/v1/messages \
    --header "x-api-key: $ANTHROPIC_API_KEY" \
    --header "anthropic-version: 2023-06-01" \
    --header "anthropic-beta: fast-mode-2026-02-01" \
    --header "content-type: application/json" \
    --data '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "speed": "fast",
        "messages": [{"role": "user", "content": "Hello"}]
    }'

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Для отслеживания использования быстрого режима и затрат в вашей организации см. API использования и затрат.

Повторные попытки и откат

Автоматические повторные попытки

Откат на стандартную скорость

import anthropic

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Рассмотрения

Кэширование подсказок: Переключение между быстрой и стандартной скоростью делает кэш подсказок недействительным. Запросы с разными скоростями не используют кэшированные префиксы.
Поддерживаемые модели: Быстрый режим в настоящее время поддерживается только на Opus 4.6. Отправка speed: "fast" с неподдерживаемой моделью возвращает ошибку.
TTFT: Преимущества быстрого режима сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT).
Batch API: Быстрый режим недоступен с Batch API.
Priority Tier: Быстрый режим недоступен с Priority Tier.

Следующие шаги

Цены

Просмотрите подробную информацию о ценах быстрого режима.

Ограничения скорости

Проверьте уровни ограничений скорости для быстрого режима.

Параметр усилия

Контролируйте использование токенов с помощью параметра усилия.

Was this page helpful?