Loading...
  • Разработка
  • Администрирование
  • Модели и цены
  • Клиентские SDK
  • Справочник API
Search...
⌘K
Log in
Быстрый режим (бета: предварительный просмотр)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Разработка/Возможности модели

Быстрый режим (бета: исследовательский предварительный просмотр)

Повышенная скорость вывода для Claude Opus 4.6, обеспечивающая значительно более быструю генерацию токенов для рабочих процессов, чувствительных к задержкам, и агентных рабочих процессов.

Was this page helpful?

  • Поддерживаемые модели
  • Как работает быстрый режим
  • Базовое использование
  • Ценообразование
  • Ограничения скорости
  • Проверка использованной скорости
  • Повторные попытки и резервный вариант
  • Автоматические повторные попытки
  • Переход к стандартной скорости
  • Соображения
  • Следующие шаги

Быстрый режим обеспечивает значительно более быструю генерацию выходных токенов для Claude Opus 4.6. Установив speed: "fast" в вашем API-запросе, вы получаете до 2,5x больше выходных токенов в секунду от той же модели по премиальной цене.

Быстрый режим находится в бета-версии (исследовательский предварительный просмотр). Присоединитесь к списку ожидания, чтобы запросить доступ. Доступность ограничена, пока Anthropic собирает отзывы.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Поддерживаемые модели

Быстрый режим поддерживается на следующих моделях:

  • Claude Opus 4.6 (claude-opus-4-6)

Как работает быстрый режим

Быстрый режим запускает ту же модель с более быстрой конфигурацией вывода. Интеллект и возможности не изменяются.

  • До 2,5x больше выходных токенов в секунду по сравнению со стандартной скоростью
  • Преимущества скорости сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT)
  • Те же веса и поведение модели (не другая модель)

Базовое использование

Ценообразование

Быстрый режим оценивается в 6x от стандартных тарифов Opus для всего контекстного окна, включая запросы с более чем 200k входными токенами. В следующей таблице показано ценообразование для Claude Opus 4.6 с быстрым режимом:

Входные токеныВыходные токены
$30 / MTok$150 / MTok

Ценообразование быстрого режима суммируется с другими модификаторами ценообразования:

  • Множители кэширования подсказок применяются поверх ценообразования быстрого режима
  • Множители резидентности данных применяются поверх ценообразования быстрого режима

Для получения полной информации о ценообразовании см. страницу ценообразования.

Ограничения скорости

Быстрый режим имеет выделенное ограничение скорости, отдельное от стандартных ограничений скорости Opus. Когда ваше ограничение скорости быстрого режима превышено, API возвращает ошибку 429 с заголовком retry-after, указывающим, когда будет доступна мощность.

Ответ включает заголовки, указывающие статус ограничения скорости быстрого режима:

ЗаголовокОписание
anthropic-fast-input-tokens-limitМаксимальное количество входных токенов быстрого режима в минуту
anthropic-fast-input-tokens-remainingОставшиеся входные токены быстрого режима
anthropic-fast-input-tokens-resetВремя сброса лимита входных токенов быстрого режима
anthropic-fast-output-tokens-limitМаксимальное количество выходных токенов быстрого режима в минуту
anthropic-fast-output-tokens-remainingОставшиеся выходные токены быстрого режима
anthropic-fast-output-tokens-resetВремя сброса лимита выходных токенов быстрого режима

Для ограничений скорости по уровням см. страницу ограничений скорости.

Проверка использованной скорости

Объект usage в ответе включает поле speed, указывающее, какая скорость была использована: "fast" или "standard":

Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Для отслеживания использования быстрого режима и затрат в вашей организации см. API использования и затрат.

Повторные попытки и резервный вариант

Автоматические повторные попытки

Когда ограничения скорости быстрого режима превышены, API возвращает ошибку 429 с заголовком retry-after. SDK Anthropic автоматически повторяют эти запросы до 2 раз по умолчанию (настраивается через max_retries), ожидая указанную сервером задержку перед каждой повторной попыткой. Поскольку быстрый режим использует непрерывное пополнение токенов, задержка retry-after обычно короткая, и запросы успешно выполняются, как только мощность становится доступной.

Переход к стандартной скорости

Если вы предпочитаете перейти к стандартной скорости, а не ждать мощности быстрого режима, перехватите ошибку ограничения скорости и повторите попытку без speed: "fast". Установите max_retries в 0 для первоначального быстрого запроса, чтобы пропустить автоматические повторные попытки и немедленно завершиться с ошибкой при ошибках ограничения скорости.

Переход с быстрой на стандартную скорость приведёт к промаху кэша подсказок. Запросы на разных скоростях не используют общие кэшированные префиксы.

Поскольку установка max_retries в 0 также отключает повторные попытки для других временных ошибок (перегрузка, внутренние ошибки сервера), приведённые ниже примеры повторно отправляют исходный запрос с повторными попытками по умолчанию для таких случаев.

Соображения

  • Кэширование подсказок: Переключение между быстрой и стандартной скоростью аннулирует кэш подсказок. Запросы на разных скоростях не используют общие кэшированные префиксы.
  • Поддерживаемые модели: Быстрый режим в настоящее время поддерживается только на Opus 4.6. Отправка speed: "fast" с неподдерживаемой моделью возвращает ошибку.
  • TTFT: Преимущества быстрого режима сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT).
  • Batch API: Быстрый режим недоступен с Batch API.
  • Приоритетный уровень: Быстрый режим недоступен с Приоритетным уровнем.

Следующие шаги

Ценообразование

Просмотрите подробную информацию о ценообразовании быстрого режима.

Ограничения скорости

Проверьте уровни ограничений скорости для быстрого режима.

Параметр усилия

Управляйте использованием токенов с помощью параметра усилия.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)
response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)