Was this page helpful?
Быстрый режим обеспечивает значительно более быструю генерацию выходных токенов для Claude Opus 4.6. Установив speed: "fast" в вашем API-запросе, вы получаете до 2,5x больше выходных токенов в секунду от той же модели по премиальной цене.
Быстрый режим находится в бета-версии (исследовательский предварительный просмотр). Присоединитесь к списку ожидания, чтобы запросить доступ. Доступность ограничена, пока Anthropic собирает отзывы.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Быстрый режим поддерживается на следующих моделях:
claude-opus-4-6)Быстрый режим запускает ту же модель с более быстрой конфигурацией вывода. Интеллект и возможности не изменяются.
Быстрый режим оценивается в 6x от стандартных тарифов Opus для всего контекстного окна, включая запросы с более чем 200k входными токенами. В следующей таблице показано ценообразование для Claude Opus 4.6 с быстрым режимом:
| Входные токены | Выходные токены |
|---|---|
| $30 / MTok | $150 / MTok |
Ценообразование быстрого режима суммируется с другими модификаторами ценообразования:
Для получения полной информации о ценообразовании см. страницу ценообразования.
Быстрый режим имеет выделенное ограничение скорости, отдельное от стандартных ограничений скорости Opus. Когда ваше ограничение скорости быстрого режима превышено, API возвращает ошибку 429 с заголовком retry-after, указывающим, когда будет доступна мощность.
Ответ включает заголовки, указывающие статус ограничения скорости быстрого режима:
| Заголовок | Описание |
|---|---|
anthropic-fast-input-tokens-limit | Максимальное количество входных токенов быстрого режима в минуту |
anthropic-fast-input-tokens-remaining | Оставшиеся входные токены быстрого режима |
anthropic-fast-input-tokens-reset | Время сброса лимита входных токенов быстрого режима |
anthropic-fast-output-tokens-limit | Максимальное количество выходных токенов быстрого режима в минуту |
anthropic-fast-output-tokens-remaining | Оставшиеся выходные токены быстрого режима |
anthropic-fast-output-tokens-reset | Время сброса лимита выходных токенов быстрого режима |
Для ограничений скорости по уровням см. страницу ограничений скорости.
Объект usage в ответе включает поле speed, указывающее, какая скорость была использована: "fast" или "standard":
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Для отслеживания использования быстрого режима и затрат в вашей организации см. API использования и затрат.
Когда ограничения скорости быстрого режима превышены, API возвращает ошибку 429 с заголовком retry-after. SDK Anthropic автоматически повторяют эти запросы до 2 раз по умолчанию (настраивается через max_retries), ожидая указанную сервером задержку перед каждой повторной попыткой. Поскольку быстрый режим использует непрерывное пополнение токенов, задержка retry-after обычно короткая, и запросы успешно выполняются, как только мощность становится доступной.
Если вы предпочитаете перейти к стандартной скорости, а не ждать мощности быстрого режима, перехватите ошибку ограничения скорости и повторите попытку без speed: "fast". Установите max_retries в 0 для первоначального быстрого запроса, чтобы пропустить автоматические повторные попытки и немедленно завершиться с ошибкой при ошибках ограничения скорости.
Переход с быстрой на стандартную скорость приведёт к промаху кэша подсказок. Запросы на разных скоростях не используют общие кэшированные префиксы.
Поскольку установка max_retries в 0 также отключает повторные попытки для других временных ошибок (перегрузка, внутренние ошибки сервера), приведённые ниже примеры повторно отправляют исходный запрос с повторными попытками по умолчанию для таких случаев.
speed: "fast" с неподдерживаемой моделью возвращает ошибку.client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)