Быстрый режим обеспечивает значительно более быструю генерацию выходных токенов для Claude Opus 4.6. Установив speed: "fast" в вашем запросе API, вы получаете до 2,5x более высокую скорость выходных токенов в секунду от той же модели по премиум-цене.
Быстрый режим находится в исследовательском предпросмотре. Присоединитесь к списку ожидания, чтобы запросить доступ. Доступность ограничена, пока мы собираем отзывы.
Быстрый режим поддерживается на следующих моделях:
claude-opus-4-6)Быстрый режим запускает ту же модель с более быстрой конфигурацией вывода. Нет никаких изменений в интеллекте или возможностях.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'Быстрый режим оценивается в 6x стандартные ставки Opus для подсказок ≤200K токенов и 12x стандартные ставки Opus для подсказок > 200K токенов. В следующей таблице показаны цены для Claude Opus 4.6 с быстрым режимом:
| Окно контекста | Ввод | Вывод |
|---|---|---|
| ≤ 200K входных токенов | $30 / MTok | $150 / MTok |
| > 200K входных токенов | $60 / MTok | $225 / MTok |
Цены быстрого режима складываются с другими модификаторами цен:
Для получения полной информации о ценах см. страницу цен.
Быстрый режим имеет выделенное ограничение скорости, которое отделено от стандартных ограничений скорости Opus. В отличие от стандартной скорости, которая имеет отдельные ограничения для ≤200K и >200K входных токенов, быстрый режим использует одно ограничение скорости, которое охватывает весь диапазон контекста. Когда ваше ограничение скорости быстрого режима превышено, API возвращает ошибку 429 с заголовком retry-after, указывающим, когда будет доступна емкость.
Ответ включает заголовки, которые указывают статус вашего ограничения скорости быстрого режима:
| Заголовок | Описание |
|---|---|
anthropic-fast-input-tokens-limit | Максимум входных токенов быстрого режима в минуту |
anthropic-fast-input-tokens-remaining | Оставшиеся входные токены быстрого режима |
anthropic-fast-input-tokens-reset | Время, когда ограничение входных токенов быстрого режима сбрасывается |
anthropic-fast-output-tokens-limit | Максимум выходных токенов быстрого режима в минуту |
anthropic-fast-output-tokens-remaining | Оставшиеся выходные токены быстрого режима |
anthropic-fast-output-tokens-reset | Время, когда ограничение выходных токенов быстрого режима сбрасывается |
Для ограничений скорости, зависящих от уровня, см. страницу ограничений скорости.
Объект usage ответа включает поле speed, которое указывает, какая скорость была использована, либо "fast", либо "standard":
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Для отслеживания использования быстрого режима и затрат в вашей организации см. API использования и затрат.
Когда ограничения скорости быстрого режима превышены, API возвращает ошибку 429 с заголовком retry-after. SDK Anthropic автоматически повторяют эти запросы до 2 раз по умолчанию (настраивается через max_retries), ожидая задержку, указанную сервером, перед каждой повторной попыткой. Поскольку быстрый режим использует непрерывное пополнение токенов, задержка retry-after обычно короткая и запросы успешны, как только доступна емкость.
Если вы предпочитаете откатиться на стандартную скорость вместо ожидания емкости быстрого режима, перехватите ошибку ограничения скорости и повторите попытку без speed: "fast". Установите max_retries на 0 для начального быстрого запроса, чтобы пропустить автоматические повторные попытки и немедленно завершить работу при ошибках ограничения скорости.
Откат с быстрого на стандартную скорость приведет к промежуточному кэшу промаху. Запросы с разными скоростями не используют кэшированные префиксы.
Поскольку установка max_retries на 0 также отключает повторные попытки для других временных ошибок (перегружено, внутренние ошибки сервера), примеры ниже повторно выдают исходный запрос с повторными попытками по умолчанию для этих случаев.
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" с неподдерживаемой моделью возвращает ошибку.Просмотрите подробную информацию о ценах быстрого режима.
Проверьте уровни ограничений скорости для быстрого режима.
Контролируйте использование токенов с помощью параметра усилия.
Was this page helpful?