Loading...
    • Руководство разработчика
    • Справочник API
    • MCP
    • Ресурсы
    • Примечания к выпуску
    Search...
    ⌘K
    Первые шаги
    Введение в ClaudeБыстрый старт
    Модели и цены
    Обзор моделейВыбор моделиЧто нового в Claude 4.6Руководство миграцииУстаревшие моделиЦены
    Разработка с Claude
    Обзор функцийИспользование Messages APIОбработка причин остановкиЛучшие практики промптирования
    Возможности модели
    Extended thinkingAdaptive thinkingУсилиеБыстрый режим (preview)Структурированные выходные данныеЦитированияПотоковая передача сообщенийПакетная обработкаПоддержка PDFРезультаты поискаМногоязычная поддержкаEmbeddingsЗрение
    Инструменты
    ОбзорКак реализовать использование инструментовИнструмент веб-поискаИнструмент веб-загрузкиИнструмент выполнения кодаИнструмент памятиИнструмент BashИнструмент управления компьютеромИнструмент текстового редактора
    Инфраструктура инструментов
    Поиск инструментовПрограммный вызов инструментовПотоковая передача инструментов с детализацией
    Управление контекстом
    Контекстные окнаСжатиеРедактирование контекстаКэширование промптовПодсчет токенов
    Файлы и ресурсы
    Files API
    Agent Skills
    ОбзорБыстрый стартЛучшие практикиSkills для предприятийИспользование Skills с API
    Agent SDK
    ОбзорБыстрый стартTypeScript SDKTypeScript V2 (preview)Python SDKРуководство миграции
    MCP в API
    MCP коннекторУдаленные MCP серверы
    Claude на платформах третьих сторон
    Amazon BedrockMicrosoft FoundryVertex AI
    Инженерия промптов
    ОбзорГенератор промптовИспользование шаблонов промптовУлучшитель промптовБудьте ясны и прямолинейныИспользуйте примеры (многошаговое промптирование)Дайте Claude думать (CoT)Используйте XML тегиДайте Claude роль (системные промпты)Цепочка сложных промптовСоветы для длинного контекстаСоветы для Extended thinking
    Тестирование и оценка
    Определение критериев успехаРазработка тестовых случаевИспользование инструмента оценкиСнижение задержки
    Укрепление защиты
    Снижение галлюцинацийУвеличение согласованности выходных данныхСмягчение jailbreaksПотоковая передача отказовСнижение утечки промптаДержите Claude в образе
    Администрирование и мониторинг
    Обзор Admin APIРезидентность данныхРабочие пространстваUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Возможности модели

    Быстрый режим (исследовательский предпросмотр)

    Более высокая скорость вывода для Claude Opus 4.6, обеспечивающая значительно более быструю генерацию токенов для рабочих процессов, чувствительных к задержкам и агентских рабочих процессов.

    Быстрый режим обеспечивает значительно более быструю генерацию выходных токенов для Claude Opus 4.6. Установив speed: "fast" в вашем запросе API, вы получаете до 2,5x более высокую скорость выходных токенов в секунду от той же модели по премиум-цене.

    Быстрый режим находится в исследовательском предпросмотре. Присоединитесь к списку ожидания, чтобы запросить доступ. Доступность ограничена, пока мы собираем отзывы.

    Поддерживаемые модели

    Быстрый режим поддерживается на следующих моделях:

    • Claude Opus 4.6 (claude-opus-4-6)

    Как работает быстрый режим

    Быстрый режим запускает ту же модель с более быстрой конфигурацией вывода. Нет никаких изменений в интеллекте или возможностях.

    • До 2,5x более высокая скорость выходных токенов в секунду по сравнению со стандартной скоростью
    • Преимущества скорости сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT)
    • Те же веса модели и поведение (не другая модель)

    Базовое использование

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Цены

    Быстрый режим оценивается в 6x стандартные ставки Opus для подсказок ≤200K токенов и 12x стандартные ставки Opus для подсказок > 200K токенов. В следующей таблице показаны цены для Claude Opus 4.6 с быстрым режимом:

    Окно контекстаВводВывод
    ≤ 200K входных токенов$30 / MTok$150 / MTok
    > 200K входных токенов$60 / MTok$225 / MTok

    Цены быстрого режима складываются с другими модификаторами цен:

    • Множители кэширования подсказок применяются поверх цен быстрого режима
    • Множители местоположения данных применяются поверх цен быстрого режима

    Для получения полной информации о ценах см. страницу цен.

    Ограничения скорости

    Быстрый режим имеет выделенное ограничение скорости, которое отделено от стандартных ограничений скорости Opus. В отличие от стандартной скорости, которая имеет отдельные ограничения для ≤200K и >200K входных токенов, быстрый режим использует одно ограничение скорости, которое охватывает весь диапазон контекста. Когда ваше ограничение скорости быстрого режима превышено, API возвращает ошибку 429 с заголовком retry-after, указывающим, когда будет доступна емкость.

    Ответ включает заголовки, которые указывают статус вашего ограничения скорости быстрого режима:

    ЗаголовокОписание
    anthropic-fast-input-tokens-limitМаксимум входных токенов быстрого режима в минуту
    anthropic-fast-input-tokens-remainingОставшиеся входные токены быстрого режима
    anthropic-fast-input-tokens-resetВремя, когда ограничение входных токенов быстрого режима сбрасывается
    anthropic-fast-output-tokens-limitМаксимум выходных токенов быстрого режима в минуту
    anthropic-fast-output-tokens-remainingОставшиеся выходные токены быстрого режима
    anthropic-fast-output-tokens-resetВремя, когда ограничение выходных токенов быстрого режима сбрасывается

    Для ограничений скорости, зависящих от уровня, см. страницу ограничений скорости.

    Проверка использованной скорости

    Объект usage ответа включает поле speed, которое указывает, какая скорость была использована, либо "fast", либо "standard":

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    Для отслеживания использования быстрого режима и затрат в вашей организации см. API использования и затрат.

    Повторные попытки и откат

    Автоматические повторные попытки

    Когда ограничения скорости быстрого режима превышены, API возвращает ошибку 429 с заголовком retry-after. SDK Anthropic автоматически повторяют эти запросы до 2 раз по умолчанию (настраивается через max_retries), ожидая задержку, указанную сервером, перед каждой повторной попыткой. Поскольку быстрый режим использует непрерывное пополнение токенов, задержка retry-after обычно короткая и запросы успешны, как только доступна емкость.

    Откат на стандартную скорость

    Если вы предпочитаете откатиться на стандартную скорость вместо ожидания емкости быстрого режима, перехватите ошибку ограничения скорости и повторите попытку без speed: "fast". Установите max_retries на 0 для начального быстрого запроса, чтобы пропустить автоматические повторные попытки и немедленно завершить работу при ошибках ограничения скорости.

    Откат с быстрого на стандартную скорость приведет к промежуточному кэшу промаху. Запросы с разными скоростями не используют кэшированные префиксы.

    Поскольку установка max_retries на 0 также отключает повторные попытки для других временных ошибок (перегружено, внутренние ошибки сервера), примеры ниже повторно выдают исходный запрос с повторными попытками по умолчанию для этих случаев.

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    Рассмотрения

    • Кэширование подсказок: Переключение между быстрой и стандартной скоростью делает кэш подсказок недействительным. Запросы с разными скоростями не используют кэшированные префиксы.
    • Поддерживаемые модели: Быстрый режим в настоящее время поддерживается только на Opus 4.6. Отправка speed: "fast" с неподдерживаемой моделью возвращает ошибку.
    • TTFT: Преимущества быстрого режима сосредоточены на выходных токенах в секунду (OTPS), а не на времени до первого токена (TTFT).
    • Batch API: Быстрый режим недоступен с Batch API.
    • Priority Tier: Быстрый режим недоступен с Priority Tier.

    Следующие шаги

    Цены

    Просмотрите подробную информацию о ценах быстрого режима.

    Ограничения скорости

    Проверьте уровни ограничений скорости для быстрого режима.

    Параметр усилия

    Контролируйте использование токенов с помощью параметра усилия.

    Was this page helpful?

    • Поддерживаемые модели
    • Как работает быстрый режим
    • Базовое использование
    • Цены
    • Ограничения скорости
    • Проверка использованной скорости
    • Повторные попытки и откат
    • Автоматические повторные попытки
    • Откат на стандартную скорость
    • Рассмотрения
    • Следующие шаги