Loading...
    • Руководство разработчика
    • Справочник API
    • MCP
    • Ресурсы
    • Примечания к выпуску
    Search...
    ⌘K
    Первые шаги
    Введение в ClaudeБыстрый старт
    Модели и цены
    Обзор моделейВыбор моделиЧто нового в Claude 4.5Миграция на Claude 4.5Устаревшие моделиЦены
    Разработка с Claude
    Обзор функцийИспользование Messages APIКонтекстные окнаЛучшие практики промптинга
    Возможности
    Кэширование промптовРедактирование контекстаРасширенное мышлениеУсилиеПотоковая передача сообщенийПакетная обработкаЦитированияМногоязычная поддержкаПодсчет токеновEmbeddingsЗрениеПоддержка PDFFiles APIРезультаты поискаСтруктурированные выходные данныеДополнение Google Sheets
    Инструменты
    ОбзорКак реализовать использование инструментовЭффективное использование инструментов по токенамПотоковая передача инструментов с детализациейИнструмент BashИнструмент выполнения кодаПрограммное вызывание инструментовИнструмент компьютерного управленияИнструмент текстового редактораИнструмент веб-выборкиИнструмент веб-поискаИнструмент памятиИнструмент поиска инструментов
    Навыки агента
    ОбзорБыстрый стартЛучшие практикиИспользование навыков с API
    Agent SDK
    ОбзорTypeScript SDKPython SDKРуководство по миграции
    Руководства
    Потоковый вводОбработка разрешенийУправление сеансомСтруктурированные выходные данные в SDKРазмещение Agent SDKИзменение системных промптовMCP в SDKПользовательские инструментыПодагенты в SDKКосые команды в SDKНавыки агента в SDKОтслеживание затрат и использованияСписки задачПлагины в SDK
    MCP в API
    MCP коннекторУдаленные MCP серверы
    Claude на платформах третьих сторон
    Amazon BedrockMicrosoft FoundryVertex AI
    Инженерия промптов
    ОбзорГенератор промптовИспользование шаблонов промптовУлучшитель промптовБудьте ясны и прямолинейныИспользуйте примеры (многошаговый промптинг)Дайте Claude подумать (CoT)Используйте XML тегиДайте Claude роль (системные промпты)Предзаполните ответ ClaudeЦепочка сложных промптовСоветы по длинному контекстуСоветы по расширенному мышлению
    Тестирование и оценка
    Определение критериев успехаРазработка тестовых случаевИспользование инструмента оценкиСнижение задержки
    Усиление защиты
    Снижение галлюцинацийУвеличение согласованности выходных данныхСмягчение взломовПотоковые отказыСнижение утечки промптовДержите Claude в образе
    Администрирование и мониторинг
    Обзор Admin APIAPI использования и затратClaude Code Analytics API
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Тестирование и оценка

    Снижение задержки

    Узнайте, как измерить и уменьшить задержку при работе с Claude для повышения производительности и отзывчивости приложений.

    Задержка относится к времени, которое требуется модели для обработки запроса и генерации вывода. На задержку могут влиять различные факторы, такие как размер модели, сложность запроса и базовая инфраструктура, поддерживающая модель и точку взаимодействия.

    Всегда лучше сначала создать запрос, который хорошо работает без ограничений модели или запроса, а затем попробовать стратегии снижения задержки. Попытка преждевременно снизить задержку может помешать вам обнаружить, как выглядит максимальная производительность.


    Как измерить задержку

    При обсуждении задержки вы можете столкнуться с несколькими терминами и измерениями:

    • Базовая задержка: Это время, затрачиваемое моделью на обработку запроса и генерацию ответа, без учета входных и выходных токенов в секунду. Это дает общее представление о скорости модели.
    • Время до первого токена (TTFT): Эта метрика измеряет время, которое требуется модели для генерации первого токена ответа с момента отправки запроса. Это особенно актуально, когда вы используете потоковую передачу (подробнее об этом позже) и хотите обеспечить отзывчивый опыт для ваших пользователей.

    Для более глубокого понимания этих терминов ознакомьтесь с нашим глоссарием.


    Как снизить задержку

    1. Выберите правильную модель

    Один из самых простых способов снизить задержку - это выбрать подходящую модель для вашего случая использования. Anthropic предлагает ряд моделей с различными возможностями и характеристиками производительности. Рассмотрите ваши конкретные требования и выберите модель, которая лучше всего подходит для ваших потребностей с точки зрения скорости и качества вывода.

    Для критически важных по скорости приложений Claude Haiku 4.5 предлагает самое быстрое время отклика при сохранении высокого интеллекта:

    import anthropic
    
    client = anthropic.Anthropic()
    
    # Для чувствительных ко времени приложений используйте Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[{
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]"
        }]
    )

    Для получения более подробной информации о метриках моделей см. нашу страницу обзор моделей.

    2. Оптимизируйте длину запроса и вывода

    Минимизируйте количество токенов как в вашем входном запросе, так и в ожидаемом выводе, сохраняя при этом высокую производительность. Чем меньше токенов модель должна обработать и сгенерировать, тем быстрее будет ответ.

    Вот несколько советов, которые помогут вам оптимизировать ваши запросы и выводы:

    • Будьте ясными, но краткими: Стремитесь четко и кратко передать ваше намерение в запросе. Избегайте ненужных деталей или избыточной информации, помня при этом, что claude не имеет контекста о вашем случае использования и может не сделать предполагаемые логические скачки, если инструкции неясны.
    • Просите более короткие ответы: Попросите Claude напрямую быть кратким. Семейство моделей Claude 3 имеет улучшенную управляемость по сравнению с предыдущими поколениями. Если Claude выдает нежелательную длину, попросите Claude обуздать свою болтливость.
      Из-за того, как LLM подсчитывают токены вместо слов, просьба о точном количестве слов или ограничении количества слов не является такой эффективной стратегией, как просьба об ограничениях количества абзацев или предложений.
    • Установите соответствующие ограничения вывода: Используйте параметр max_tokens, чтобы установить жесткое ограничение на максимальную длину сгенерированного ответа. Это предотвращает генерацию Claude слишком длинных выводов.

      Примечание: Когда ответ достигает max_tokens токенов, ответ будет обрезан, возможно, посреди предложения или посреди слова, поэтому это грубая техника, которая может потребовать постобработки и обычно наиболее подходит для множественного выбора или коротких ответов, где ответ приходит прямо в начале.

    • Экспериментируйте с температурой: Параметр temperature контролирует случайность вывода. Более низкие значения (например, 0.2) иногда могут привести к более сфокусированным и коротким ответам, в то время как более высокие значения (например, 0.8) могут привести к более разнообразным, но потенциально более длинным выводам.

    Поиск правильного баланса между ясностью запроса, качеством вывода и количеством токенов может потребовать некоторых экспериментов.

    3. Используйте потоковую передачу

    Потоковая передача - это функция, которая позволяет модели начать отправлять свой ответ до того, как полный вывод будет завершен. Это может значительно улучшить воспринимаемую отзывчивость вашего приложения, поскольку пользователи могут видеть вывод модели в реальном времени.

    С включенной потоковой передачей вы можете обрабатывать вывод модели по мере его поступления, обновляя пользовательский интерфейс или выполняя другие задачи параллельно. Это может значительно улучшить пользовательский опыт и сделать ваше приложение более интерактивным и отзывчивым.

    Посетите потоковые сообщения, чтобы узнать о том, как вы можете реализовать потоковую передачу для вашего случая использования.

    • Как измерить задержку
    • Как снизить задержку
    • 1. Выберите правильную модель
    • 2. Оптимизируйте длину запроса и вывода
    • 3. Используйте потоковую передачу