Loading...
  • Разработка
  • Администрирование
  • Модели и цены
  • Клиентские SDK
  • Справочник API
Search...
⌘K
Log in
Снижение задержки
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Разработка/Тестирование и оценка

Снижение задержки

Узнайте, как измерять и снижать задержку при работе с Claude, включая выбор правильной модели, оптимизацию промптов и использование потоковой передачи.

Задержка (latency) — это время, которое требуется модели для обработки промпта и генерации ответа. На задержку могут влиять различные факторы, такие как размер модели, сложность промпта и базовая инфраструктура, поддерживающая модель и точку взаимодействия.

Всегда лучше сначала создать промпт, который хорошо работает без ограничений модели или промпта, а затем попробовать стратегии снижения задержки. Попытка преждевременного снижения задержки может помешать вам обнаружить, как выглядит максимальная производительность.


Как измерять задержку

При обсуждении задержки вы можете встретить несколько терминов и измерений:

  • Базовая задержка: это время, затраченное моделью на обработку промпта и генерацию ответа, без учета входных и выходных токенов в секунду. Это дает общее представление о скорости модели.
  • Время до первого токена (TTFT): этот показатель измеряет время, необходимое модели для генерации первого токена ответа с момента отправки промпта. Это особенно актуально, когда вы используете потоковую передачу (подробнее об этом позже) и хотите обеспечить отзывчивый опыт для ваших пользователей.

Для более глубокого понимания этих терминов ознакомьтесь с нашим глоссарием.


Как снизить задержку

1. Выберите правильную модель

Один из самых простых способов снизить задержку — выбрать подходящую модель для вашего варианта использования. Anthropic предлагает диапазон моделей с различными возможностями и характеристиками производительности. Рассмотрите ваши конкретные требования и выберите модель, которая лучше всего соответствует вашим потребностям с точки зрения скорости и качества вывода.

Для приложений, критичных по времени, Claude Haiku 4.5 обеспечивает самое быстрое время отклика при сохранении высокого интеллекта:

Python
import anthropic

client = anthropic.Anthropic()

# For time-sensitive applications, use Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

Для получения дополнительной информации о метриках моделей см. нашу страницу обзора моделей.

2. Оптимизируйте длину промпта и вывода

Минимизируйте количество токенов как во входном промпте, так и в ожидаемом выводе, сохраняя при этом высокую производительность. Чем меньше токенов должна обработать и сгенерировать модель, тем быстрее будет ответ.

Вот несколько советов, которые помогут вам оптимизировать ваши промпты и выводы:

  • Будьте ясны, но лаконичны: старайтесь четко и кратко выразить свое намерение в промпте. Избегайте ненужных деталей или избыточной информации, помня, что Claude не имеет контекста вашего варианта использования и может не сделать предполагаемые логические выводы, если инструкции неясны.
  • Просите более короткие ответы: попросите Claude напрямую быть лаконичным. Семейство моделей Claude 3 имеет улучшенную управляемость по сравнению с предыдущими поколениями. Если Claude выдает нежелательную длину, попросите Claude сократить его болтливость.
    Из-за того, как LLM считают токены вместо слов, просьба о точном количестве слов или ограничении количества слов не так эффективна, как просьба об ограничениях количества абзацев или предложений.
  • Установите соответствующие ограничения вывода: используйте параметр max_tokens для установки жесткого ограничения на максимальную длину сгенерированного ответа. Это предотвращает генерацию Claude чрезмерно длинных выводов.

    Примечание: когда ответ достигает max_tokens токенов, ответ будет обрезан, возможно, в середине предложения или слова, поэтому это грубый метод, который может потребовать постобработки и обычно наиболее подходит для ответов с несколькими вариантами или коротких ответов, где ответ приходит прямо в начале.

  • Экспериментируйте с температурой: параметр temperature контролирует случайность вывода. Более низкие значения (например, 0,2) иногда могут привести к более сосредоточенным и коротким ответам, в то время как более высокие значения (например, 0,8) могут привести к более разнообразным, но потенциально более длинным выводам.

Поиск правильного баланса между ясностью промпта, качеством вывода и количеством токенов может потребовать некоторых экспериментов.

3. Используйте потоковую передачу

Потоковая передача — это функция, которая позволяет модели начать отправку своего ответа до завершения полного вывода. Это может значительно улучшить воспринимаемую отзывчивость вашего приложения, так как пользователи могут видеть вывод модели в реальном времени.

С включенной потоковой передачей вы можете обрабатывать вывод модели по мере его поступления, обновляя пользовательский интерфейс или выполняя другие задачи параллельно. Это может значительно улучшить пользовательский опыт и сделать ваше приложение более интерактивным и отзывчивым.

Посетите потоковую передачу Messages, чтобы узнать, как вы можете реализовать потоковую передачу для вашего варианта использования.

Was this page helpful?

  • Как измерять задержку
  • Как снизить задержку
  • 1. Выберите правильную модель
  • 2. Оптимизируйте длину промпта и вывода
  • 3. Используйте потоковую передачу