Was this page helpful?
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
По мере роста диалогов вы в конечном итоге приблизитесь к пределам контекстного окна. Это руководство объясняет, как работают контекстные окна, и представляет стратегии для эффективного управления ими.
Для длительных диалогов и рабочих процессов агентов компрессия на стороне сервера является основной стратегией управления контекстом. Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии, такие как очистка результатов инструментов и очистка блоков мышления.
"Контекстное окно" относится ко всему тексту, который языковая модель может использовать при генерации ответа, включая сам ответ. Это отличается от большого корпуса данных, на которых была обучена языковая модель, и вместо этого представляет "рабочую память" для модели. Большее контекстное окно позволяет модели обрабатывать более сложные и длинные подсказки, но больше контекста не всегда лучше. По мере увеличения количества токенов точность и полнота ухудшаются, явление, известное как контекстная деградация. Это делает курирование содержимого контекста столь же важным, как и объем доступного пространства.
Claude достигает передовых результатов на эталонах долгого контекста, таких как MRCR и GraphWalks, но эти улучшения зависят от того, что находится в контексте, а не только от того, сколько там помещается.
Для глубокого погружения в то, почему длинные контексты деградируют и как это обойти, см. Эффективная инженерия контекста.
Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для запросов API1:
1Для интерфейсов чата, таких как claude.ai, контекстные окна также могут быть установлены в системе "первый вошел, первый вышел".
При использовании расширенного мышления все входные и выходные токены, включая токены, используемые для мышления, учитываются в пределе контекстного окна, с несколькими нюансами в многоходовых ситуациях.
Токены бюджета мышления являются подмножеством вашего параметра max_tokens, выставляются как выходные токены и учитываются в пределах скорости. С адаптивным мышлением Claude динамически решает распределение своего мышления, поэтому фактическое использование токенов мышления может варьироваться для каждого запроса.
Однако предыдущие блоки мышления автоматически удаляются из расчета контекстного окна API Claude и не являются частью истории диалога, которую модель "видит" для последующих ходов, сохраняя емкость токенов для фактического содержимого диалога.
Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном мышлении:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Эта архитектура эффективна по токенам и позволяет проводить обширные рассуждения без потерь токенов, так как блоки мышления могут быть значительной длины.
Вы можете прочитать больше о контекстном окне и расширенном мышлении в руководстве по расширенному мышлению.
Диаграмма ниже иллюстрирует управление токенами контекстного окна при объединении расширенного мышления с использованием инструментов:
Архитектура первого хода
Обработка результатов инструмента (ход 2)
tool_result. Блок расширенного мышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы должны вернуть блоки мышления.user).Третий шаг
context_window = input_tokens + current_turn_tokens.Модели Claude 4 поддерживают чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и проводить более сложные рассуждения после получения результатов инструментов.
Claude Sonnet 3.7 не поддерживает чередующееся мышление, поэтому нет чередования расширенного мышления и вызовов инструментов без хода пользователя, не являющегося tool_result, между ними.
Для получения дополнительной информации об использовании инструментов с расширенным мышлением см. руководство по расширенному мышлению.
Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 и Claude Sonnet 4.6 имеют контекстное окно в 1M токенов. Другие модели Claude, включая Claude Sonnet 4.5 и Sonnet 4 (устаревшая), имеют контекстное окно в 200k токенов.
Один запрос может включать до 600 изображений или страниц PDF (100 для моделей с контекстным окном в 200k токенов). При отправке большого количества изображений или больших документов вы можете приблизиться к пределам размера запроса раньше, чем к пределу токенов.
Claude Sonnet 4.6, Claude Sonnet 4.5 и Claude Haiku 4.5 имеют осведомленность о контексте. Эта возможность позволяет этим моделям отслеживать оставшееся контекстное окно (т.е. "бюджет токенов") на протяжении диалога. Это позволяет Claude более эффективно выполнять задачи и управлять контекстом, понимая, сколько места у него есть для работы. Claude обучен использовать этот контекст точно, продолжая задачу до самого конца, а не угадывая, сколько токенов осталось. Для модели отсутствие осведомленности о контексте похоже на участие в кулинарном шоу без часов. Модели Claude 4.5+ меняют это, явно информируя модель об оставшемся контексте, чтобы она могла максимально использовать доступные токены.
Как это работает:
В начале диалога Claude получает информацию о своем общем контекстном окне:
<budget:token_budget>1000000</budget:token_budget>Бюджет установлен на 1M токенов (200k для моделей с меньшим контекстным окном).
После каждого вызова инструмента Claude получает обновление об оставшейся емкости:
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и позволяет более эффективно выполнять длительные задачи. Токены изображений включены в эти бюджеты.
Преимущества:
Осведомленность о контексте особенно ценна для:
Для агентов, охватывающих несколько сеансов, разработайте свои артефакты состояния так, чтобы восстановление контекста было быстрым при запуске нового сеанса. Многосеансовый паттерн инструмента памяти проходит через конкретный подход. См. также Эффективные оснастки для долгоживущих агентов.
Для рекомендаций по подсказкам по использованию осведомленности о контексте см. руководство по лучшим практикам подсказок.
Если ваши диалоги регулярно приближаются к пределам контекстного окна, компрессия на стороне сервера является рекомендуемым подходом. Компрессия обеспечивает суммирование на стороне сервера, которое автоматически сжимает более ранние части диалога, позволяя длительные диалоги за пределами контекстных окон с минимальной работой интеграции. В настоящее время она доступна в бета-версии для Claude Opus 4.7, Claude Opus 4.6 и Claude Sonnet 4.6.
Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии:
Более новые модели Claude (начиная с Claude Sonnet 3.7) возвращают ошибку валидации, когда токены подсказки и вывода превышают контекстное окно, вместо молчаливого усечения. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами.
Используйте API подсчета токенов для оценки использования токенов перед отправкой сообщений Claude. Это помогает вам спланировать и остаться в пределах контекстного окна.
См. таблицу сравнения моделей для списка размеров контекстного окна по моделям.
Рекомендуемая стратегия управления контекстом в длительных диалогах.
Детальные стратегии, такие как очистка результатов инструментов и очистка блоков мышления.
См. таблицу сравнения моделей для списка размеров контекстного окна и цен входных/выходных токенов по моделям.
UserUser вне цикла использования инструмента, Claude генерирует новый блок расширенного мышления и продолжает оттуда.Assistant учитывается как часть контекстного окна.Узнайте больше о том, как работает расширенное мышление и как его реализовать вместе с другими функциями, такими как использование инструментов и кэширование подсказок.