По мере роста разговоров вы в конечном итоге приблизитесь к пределам контекстного окна. Это руководство объясняет, как работают контекстные окна, и представляет стратегии для эффективного управления ими.
Для длительных разговоров и агентских рабочих процессов сжатие на стороне сервера является основной стратегией управления контекстом. Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии, такие как очистка результатов инструментов и очистка блоков размышлений.
"Контекстное окно" относится ко всему тексту, на который языковая модель может ссылаться при генерации ответа, включая сам ответ. Это отличается от большого корпуса данных, на которых была обучена языковая модель, и вместо этого представляет "рабочую память" для модели. Большее контекстное окно позволяет модели обрабатывать более сложные и длинные подсказки. Меньшее контекстное окно может ограничить способность модели поддерживать согласованность в расширенных разговорах.
Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для запросов API1:
1Для интерфейсов чата, таких как claude.ai, контекстные окна также могут быть установлены в системе "первый вошел, первый вышел".
При использовании расширенного размышления все входные и выходные токены, включая токены, используемые для размышления, учитываются в пределе контекстного окна с несколькими нюансами в многоходовых ситуациях.
Токены бюджета размышления являются подмножеством вашего параметра max_tokens, выставляются как выходные токены и учитываются в пределах скорости. С адаптивным размышлением Claude динамически решает распределение размышления, поэтому фактическое использование токенов размышления может варьироваться в зависимости от запроса.
Однако предыдущие блоки размышления автоматически удаляются из расчета контекстного окна API Claude и не являются частью истории разговора, которую модель "видит" в последующих ходах, сохраняя емкость токенов для фактического содержания разговора.
Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном размышлении:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking, так и блоки redacted_thinking.Эта архитектура эффективна по токенам и позволяет проводить обширные рассуждения без потерь токенов, так как блоки размышления могут быть значительной длины.
Вы можете прочитать больше о контекстном окне и расширенном размышлении в руководстве расширенного размышления.
Диаграмма ниже иллюстрирует управление токенами контекстного окна при объединении расширенного размышления с использованием инструментов:
Архитектура первого хода
Обработка результатов инструмента (ход 2)
tool_result. Блок расширенного размышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы должны возвращать блоки размышления.user).Третий шаг
User.User вне цикла использования инструмента, Claude будет генерировать новый блок расширенного размышления и продолжать оттуда.Assistant учитывается как часть контекстного окна.context_window = input_tokens + current_turn_tokens.Модели Claude 4 поддерживают чередующееся размышление, которое позволяет Claude размышлять между вызовами инструментов и проводить более сложные рассуждения после получения результатов инструментов.
Claude Sonnet 3.7 не поддерживает чередующееся размышление, поэтому нет чередования расширенного размышления и вызовов инструментов без хода пользователя, не являющегося tool_result, между ними.
Для получения дополнительной информации об использовании инструментов с расширенным размышлением см. руководство расширенного размышления.
Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 и Sonnet 4 поддерживают контекстное окно в 1 миллион токенов. Это расширенное контекстное окно позволяет вам обрабатывать гораздо большие документы, поддерживать более длительные разговоры и работать с более обширными кодовыми базами.
Контекстное окно 1M токенов в настоящее время находится в бета-версии для организаций в уровне использования 4 и организаций с пользовательскими пределами скорости. Контекстное окно 1M токенов доступно только для Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 и Sonnet 4.
Чтобы использовать контекстное окно 1M токенов, включите бета-заголовок context-1m-2025-08-07 в ваши запросы API:
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: context-1m-2025-08-07" \
-H "content-type: application/json" \
-d '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "Process this large document..."}
]
}'Важные соображения:
Claude Sonnet 4.6, Claude Sonnet 4.5 и Claude Haiku 4.5 имеют функцию осведомленности о контексте. Эта возможность позволяет этим моделям отслеживать оставшееся контекстное окно (т.е. "бюджет токенов") на протяжении разговора. Это позволяет Claude выполнять задачи и управлять контекстом более эффективно, понимая, сколько места у него есть для работы. Claude обучен использовать этот контекст точно, продолжая задачу до самого конца, а не угадывая, сколько токенов остается. Для модели отсутствие осведомленности о контексте похоже на участие в кулинарном шоу без часов. Модели Claude 4.5+ меняют это, явно информируя модель об оставшемся контексте, чтобы она могла максимально использовать доступные токены.
Как это работает:
В начале разговора Claude получает информацию об общем контекстном окне:
<budget:token_budget>200000</budget:token_budget>Бюджет установлен на 200K токенов (стандартный), 500K токенов (claude.ai Enterprise) или 1M токенов (бета, для подходящих организаций).
После каждого вызова инструмента Claude получает обновление оставшейся емкости:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и позволяет более эффективное выполнение длительных задач. Токены изображений включены в эти бюджеты.
Преимущества:
Осведомленность о контексте особенно ценна для:
Для руководства по подсказкам по использованию осведомленности о контексте см. руководство по лучшим практикам подсказок.
Если ваши разговоры регулярно приближаются к пределам контекстного окна, сжатие на стороне сервера является рекомендуемым подходом. Сжатие обеспечивает сводку на стороне сервера, которая автоматически сжимает более ранние части разговора, позволяя длительные разговоры за пределами контекстных окон с минимальной работой интеграции. В настоящее время это доступно в бета-версии для Claude Opus 4.6.
Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии:
Новые модели Claude (начиная с Claude Sonnet 3.7) возвращают ошибку валидации, когда токены подсказки и вывода превышают контекстное окно, вместо молчаливого усечения. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами.
Используйте API подсчета токенов для оценки использования токенов перед отправкой сообщений Claude. Это помогает вам спланировать и оставаться в пределах контекстного окна.
См. таблицу сравнения моделей для списка размеров контекстного окна по моделям.
Рекомендуемая стратегия управления контекстом в длительных разговорах.
Детальные стратегии, такие как очистка результатов инструментов и очистка блоков размышления.
См. таблицу сравнения моделей для списка размеров контекстного окна и цен входных/выходных токенов по моделям.
Узнайте больше о том, как работает расширенное размышление и как его реализовать вместе с другими функциями, такими как использование инструментов и кэширование подсказок.
Was this page helpful?