Управление контекстом

Контекстные окна

Узнайте, как работают контекстные окна и какие стратегии использовать для эффективного управления ими в длительных разговорах и агентских рабочих процессах.

По мере роста разговоров вы в конечном итоге приблизитесь к пределам контекстного окна. Это руководство объясняет, как работают контекстные окна, и представляет стратегии для эффективного управления ими.

Для длительных разговоров и агентских рабочих процессов сжатие на стороне сервера является основной стратегией управления контекстом. Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии, такие как очистка результатов инструментов и очистка блоков размышлений.

Понимание контекстного окна

"Контекстное окно" относится ко всему тексту, на который языковая модель может ссылаться при генерации ответа, включая сам ответ. Это отличается от большого корпуса данных, на которых была обучена языковая модель, и вместо этого представляет "рабочую память" для модели. Большее контекстное окно позволяет модели обрабатывать более сложные и длинные подсказки. Меньшее контекстное окно может ограничить способность модели поддерживать согласованность в расширенных разговорах.

Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для запросов API¹:

Context window diagram

¹Для интерфейсов чата, таких как claude.ai, контекстные окна также могут быть установлены в системе "первый вошел, первый вышел".

Прогрессивное накопление токенов: По мере развития разговора через ходы каждое сообщение пользователя и ответ помощника накапливаются в контекстном окне. Предыдущие ходы полностью сохраняются.
Линейный паттерн роста: Использование контекста растет линейно с каждым ходом, при этом предыдущие ходы полностью сохраняются.
Емкость 200K токенов: Общее доступное контекстное окно (200 000 токенов) представляет максимальную емкость для хранения истории разговора и генерации нового вывода от Claude.
Поток ввода-вывода: Каждый ход состоит из:
- Фаза ввода: Содержит всю предыдущую историю разговора плюс текущее сообщение пользователя
- Фаза вывода: Генерирует текстовый ответ, который становится частью будущего ввода

Контекстное окно с расширенным размышлением

При использовании расширенного размышления все входные и выходные токены, включая токены, используемые для размышления, учитываются в пределе контекстного окна с несколькими нюансами в многоходовых ситуациях.

Токены бюджета размышления являются подмножеством вашего параметра max_tokens, выставляются как выходные токены и учитываются в пределах скорости. С адаптивным размышлением Claude динамически решает распределение размышления, поэтому фактическое использование токенов размышления может варьироваться в зависимости от запроса.

Однако предыдущие блоки размышления автоматически удаляются из расчета контекстного окна API Claude и не являются частью истории разговора, которую модель "видит" в последующих ходах, сохраняя емкость токенов для фактического содержания разговора.

Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном размышлении:

Context window diagram with extended thinking

Удаление расширенного размышления: Блоки расширенного размышления (показаны темно-серым) генерируются во время фазы вывода каждого хода, но не переносятся как входные токены для последующих ходов. Вам не нужно самостоятельно удалять блоки размышления. API Claude делает это автоматически, если вы их передадите.
Детали технической реализации:
- API автоматически исключает блоки размышления из предыдущих ходов, когда вы передаете их обратно как часть истории разговора.
- Токены расширенного размышления выставляются как выходные токены только один раз, во время их генерации.
- Расчет эффективного контекстного окна становится: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
- Токены размышления включают как блоки thinking, так и блоки redacted_thinking.

Эта архитектура эффективна по токенам и позволяет проводить обширные рассуждения без потерь токенов, так как блоки размышления могут быть значительной длины.

Вы можете прочитать больше о контекстном окне и расширенном размышлении в руководстве расширенного размышления.

Контекстное окно с расширенным размышлением и использованием инструментов

Диаграмма ниже иллюстрирует управление токенами контекстного окна при объединении расширенного размышления с использованием инструментов:

Context window diagram with extended thinking and tool use

Архитектура первого хода
- Компоненты ввода: Конфигурация инструментов и сообщение пользователя
- Компоненты вывода: Расширенное размышление + текстовый ответ + запрос использования инструмента
- Расчет токенов: Все компоненты ввода и вывода учитываются в контекстном окне, и все компоненты вывода выставляются как выходные токены.
Обработка результатов инструмента (ход 2)
- Компоненты ввода: Каждый блок из первого хода, а также tool_result. Блок расширенного размышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы должны возвращать блоки размышления.
- Компоненты вывода: После того как результаты инструмента переданы обратно Claude, Claude ответит только текстом (без дополнительного расширенного размышления до следующего сообщения user).
- Расчет токенов: Все компоненты ввода и вывода учитываются в контекстном окне, и все компоненты вывода выставляются как выходные токены.
Третий шаг
- Компоненты ввода: Все входные данные и вывод из предыдущего хода переносятся с исключением блока размышления, который теперь можно удалить, так как Claude завершил весь цикл использования инструмента. API автоматически удалит блок размышления для вас, если вы его передадите, или вы можете удалить его самостоятельно на этом этапе. Это также место, где вы добавили бы следующий ход User.
- Компоненты вывода: Поскольку есть новый ход User вне цикла использования инструмента, Claude будет генерировать новый блок расширенного размышления и продолжать оттуда.
- Расчет токенов: Токены предыдущего размышления автоматически удаляются из расчетов контекстного окна. Все остальные предыдущие блоки по-прежнему учитываются как часть окна токенов, и блок размышления в текущем ходе Assistant учитывается как часть контекстного окна.

Соображения для использования инструментов с расширенным размышлением:
- При отправке результатов инструмента весь неизмененный блок размышления, который сопровождает этот конкретный запрос инструмента (включая подпись/отредактированные части), должен быть включен.
- Расчет эффективного контекстного окна для расширенного размышления с использованием инструментов становится: context_window = input_tokens + current_turn_tokens.
- Система использует криптографические подписи для проверки подлинности блока размышления. Невозможность сохранить блоки размышления во время использования инструмента может нарушить непрерывность рассуждений Claude. Таким образом, если вы измените блоки размышления, API вернет ошибку.

Модели Claude 4 поддерживают чередующееся размышление, которое позволяет Claude размышлять между вызовами инструментов и проводить более сложные рассуждения после получения результатов инструментов.

Claude Sonnet 3.7 не поддерживает чередующееся размышление, поэтому нет чередования расширенного размышления и вызовов инструментов без хода пользователя, не являющегося tool_result, между ними.

Для получения дополнительной информации об использовании инструментов с расширенным размышлением см. руководство расширенного размышления.

Контекстное окно 1M токенов

Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 и Sonnet 4 поддерживают контекстное окно в 1 миллион токенов. Это расширенное контекстное окно позволяет вам обрабатывать гораздо большие документы, поддерживать более длительные разговоры и работать с более обширными кодовыми базами.

Контекстное окно 1M токенов в настоящее время находится в бета-версии для организаций в уровне использования 4 и организаций с пользовательскими пределами скорости. Контекстное окно 1M токенов доступно только для Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 и Sonnet 4.

Чтобы использовать контекстное окно 1M токенов, включите бета-заголовок context-1m-2025-08-07 в ваши запросы API:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: context-1m-2025-08-07" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Process this large document..."}
    ]
  }'

Важные соображения:

Статус бета-версии: Это бета-функция, подлежащая изменению. Функции и цены могут быть изменены или удалены в будущих выпусках.
Требование уровня использования: Контекстное окно 1M токенов доступно для организаций в уровне использования 4 и организаций с пользовательскими пределами скорости. Организации более низкого уровня должны перейти на уровень использования 4, чтобы получить доступ к этой функции.
Доступность: Контекстное окно 1M токенов в настоящее время доступно на Claude API, Microsoft Foundry, Amazon Bedrock и Google Cloud's Vertex AI.
Цены: Запросы, превышающие 200K токенов, автоматически выставляются по премиум-ставкам (2x ввод, 1.5x вывод). Подробности см. в документации по ценам.
Пределы скорости: Запросы с длинным контекстом имеют выделенные пределы скорости. Подробности см. в документации по пределам скорости.
Соображения мультимодальности: При обработке большого количества изображений или PDF-файлов имейте в виду, что файлы могут различаться по использованию токенов. При объединении большой подсказки с большим количеством изображений вы можете столкнуться с пределами размера запроса.

Осведомленность о контексте в Claude Sonnet 4.6, Sonnet 4.5 и Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5 и Claude Haiku 4.5 имеют функцию осведомленности о контексте. Эта возможность позволяет этим моделям отслеживать оставшееся контекстное окно (т.е. "бюджет токенов") на протяжении разговора. Это позволяет Claude выполнять задачи и управлять контекстом более эффективно, понимая, сколько места у него есть для работы. Claude обучен использовать этот контекст точно, продолжая задачу до самого конца, а не угадывая, сколько токенов остается. Для модели отсутствие осведомленности о контексте похоже на участие в кулинарном шоу без часов. Модели Claude 4.5+ меняют это, явно информируя модель об оставшемся контексте, чтобы она могла максимально использовать доступные токены.

Как это работает:

В начале разговора Claude получает информацию об общем контекстном окне:

<budget:token_budget>200000</budget:token_budget>

Бюджет установлен на 200K токенов (стандартный), 500K токенов (claude.ai Enterprise) или 1M токенов (бета, для подходящих организаций).

После каждого вызова инструмента Claude получает обновление оставшейся емкости:

<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и позволяет более эффективное выполнение длительных задач. Токены изображений включены в эти бюджеты.

Преимущества:

Осведомленность о контексте особенно ценна для:

Длительных сеансов агентов, требующих устойчивого внимания
Рабочих процессов с несколькими контекстными окнами, где переходы состояния имеют значение
Сложных задач, требующих тщательного управления токенами

Для руководства по подсказкам по использованию осведомленности о контексте см. руководство по лучшим практикам подсказок.

Управление контекстом с помощью сжатия

Если ваши разговоры регулярно приближаются к пределам контекстного окна, сжатие на стороне сервера является рекомендуемым подходом. Сжатие обеспечивает сводку на стороне сервера, которая автоматически сжимает более ранние части разговора, позволяя длительные разговоры за пределами контекстных окон с минимальной работой интеграции. В настоящее время это доступно в бета-версии для Claude Opus 4.6.

Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии:

Очистка результатов инструментов - Очистите старые результаты инструментов в агентских рабочих процессах
Очистка блоков размышления - Управляйте блоками размышления с расширенным размышлением

Управление контекстным окном с новыми моделями Claude

Новые модели Claude (начиная с Claude Sonnet 3.7) возвращают ошибку валидации, когда токены подсказки и вывода превышают контекстное окно, вместо молчаливого усечения. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами.

Используйте API подсчета токенов для оценки использования токенов перед отправкой сообщений Claude. Это помогает вам спланировать и оставаться в пределах контекстного окна.

См. таблицу сравнения моделей для списка размеров контекстного окна по моделям.

Следующие шаги

Сжатие

Рекомендуемая стратегия управления контекстом в длительных разговорах.

Редактирование контекста

Детальные стратегии, такие как очистка результатов инструментов и очистка блоков размышления.

Таблица сравнения моделей

См. таблицу сравнения моделей для списка размеров контекстного окна и цен входных/выходных токенов по моделям.

Обзор расширенного размышления

Узнайте больше о том, как работает расширенное размышление и как его реализовать вместе с другими функциями, такими как использование инструментов и кэширование подсказок.

Was this page helpful?

Управление контекстом

Контекстные окна

Понимание контекстного окна

Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для запросов API¹:

Context window diagram

Прогрессивное накопление токенов: По мере развития разговора через ходы каждое сообщение пользователя и ответ помощника накапливаются в контекстном окне. Предыдущие ходы полностью сохраняются.
Линейный паттерн роста: Использование контекста растет линейно с каждым ходом, при этом предыдущие ходы полностью сохраняются.
Емкость 200K токенов: Общее доступное контекстное окно (200 000 токенов) представляет максимальную емкость для хранения истории разговора и генерации нового вывода от Claude.
Поток ввода-вывода: Каждый ход состоит из:
- Фаза ввода: Содержит всю предыдущую историю разговора плюс текущее сообщение пользователя
- Фаза вывода: Генерирует текстовый ответ, который становится частью будущего ввода

Контекстное окно с расширенным размышлением

Context window diagram with extended thinking

Удаление расширенного размышления: Блоки расширенного размышления (показаны темно-серым) генерируются во время фазы вывода каждого хода, но не переносятся как входные токены для последующих ходов. Вам не нужно самостоятельно удалять блоки размышления. API Claude делает это автоматически, если вы их передадите.
Детали технической реализации:
- API автоматически исключает блоки размышления из предыдущих ходов, когда вы передаете их обратно как часть истории разговора.
- Токены расширенного размышления выставляются как выходные токены только один раз, во время их генерации.
- Расчет эффективного контекстного окна становится: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
- Токены размышления включают как блоки thinking, так и блоки redacted_thinking.

Контекстное окно с расширенным размышлением и использованием инструментов

Context window diagram with extended thinking and tool use

Архитектура первого хода
- Компоненты ввода: Конфигурация инструментов и сообщение пользователя
- Компоненты вывода: Расширенное размышление + текстовый ответ + запрос использования инструмента
- Расчет токенов: Все компоненты ввода и вывода учитываются в контекстном окне, и все компоненты вывода выставляются как выходные токены.
Обработка результатов инструмента (ход 2)
- Компоненты ввода: Каждый блок из первого хода, а также tool_result. Блок расширенного размышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы должны возвращать блоки размышления.
- Компоненты вывода: После того как результаты инструмента переданы обратно Claude, Claude ответит только текстом (без дополнительного расширенного размышления до следующего сообщения user).
- Расчет токенов: Все компоненты ввода и вывода учитываются в контекстном окне, и все компоненты вывода выставляются как выходные токены.
Третий шаг
- Компоненты ввода: Все входные данные и вывод из предыдущего хода переносятся с исключением блока размышления, который теперь можно удалить, так как Claude завершил весь цикл использования инструмента. API автоматически удалит блок размышления для вас, если вы его передадите, или вы можете удалить его самостоятельно на этом этапе. Это также место, где вы добавили бы следующий ход User.
- Компоненты вывода: Поскольку есть новый ход User вне цикла использования инструмента, Claude будет генерировать новый блок расширенного размышления и продолжать оттуда.
- Расчет токенов: Токены предыдущего размышления автоматически удаляются из расчетов контекстного окна. Все остальные предыдущие блоки по-прежнему учитываются как часть окна токенов, и блок размышления в текущем ходе Assistant учитывается как часть контекстного окна.

Соображения для использования инструментов с расширенным размышлением:
- При отправке результатов инструмента весь неизмененный блок размышления, который сопровождает этот конкретный запрос инструмента (включая подпись/отредактированные части), должен быть включен.
- Расчет эффективного контекстного окна для расширенного размышления с использованием инструментов становится: context_window = input_tokens + current_turn_tokens.
- Система использует криптографические подписи для проверки подлинности блока размышления. Невозможность сохранить блоки размышления во время использования инструмента может нарушить непрерывность рассуждений Claude. Таким образом, если вы измените блоки размышления, API вернет ошибку.

Контекстное окно 1M токенов

Чтобы использовать контекстное окно 1M токенов, включите бета-заголовок context-1m-2025-08-07 в ваши запросы API:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: context-1m-2025-08-07" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Process this large document..."}
    ]
  }'

Важные соображения:

Статус бета-версии: Это бета-функция, подлежащая изменению. Функции и цены могут быть изменены или удалены в будущих выпусках.
Требование уровня использования: Контекстное окно 1M токенов доступно для организаций в уровне использования 4 и организаций с пользовательскими пределами скорости. Организации более низкого уровня должны перейти на уровень использования 4, чтобы получить доступ к этой функции.
Доступность: Контекстное окно 1M токенов в настоящее время доступно на Claude API, Microsoft Foundry, Amazon Bedrock и Google Cloud's Vertex AI.
Цены: Запросы, превышающие 200K токенов, автоматически выставляются по премиум-ставкам (2x ввод, 1.5x вывод). Подробности см. в документации по ценам.
Пределы скорости: Запросы с длинным контекстом имеют выделенные пределы скорости. Подробности см. в документации по пределам скорости.
Соображения мультимодальности: При обработке большого количества изображений или PDF-файлов имейте в виду, что файлы могут различаться по использованию токенов. При объединении большой подсказки с большим количеством изображений вы можете столкнуться с пределами размера запроса.

Осведомленность о контексте в Claude Sonnet 4.6, Sonnet 4.5 и Haiku 4.5

Как это работает:

В начале разговора Claude получает информацию об общем контекстном окне:

<budget:token_budget>200000</budget:token_budget>

После каждого вызова инструмента Claude получает обновление оставшейся емкости:

<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

Преимущества:

Осведомленность о контексте особенно ценна для:

Длительных сеансов агентов, требующих устойчивого внимания
Рабочих процессов с несколькими контекстными окнами, где переходы состояния имеют значение
Сложных задач, требующих тщательного управления токенами

Управление контекстом с помощью сжатия

Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии:

Очистка результатов инструментов - Очистите старые результаты инструментов в агентских рабочих процессах
Очистка блоков размышления - Управляйте блоками размышления с расширенным размышлением

Управление контекстным окном с новыми моделями Claude

См. таблицу сравнения моделей для списка размеров контекстного окна по моделям.

Следующие шаги

Сжатие

Рекомендуемая стратегия управления контекстом в длительных разговорах.

Редактирование контекста

Детальные стратегии, такие как очистка результатов инструментов и очистка блоков размышления.

Таблица сравнения моделей

Обзор расширенного размышления

Was this page helpful?