"Контекстное окно" относится ко всему объему текста, на который языковая модель может оглянуться и ссылаться при генерации нового текста, плюс новый текст, который она генерирует. Это отличается от большого корпуса данных, на котором была обучена языковая модель, и вместо этого представляет "рабочую память" для модели. Большее контекстное окно позволяет модели понимать и отвечать на более сложные и длинные запросы, в то время как меньшее контекстное окно может ограничить способность модели обрабатывать более длинные запросы или поддерживать связность в расширенных разговорах.
Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для API-запросов1:
1Для чат-интерфейсов, таких как claude.ai, контекстные окна также могут быть настроены по принципу "первый пришел, первый ушел".
При использовании расширенного мышления, все входные и выходные токены, включая токены, используемые для мышления, засчитываются в лимит контекстного окна, с несколькими нюансами в многоходовых ситуациях.
Токены бюджета мышления являются подмножеством вашего параметра max_tokens, оплачиваются как выходные токены и засчитываются в лимиты скорости.
Однако предыдущие блоки мышления автоматически исключаются из расчета контекстного окна API Claude и не являются частью истории разговора, которую модель "видит" для последующих ходов, сохраняя емкость токенов для фактического содержания разговора.
Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном мышлении:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking, так и блоки redacted_thinking.Эта архитектура эффективна по токенам и позволяет обширные рассуждения без потери токенов, поскольку блоки мышления могут быть значительными по длине.
Вы можете прочитать больше о контекстном окне и расширенном мышлении в нашем руководстве по расширенному мышлению.
Диаграмма ниже иллюстрирует управление токенами контекстного окна при сочетании расширенного мышления с использованием инструментов:
Архитектура первого хода
Обработка результата инструмента (ход 2)
tool_result. Блок расширенного мышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы обязаны возвращать блоки мышления.user).Третий шаг
context_window = input_tokens + current_turn_tokens.Модели Claude 4 поддерживают чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и делать более сложные рассуждения после получения результатов инструментов.
Claude Sonnet 3.7 не поддерживает чередующееся мышление, поэтому нет чередования расширенного мышления и вызовов инструментов без не-tool_result пользовательского хода между ними.
Для получения дополнительной информации об использовании инструментов с расширенным мышлением см. наше руководство по расширенному мышлению.
Claude Sonnet 4 и 4.5 поддерживают контекстное окно на миллион токенов. Это расширенное контекстное окно позволяет вам обрабатывать гораздо большие документы, поддерживать более длинные разговоры и работать с более обширными кодовыми базами.
Контекстное окно на 1M токенов в настоящее время находится в бета-версии для организаций в уровне использования 4 и организаций с пользовательскими лимитами скорости. Контекстное окно на 1M токенов доступно только для Claude Sonnet 4 и Sonnet 4.5.
Чтобы использовать контекстное окно на 1M токенов, включите бета-заголовок context-1m-2025-08-07 в ваши API-запросы:
Важные соображения:
Claude Sonnet 4.5 и Claude Haiku 4.5 имеют осведомленность о контексте, позволяя этим моделям отслеживать свое оставшееся контекстное окно (т.е. "бюджет токенов") на протяжении разговора. Это позволяет Claude выполнять задачи и управлять контекстом более эффективно, понимая, сколько места у него есть для работы. Claude изначально обучен использовать этот контекст точно для продолжения задачи до самого конца, а не угадывать, сколько токенов осталось. Для модели отсутствие осведомленности о контексте подобно участию в кулинарном шоу без часов. Модели Claude 4.5 изменяют это, явно информируя модель о ее оставшемся контексте, чтобы она могла максимально использовать доступные токены.
Как это работает:
В начале разговора Claude получает информацию о своем общем контекстном окне:
<budget:token_budget>200000</budget:token_budget>Бюджет устанавливается на 200K токенов (стандартный), 500K токенов (Claude.ai Enterprise) или 1M токенов (бета, для подходящих организаций).
После каждого вызова инструмента Claude получает обновление об оставшейся емкости:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и обеспечивает более эффективное выполнение долгосрочных задач. Токены изображений включены в эти бюджеты.
Преимущества:
Осведомленность о контексте особенно ценна для:
Для руководства по промптингу по использованию осведомленности о контексте см. наше руководство по лучшим практикам Claude 4.
В новых моделях Claude (начиная с Claude Sonnet 3.7), если сумма токенов запроса и выходных токенов превышает контекстное окно модели, система вернет ошибку валидации, а не молча обрежет контекст. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами.
Чтобы планировать использование токенов и убедиться, что вы остаетесь в пределах лимитов контекстного окна, вы можете использовать API подсчета токенов для оценки того, сколько токенов будут использовать ваши сообщения перед их отправкой Claude.
См. нашу таблицу сравнения моделей для списка размеров контекстных окон по моделям.
UserUser вне цикла использования инструмента, Claude сгенерирует новый блок расширенного мышления и продолжит оттуда.Assistant засчитывается как часть контекстного окна.from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Узнайте больше о том, как работает расширенное мышление и как реализовать его вместе с другими функциями, такими как использование инструментов и кэширование запросов.