"Контекстное окно" относится ко всему объему текста, на который языковая модель может смотреть назад и ссылаться при генерации нового текста, плюс новый текст, который она генерирует. Это отличается от большого корпуса данных, на которых была обучена языковая модель, и вместо этого представляет "рабочую память" для модели. Большее контекстное окно позволяет модели понимать и отвечать на более сложные и длинные подсказки, в то время как меньшее контекстное окно может ограничить способность модели обрабатывать более длинные подсказки или поддерживать согласованность в расширенных разговорах.
Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для запросов API1:
1Для интерфейсов чата, таких как claude.ai, контекстные окна также могут быть установлены в системе "первый вошел, первый вышел" на основе скользящего окна.
При использовании расширенного мышления все входные и выходные токены, включая токены, используемые для мышления, учитываются в пределе контекстного окна, с несколькими нюансами в многоходовых ситуациях.
Токены бюджета мышления являются подмножеством вашего параметра max_tokens, выставляются как выходные токены и учитываются в пределах скорости.
Однако предыдущие блоки мышления автоматически удаляются из расчета контекстного окна API Claude и не являются частью истории разговора, которую модель "видит" для последующих ходов, сохраняя емкость токенов для фактического содержания разговора.
Диаграмма ниже демонстрирует специализированное управление токенами при включении расширенного мышления:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking, так и блоки redacted_thinking.Эта архитектура эффективна по токенам и позволяет проводить обширные рассуждения без потерь токенов, так как блоки мышления могут быть значительной длины.
Вы можете прочитать больше о контекстном окне и расширенном мышлении в нашем руководстве по расширенному мышлению.
Диаграмма ниже иллюстрирует управление токенами контекстного окна при объединении расширенного мышления с использованием инструментов:
Архитектура первого хода
Обработка результатов инструмента (ход 2)
tool_result. Блок расширенного мышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы должны возвращать блоки мышления.user).Третий шаг
context_window = input_tokens + current_turn_tokens.Модели Claude 4 поддерживают чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и проводить более сложные рассуждения после получения результатов инструмента.
Claude Sonnet 3.7 не поддерживает чередующееся мышление, поэтому нет чередования расширенного мышления и вызовов инструментов без промежуточного хода пользователя, не являющегося tool_result.
Для получения дополнительной информации об использовании инструментов с расширенным мышлением см. наше руководство по расширенному мышлению.
Claude Sonnet 4 и 4.5 поддерживают контекстное окно в 1 миллион токенов. Это расширенное контекстное окно позволяет вам обрабатывать намного большие документы, поддерживать более длинные разговоры и работать с более обширными кодовыми базами.
Контекстное окно в 1M токенов в настоящее время находится в бета-версии для организаций на уровне использования 4 и организаций с пользовательскими ограничениями скорости. Контекстное окно в 1M токенов доступно только для Claude Sonnet 4 и Sonnet 4.5.
Чтобы использовать контекстное окно в 1M токенов, включите бета-заголовок context-1m-2025-08-07 в ваши запросы API:
Важные рекомендации:
Claude Sonnet 4.5 и Claude Haiku 4.5 обладают осведомленностью о контексте, позволяя этим моделям отслеживать оставшееся контекстное окно (т.е. "бюджет токенов") на протяжении разговора. Это позволяет Claude более эффективно выполнять задачи и управлять контекстом, понимая, сколько места у него есть для работы. Claude изначально обучен использовать этот контекст именно для того, чтобы продолжить задачу до самого конца, а не угадывать, сколько токенов осталось. Для модели отсутствие осведомленности о контексте похоже на участие в кулинарном шоу без часов. Модели Claude 4.5 меняют это, явно информируя модель об оставшемся контексте, чтобы она могла максимально использовать доступные токены.
Как это работает:
В начале разговора Claude получает информацию об общем контекстном окне:
<budget:token_budget>200000</budget:token_budget>Бюджет установлен на 200K токенов (стандартный), 500K токенов (Claude.ai Enterprise) или 1M токенов (бета, для подходящих организаций).
После каждого вызова инструмента Claude получает обновление об оставшейся емкости:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и позволяет более эффективно выполнять долгосрочные задачи. Токены изображений включены в эти бюджеты.
Преимущества:
Осведомленность о контексте особенно ценна для:
Для рекомендаций по подсказкам по использованию осведомленности о контексте см. наше руководство по лучшим практикам Claude 4.
В новых моделях Claude (начиная с Claude Sonnet 3.7), если сумма токенов подсказки и выходных токенов превышает контекстное окно модели, система вернет ошибку валидации вместо молчаливого усечения контекста. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами.
Чтобы спланировать использование токенов и убедиться, что вы остаетесь в пределах контекстного окна, вы можете использовать API подсчета токенов для оценки того, сколько токенов будут использовать ваши сообщения перед отправкой их в Claude.
См. нашу таблицу сравнения моделей для списка размеров контекстного окна по моделям.
UserUser вне цикла использования инструмента, Claude будет генерировать новый блок расширенного мышления и продолжит оттуда.Assistant учитывается как часть контекстного окна.from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Узнайте больше о том, как работает расширенное мышление и как его реализовать вместе с другими функциями, такими как использование инструментов и кэширование подсказок.