Loading...
  • Разработка
  • Администрирование
  • Модели и цены
  • Клиентские SDK
  • Справочник API
Search...
⌘K
Log in
Контекстные окна
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Разработка/Управление контекстом

Контекстные окна

Узнайте, как работают контекстные окна в Claude и какие стратегии использовать для эффективного управления ими.

Was this page helpful?

  • Понимание контекстного окна
  • Контекстное окно с расширенным мышлением
  • Контекстное окно с расширенным мышлением и использованием инструментов
  • Осведомленность о контексте в Claude Sonnet 4.6, Sonnet 4.5 и Haiku 4.5
  • Управление контекстом с помощью компрессии
  • Управление контекстным окном с более новыми моделями Claude
  • Следующие шаги

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

По мере роста диалогов вы в конечном итоге приблизитесь к пределам контекстного окна. Это руководство объясняет, как работают контекстные окна, и представляет стратегии для эффективного управления ими.

Для длительных диалогов и рабочих процессов агентов компрессия на стороне сервера является основной стратегией управления контекстом. Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии, такие как очистка результатов инструментов и очистка блоков мышления.

Понимание контекстного окна

"Контекстное окно" относится ко всему тексту, который языковая модель может использовать при генерации ответа, включая сам ответ. Это отличается от большого корпуса данных, на которых была обучена языковая модель, и вместо этого представляет "рабочую память" для модели. Большее контекстное окно позволяет модели обрабатывать более сложные и длинные подсказки, но больше контекста не всегда лучше. По мере увеличения количества токенов точность и полнота ухудшаются, явление, известное как контекстная деградация. Это делает курирование содержимого контекста столь же важным, как и объем доступного пространства.

Claude достигает передовых результатов на эталонах долгого контекста, таких как MRCR и GraphWalks, но эти улучшения зависят от того, что находится в контексте, а не только от того, сколько там помещается.

Для глубокого погружения в то, почему длинные контексты деградируют и как это обойти, см. Эффективная инженерия контекста.

Диаграмма ниже иллюстрирует стандартное поведение контекстного окна для запросов API1:

Диаграмма контекстного окна

1Для интерфейсов чата, таких как claude.ai, контекстные окна также могут быть установлены в системе "первый вошел, первый вышел".

  • Прогрессивное накопление токенов: По мере продвижения диалога через повороты каждое сообщение пользователя и ответ ассистента накапливаются в контекстном окне. Предыдущие повороты полностью сохраняются.
  • Линейный паттерн роста: Использование контекста растет линейно с каждым поворотом, при этом предыдущие повороты полностью сохраняются.
  • Емкость контекстного окна: Общее доступное контекстное окно (до 1M токенов) представляет максимальную емкость для хранения истории диалога и генерации нового вывода от Claude.
  • Поток ввода-вывода: Каждый поворот состоит из:
    • Фаза ввода: Содержит всю предыдущую историю диалога плюс текущее сообщение пользователя
    • Фаза вывода: Генерирует текстовый ответ, который становится частью будущего ввода

Контекстное окно с расширенным мышлением

При использовании расширенного мышления все входные и выходные токены, включая токены, используемые для мышления, учитываются в пределе контекстного окна, с несколькими нюансами в многоходовых ситуациях.

Токены бюджета мышления являются подмножеством вашего параметра max_tokens, выставляются как выходные токены и учитываются в пределах скорости. С адаптивным мышлением Claude динамически решает распределение своего мышления, поэтому фактическое использование токенов мышления может варьироваться для каждого запроса.

Однако предыдущие блоки мышления автоматически удаляются из расчета контекстного окна API Claude и не являются частью истории диалога, которую модель "видит" для последующих ходов, сохраняя емкость токенов для фактического содержимого диалога.

Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном мышлении:

Диаграмма контекстного окна с расширенным мышлением

  • Удаление расширенного мышления: Блоки расширенного мышления (показаны темно-серым) генерируются во время фазы вывода каждого хода, но не переносятся как входные токены для последующих ходов. Вам не нужно самостоятельно удалять блоки мышления. API Claude делает это автоматически, если вы их вернете.
  • Детали технической реализации:
    • API автоматически исключает блоки мышления из предыдущих ходов, когда вы передаете их обратно как часть истории диалога.
    • Токены расширенного мышления выставляются как выходные токены только один раз, во время их генерации.
    • Расчет эффективного контекстного окна становится: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Токены мышления включают блоки thinking.

Эта архитектура эффективна по токенам и позволяет проводить обширные рассуждения без потерь токенов, так как блоки мышления могут быть значительной длины.

Вы можете прочитать больше о контекстном окне и расширенном мышлении в руководстве по расширенному мышлению.

Контекстное окно с расширенным мышлением и использованием инструментов

Диаграмма ниже иллюстрирует управление токенами контекстного окна при объединении расширенного мышления с использованием инструментов:

Диаграмма контекстного окна с расширенным мышлением и использованием инструментов

  1. 1

    Архитектура первого хода

    • Компоненты ввода: Конфигурация инструментов и сообщение пользователя
    • Компоненты вывода: Расширенное мышление + текстовый ответ + запрос использования инструмента
    • Расчет токенов: Все компоненты ввода и вывода учитываются в контекстном окне, и все компоненты вывода выставляются как выходные токены.
  2. 2

    Обработка результатов инструмента (ход 2)

    • Компоненты ввода: Каждый блок из первого хода, а также tool_result. Блок расширенного мышления должен быть возвращен с соответствующими результатами инструмента. Это единственный случай, когда вы должны вернуть блоки мышления.
    • Компоненты вывода: После того как результаты инструмента переданы обратно Claude, Claude ответит только текстом (без дополнительного расширенного мышления до следующего сообщения user).
    • Расчет токенов: Все компоненты ввода и вывода учитываются в контекстном окне, и все компоненты вывода выставляются как выходные токены.
  3. 3

    Третий шаг

    • Все входные данные и вывод из предыдущего хода переносятся с исключением блока мышления, который теперь можно удалить, так как Claude завершил весь цикл использования инструмента. API автоматически удалит блок мышления для вас, если вы его вернете, или вы можете удалить его самостоятельно на этом этапе. Это также место, где вы добавили бы следующий ход .
  • Соображения для использования инструментов с расширенным мышлением:
    • При отправке результатов инструмента весь неизмененный блок мышления, который сопровождает этот конкретный запрос инструмента (включая части подписи), должен быть включен.
    • Расчет эффективного контекстного окна для расширенного мышления с использованием инструментов становится: context_window = input_tokens + current_turn_tokens.
    • Система использует криптографические подписи для проверки подлинности блока мышления. Невозможность сохранить блоки мышления во время использования инструмента может нарушить непрерывность рассуждений Claude. Таким образом, если вы изменяете блоки мышления, API возвращает ошибку.

Модели Claude 4 поддерживают чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и проводить более сложные рассуждения после получения результатов инструментов.

Claude Sonnet 3.7 не поддерживает чередующееся мышление, поэтому нет чередования расширенного мышления и вызовов инструментов без хода пользователя, не являющегося tool_result, между ними.

Для получения дополнительной информации об использовании инструментов с расширенным мышлением см. руководство по расширенному мышлению.

Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 и Claude Sonnet 4.6 имеют контекстное окно в 1M токенов. Другие модели Claude, включая Claude Sonnet 4.5 и Sonnet 4 (устаревшая), имеют контекстное окно в 200k токенов.

Один запрос может включать до 600 изображений или страниц PDF (100 для моделей с контекстным окном в 200k токенов). При отправке большого количества изображений или больших документов вы можете приблизиться к пределам размера запроса раньше, чем к пределу токенов.

Осведомленность о контексте в Claude Sonnet 4.6, Sonnet 4.5 и Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5 и Claude Haiku 4.5 имеют осведомленность о контексте. Эта возможность позволяет этим моделям отслеживать оставшееся контекстное окно (т.е. "бюджет токенов") на протяжении диалога. Это позволяет Claude более эффективно выполнять задачи и управлять контекстом, понимая, сколько места у него есть для работы. Claude обучен использовать этот контекст точно, продолжая задачу до самого конца, а не угадывая, сколько токенов осталось. Для модели отсутствие осведомленности о контексте похоже на участие в кулинарном шоу без часов. Модели Claude 4.5+ меняют это, явно информируя модель об оставшемся контексте, чтобы она могла максимально использовать доступные токены.

Как это работает:

В начале диалога Claude получает информацию о своем общем контекстном окне:

<budget:token_budget>1000000</budget:token_budget>

Бюджет установлен на 1M токенов (200k для моделей с меньшим контекстным окном).

После каждого вызова инструмента Claude получает обновление об оставшейся емкости:

<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

Эта осведомленность помогает Claude определить, сколько емкости остается для работы, и позволяет более эффективно выполнять длительные задачи. Токены изображений включены в эти бюджеты.

Преимущества:

Осведомленность о контексте особенно ценна для:

  • Длительных сеансов агентов, требующих устойчивого внимания
  • Рабочих процессов с несколькими контекстными окнами, где переходы состояния имеют значение
  • Сложных задач, требующих тщательного управления токенами

Для агентов, охватывающих несколько сеансов, разработайте свои артефакты состояния так, чтобы восстановление контекста было быстрым при запуске нового сеанса. Многосеансовый паттерн инструмента памяти проходит через конкретный подход. См. также Эффективные оснастки для долгоживущих агентов.

Для рекомендаций по подсказкам по использованию осведомленности о контексте см. руководство по лучшим практикам подсказок.

Управление контекстом с помощью компрессии

Если ваши диалоги регулярно приближаются к пределам контекстного окна, компрессия на стороне сервера является рекомендуемым подходом. Компрессия обеспечивает суммирование на стороне сервера, которое автоматически сжимает более ранние части диалога, позволяя длительные диалоги за пределами контекстных окон с минимальной работой интеграции. В настоящее время она доступна в бета-версии для Claude Opus 4.7, Claude Opus 4.6 и Claude Sonnet 4.6.

Для более специализированных потребностей редактирование контекста предлагает дополнительные стратегии:

  • Очистка результатов инструментов - Очистка старых результатов инструментов в рабочих процессах агентов
  • Очистка блоков мышления - Управление блоками мышления с расширенным мышлением

Управление контекстным окном с более новыми моделями Claude

Более новые модели Claude (начиная с Claude Sonnet 3.7) возвращают ошибку валидации, когда токены подсказки и вывода превышают контекстное окно, вместо молчаливого усечения. Это изменение обеспечивает более предсказуемое поведение, но требует более тщательного управления токенами.

Используйте API подсчета токенов для оценки использования токенов перед отправкой сообщений Claude. Это помогает вам спланировать и остаться в пределах контекстного окна.

См. таблицу сравнения моделей для списка размеров контекстного окна по моделям.

Следующие шаги

Компрессия

Рекомендуемая стратегия управления контекстом в длительных диалогах.

Редактирование контекста

Детальные стратегии, такие как очистка результатов инструментов и очистка блоков мышления.

Таблица сравнения моделей

См. таблицу сравнения моделей для списка размеров контекстного окна и цен входных/выходных токенов по моделям.

Компоненты ввода:
User
  • Компоненты вывода: Поскольку есть новый ход User вне цикла использования инструмента, Claude генерирует новый блок расширенного мышления и продолжает оттуда.
  • Расчет токенов: Токены предыдущего мышления автоматически удаляются из расчетов контекстного окна. Все остальные предыдущие блоки по-прежнему учитываются как часть окна токенов, и блок мышления в текущем ходе Assistant учитывается как часть контекстного окна.
  • Обзор расширенного мышления

    Узнайте больше о том, как работает расширенное мышление и как его реализовать вместе с другими функциями, такими как использование инструментов и кэширование подсказок.