Создание с расширенным мышлением

Расширенное мышление дает Claude улучшенные возможности рассуждения для сложных задач, обеспечивая различные уровни прозрачности его пошагового процесса мышления перед предоставлением окончательного ответа.

Для Claude Opus 4.6 мы рекомендуем использовать адаптивное мышление (thinking: {type: "adaptive"}) с параметром усилия вместо режима ручного мышления, описанного на этой странице. Конфигурация ручного thinking: {type: "enabled", budget_tokens: N} устарела на Opus 4.6 и будет удалена в будущем выпуске модели.

Поддерживаемые модели

Расширенное мышление поддерживается в следующих моделях:

Claude Opus 4.6 (claude-opus-4-6) — адаптивное мышление только; ручной режим (type: "enabled") устарел
Claude Opus 4.5 (claude-opus-4-5-20251101)
Claude Opus 4.1 (claude-opus-4-1-20250805)
Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4.6 (claude-sonnet-4-6) — поддерживает как ручное расширенное мышление с чередующимся режимом, так и адаптивное мышление
Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (устарела)
Claude Haiku 4.5 (claude-haiku-4-5-20251001)

Поведение API различается между моделями Claude Sonnet 3.7 и Claude 4, но формы API остаются точно такими же.

Для получения дополнительной информации см. Различия в мышлении между версиями моделей.

Как работает расширенное мышление

Когда расширенное мышление включено, Claude создает блоки содержимого thinking, где выводит свои внутренние рассуждения. Claude использует идеи из этих рассуждений перед созданием окончательного ответа.

Ответ API будет включать блоки содержимого thinking, за которыми следуют блоки содержимого text.

Вот пример формата ответа по умолчанию:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Для получения дополнительной информации о формате ответа расширенного мышления см. Справочник API Messages.

Как использовать расширенное мышление

Вот пример использования расширенного мышления в Messages API:

Чтобы включить расширенное мышление, добавьте объект thinking с параметром type, установленным на enabled, и budget_tokens на указанный бюджет токенов для расширенного мышления. Для Claude Opus 4.6 мы рекомендуем использовать type: "adaptive" — см. Адаптивное мышление для получения подробной информации. Хотя type: "enabled" с budget_tokens по-прежнему поддерживается на Opus 4.6, это устарело и будет удалено в будущем выпуске.

Параметр budget_tokens определяет максимальное количество токенов, которые Claude может использовать для своего внутреннего процесса рассуждения. В Claude 4 и более поздних моделях это ограничение применяется к полным токенам мышления, а не к суммированному выводу. Большие бюджеты могут улучшить качество ответа, обеспечивая более тщательный анализ сложных проблем, хотя Claude может не использовать весь выделенный бюджет, особенно в диапазонах выше 32k.

budget_tokens устарел на Claude Opus 4.6 и будет удален в будущем выпуске модели. Мы рекомендуем использовать адаптивное мышление с параметром усилия для управления глубиной мышления.

Claude Opus 4.6 поддерживает до 128K выходных токенов. Более ранние модели поддерживают до 64K выходных токенов.

budget_tokens должен быть установлен на значение меньше, чем max_tokens. Однако при использовании чередующегося мышления с инструментами вы можете превысить это ограничение, так как лимит токенов становится вашим всем контекстным окном (200k токенов).

Суммированное мышление

With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse.

Here are some important considerations for summarized thinking:

You're charged for the full thinking tokens generated by the original request, not the summary tokens.
The billed output token count will not match the count of tokens you see in the response.
The first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes.
As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience and easy migration from Claude Sonnet 3.7 to Claude 4 and later models.
Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

Claude Sonnet 3.7 continues to return full thinking output.

In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

Потоковое мышление

Вы можете передавать ответы расширенного мышления потоком, используя события, отправляемые сервером (SSE).

Когда потоковая передача включена для расширенного мышления, вы получаете содержимое мышления через события thinking_delta.

Для получения дополнительной документации по потоковой передаче через Messages API см. Потоковые сообщения.

Вот как обрабатывать потоковую передачу с мышлением:

Try in Console

Пример вывода потоковой передачи:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-6", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}

// Additional thinking deltas...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}

// Additional text deltas...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

При использовании потоковой передачи с включенным мышлением вы можете заметить, что текст иногда поступает большими порциями, чередуясь с меньшей доставкой токен за токеном. Это ожидаемое поведение, особенно для содержимого мышления.

Система потоковой передачи должна обрабатывать содержимое партиями для оптимальной производительности, что может привести к этому «прерывистому» паттерну доставки с возможными задержками между событиями потоковой передачи. Мы постоянно работаем над улучшением этого опыта, с будущими обновлениями, сосредоточенными на более плавной потоковой передаче содержимого мышления.

Расширенное мышление с использованием инструментов

Расширенное мышление можно использовать наряду с использованием инструментов, позволяя Claude рассуждать о выборе инструментов и обработке результатов.

При использовании расширенного мышления с использованием инструментов помните о следующих ограничениях:

Ограничение выбора инструмента: Использование инструментов с мышлением поддерживает только tool_choice: {"type": "auto"} (по умолчанию) или tool_choice: {"type": "none"}. Использование tool_choice: {"type": "any"} или tool_choice: {"type": "tool", "name": "..."} приведет к ошибке, потому что эти параметры принудительно используют инструменты, что несовместимо с расширенным мышлением.
Сохранение блоков мышления: Во время использования инструментов вы должны передать блоки thinking обратно в API для последнего сообщения помощника. Включите полный немодифицированный блок обратно в API для сохранения непрерывности рассуждений.

Переключение режимов мышления в разговорах

Вы не можете переключать мышление в середине хода помощника, включая циклы использования инструментов. Весь ход помощника должен работать в одном режиме мышления:

Если мышление включено, финальный ход помощника должен начинаться с блока мышления.
Если мышление отключено, финальный ход помощника не должен содержать никаких блоков мышления

С точки зрения модели, циклы использования инструментов являются частью хода помощника. Ход помощника не завершается, пока Claude не завершит свой полный ответ, который может включать несколько вызовов инструментов и результатов.

Например, эта последовательность является частью одного хода помощника:

User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]

Несмотря на то, что есть несколько сообщений API, цикл использования инструментов концептуально является частью одного непрерывного ответа помощника.

Плавная деградация мышления

Когда возникает конфликт мышления в середине хода (например, переключение мышления включено или выключено во время цикла использования инструментов), API автоматически отключает мышление для этого запроса. Чтобы сохранить качество модели и оставаться в распределении, API может:

Удалить блоки мышления из разговора, когда они создали бы недействительную структуру хода
Отключить мышление для текущего запроса, когда история разговора несовместима с включенным мышлением

Это означает, что попытка переключить мышление в середине хода не вызовет ошибку, но мышление будет молча отключено для этого запроса. Чтобы подтвердить, было ли мышление активным, проверьте наличие блоков thinking в ответе.

Практическое руководство

Лучшая практика: Спланируйте свою стратегию мышления в начале каждого хода, а не пытайтесь переключаться в середине хода.

Пример: Переключение мышления после завершения хода

User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

Завершив ход помощника перед переключением мышления, вы гарантируете, что мышление действительно включено для нового запроса.

Переключение режимов мышления также делает недействительным кэширование подсказок для истории сообщений. Для получения дополнительной информации см. раздел Расширенное мышление с кэшированием подсказок.

Сохранение блоков мышления

Во время использования инструментов вы должны передать блоки thinking обратно в API, и вы должны включить полный немодифицированный блок обратно в API. Это критично для сохранения потока рассуждений модели и целостности разговора.

Хотя вы можете опустить блоки thinking из предыдущих ходов assistant, мы предлагаем всегда передавать обратно все блоки мышления в API для любого многоходового разговора. API будет:

Автоматически фильтровать предоставленные блоки мышления
Использовать соответствующие блоки мышления, необходимые для сохранения рассуждений модели
Выставлять счет только за входные токены для блоков, показанных Claude

При переключении режимов мышления во время разговора помните, что весь ход помощника (включая циклы использования инструментов) должен работать в одном режиме мышления. Для получения дополнительной информации см. Переключение режимов мышления в разговорах.

Когда Claude вызывает инструменты, он приостанавливает построение ответа, чтобы ожидать внешней информации. Когда возвращаются результаты инструментов, Claude продолжит строить этот существующий ответ. Это требует сохранения блоков мышления во время использования инструментов по нескольким причинам:

Непрерывность рассуждений: Блоки мышления фиксируют пошаговые рассуждения Claude, которые привели к запросам инструментов. Когда вы публикуете результаты инструментов, включение исходного мышления гарантирует, что Claude может продолжить свои рассуждения с того места, где он остановился.
Сохранение контекста: Хотя результаты инструментов отображаются как пользовательские сообщения в структуре API, они являются частью непрерывного потока рассуждений. Сохранение блоков мышления сохраняет этот концептуальный поток через несколько вызовов API. Для получения дополнительной информации об управлении контекстом см. наше руководство по контекстным окнам.

Важно: При предоставлении блоков thinking вся последовательность последовательных блоков thinking должна соответствовать выводам, созданным моделью во время исходного запроса; вы не можете переставлять или изменять последовательность этих блоков.

Чередующееся мышление

Расширенное мышление с использованием инструментов в моделях Claude 4 поддерживает чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и делать более сложные рассуждения после получения результатов инструментов.

С чередующимся мышлением Claude может:

Рассуждать о результатах вызова инструмента перед тем, как решить, что делать дальше
Связывать несколько вызовов инструментов с шагами рассуждения между ними
Принимать более тонкие решения на основе промежуточных результатов

Поддержка модели:

Claude Opus 4.6: Чередующееся мышление автоматически включается при использовании адаптивного мышления — заголовок бета не требуется. Заголовок бета interleaved-thinking-2025-05-14 устарел на Opus 4.6 и безопасно игнорируется, если включен.
Claude Sonnet 4.6: Поддерживает заголовок бета interleaved-thinking-2025-05-14 с ручным расширенным мышлением (thinking: {type: "enabled"}). Вы также можете использовать адаптивное мышление, которое автоматически включает чередующееся мышление.
Другие модели Claude 4 (Opus 4.5, Opus 4.1, Opus 4, Sonnet 4.5, Sonnet 4): Добавьте заголовок бета interleaved-thinking-2025-05-14 в ваш запрос API для включения чередующегося мышления.

Вот некоторые важные соображения для чередующегося мышления:

С чередующимся мышлением budget_tokens может превышать параметр max_tokens, так как он представляет общий бюджет для всех блоков мышления в одном ходе помощника.
Чередующееся мышление поддерживается только для инструментов, используемых через Messages API.
Прямые вызовы Claude API позволяют вам передавать interleaved-thinking-2025-05-14 в запросах к любой модели без эффекта (кроме Opus 4.6, где это устарело и безопасно игнорируется).
На платформах третьих сторон (например, Amazon Bedrock и Vertex AI), если вы передаете interleaved-thinking-2025-05-14 к любой модели, кроме Claude Sonnet 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, Sonnet 4.5 или Sonnet 4, ваш запрос не будет выполнен.

Расширенное мышление с кэшированием подсказок

Кэширование подсказок с мышлением имеет несколько важных соображений:

Задачи расширенного мышления часто занимают более 5 минут. Рассмотрите использование длительности кэша в 1 час для сохранения попаданий кэша в течение более длительных сеансов мышления и многошаговых рабочих процессов.

Удаление контекста блока мышления

Блоки мышления из предыдущих ходов удаляются из контекста, что может повлиять на точки разрыва кэша
При продолжении разговоров с использованием инструментов блоки мышления кэшируются и считаются входными токенами при чтении из кэша
Это создает компромисс: хотя блоки мышления не потребляют пространство контекстного окна визуально, они все еще считаются в вашем использовании входных токенов при кэшировании
Если мышление становится отключенным и вы передаете содержимое мышления в текущем ходе использования инструментов, содержимое мышления будет удалено и мышление останется отключенным для этого запроса

Паттерны инвалидации кэша

Изменения параметров мышления (включено/отключено или распределение бюджета) делают недействительными точки разрыва кэша сообщений
Чередующееся мышление усиливает инвалидацию кэша, так как блоки мышления могут возникать между несколькими вызовами инструментов
Системные подсказки и инструменты остаются кэшированными несмотря на изменения параметров мышления или удаление блоков

Хотя блоки мышления удаляются для кэширования и расчетов контекста, они должны быть сохранены при продолжении разговоров с использованием инструментов, особенно с чередующимся мышлением.

Понимание поведения кеширования блоков мышления

При использовании расширенного мышления с использованием инструментов блоки мышления демонстрируют специфическое поведение кеширования, которое влияет на подсчет токенов:

Как это работает:

Кеширование происходит только при выполнении последующего запроса, который включает результаты инструментов
Когда выполняется последующий запрос, предыдущая история разговора (включая блоки мышления) может быть закеширована
Эти закешированные блоки мышления считаются входными токенами в ваших метриках использования при чтении из кеша
Когда включен блок пользователя, не являющийся результатом инструмента, все предыдущие блоки мышления игнорируются и удаляются из контекста

Подробный пример потока:

Запрос 1:

User: "What's the weather in Paris?"

Ответ 1:

[thinking_block_1] + [tool_use block 1]

Запрос 2:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]

Ответ 2:

[thinking_block_2] + [text block 2]

Запрос 2 записывает кеш содержимого запроса (не ответа). Кеш включает исходное сообщение пользователя, первый блок мышления, блок использования инструмента и результат инструмента.

Запрос 3:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]

Для Claude Opus 4.5 и более поздних версий (включая Claude Opus 4.6) все предыдущие блоки мышления сохраняются по умолчанию. Для более старых моделей, поскольку был включен блок пользователя, не являющийся результатом инструмента, все предыдущие блоки мышления игнорируются. Этот запрос будет обработан так же, как:

User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]

Ключевые моменты:

Это поведение кеширования происходит автоматически, даже без явных маркеров cache_control
Это поведение согласуется при использовании как обычного мышления, так и чередующегося мышления

Максимальное количество токенов и размер контекстного окна с расширенным мышлением

В более старых моделях Claude (до Claude Sonnet 3.7), если сумма токенов приглашения и max_tokens превышала контекстное окно модели, система автоматически корректировала max_tokens для соответствия лимиту контекста. Это означало, что вы могли установить большое значение max_tokens, и система молча уменьшала бы его по мере необходимости.

С моделями Claude 3.7 и 4, max_tokens (который включает ваш бюджет мышления при включенном мышлении) применяется как строгий лимит. Система теперь вернет ошибку валидации, если токены приглашения + max_tokens превышает размер контекстного окна.

Вы можете прочитать наше руководство по контекстным окнам для более глубокого погружения.

Контекстное окно с расширенным мышлением

При расчете использования контекстного окна с включенным мышлением необходимо учитывать некоторые моменты:

Блоки мышления из предыдущих ходов удаляются и не учитываются в вашем контекстном окне
Мышление текущего хода учитывается в вашем лимите max_tokens для этого хода

Диаграмма ниже демонстрирует специализированное управление токенами при включенном расширенном мышлении:

Диаграмма контекстного окна с расширенным мышлением

Эффективное контекстное окно рассчитывается как:

context window =
  (current input tokens - previous thinking tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Мы рекомендуем использовать API подсчета токенов для получения точного подсчета токенов для вашего конкретного случая использования, особенно при работе с многоходовыми разговорами, которые включают мышление.

Контекстное окно с расширенным мышлением и использованием инструментов

При использовании расширенного мышления с использованием инструментов блоки мышления должны быть явно сохранены и возвращены с результатами инструментов.

Расчет эффективного контекстного окна для расширенного мышления с использованием инструментов становится:

context window =
  (current input tokens + previous thinking tokens + tool use tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Диаграмма ниже иллюстрирует управление токенами для расширенного мышления с использованием инструментов:

Диаграмма контекстного окна с расширенным мышлением и использованием инструментов

Управление токенами с расширенным мышлением

Учитывая поведение контекстного окна и max_tokens с расширенным мышлением в моделях Claude 3.7 и 4, вам может потребоваться:

Более активно отслеживать и управлять использованием токенов
Корректировать значения max_tokens по мере изменения длины приглашения
Потенциально использовать конечные точки подсчета токенов более часто
Помнить, что предыдущие блоки мышления не накапливаются в вашем контекстном окне

Это изменение было сделано для обеспечения более предсказуемого и прозрачного поведения, особенно поскольку максимальные лимиты токенов значительно увеличились.

Шифрование мышления

Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns, or let the API strip them for you if you pass them back.

If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

Here are some important considerations on thinking encryption:

When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
signature values are significantly longer in Claude 4 models than in previous models.
The signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.
signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

Редакция мышления

Occasionally Claude's internal reasoning will be flagged by our safety systems. When this occurs, we encrypt some or all of the thinking block and return it to you as a redacted_thinking block. redacted_thinking blocks are decrypted when passed back to the API, allowing Claude to continue its response without losing context.

When building customer-facing applications that use extended thinking:

Be aware that redacted thinking blocks contain encrypted content that isn't human-readable
Consider providing a simple explanation like: "Some of Claude's internal reasoning has been automatically encrypted for safety reasons. This doesn't affect the quality of responses."
If showing thinking blocks to users, you can filter out redacted blocks while preserving normal thinking blocks
Be transparent that using extended thinking features may occasionally result in some reasoning being encrypted
Implement appropriate error handling to gracefully manage redacted thinking without breaking your UI

Here's an example showing both normal and redacted thinking blocks:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.

If you need to test redacted thinking handling in your application, you can use this special test string as your prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

When passing thinking and redacted_thinking blocks back to the API in a multi-turn conversation, you must include the complete unmodified block back to the API for the last assistant turn. This is critical for maintaining the model's reasoning flow. We suggest always passing back all thinking blocks to the API. For more details, see the Preserving thinking blocks section.

Различия в мышлении между версиями моделей

Messages API обрабатывает мышление по-разному в моделях Claude Sonnet 3.7 и Claude 4, в основном в поведении редакции и суммирования.

Смотрите таблицу ниже для сокращенного сравнения:

Функция	Claude Sonnet 3.7	Claude 4 Models (pre-Opus 4.5)	Claude Opus 4.5	Claude Sonnet 4.6	Claude Opus 4.6 (адаптивное мышление)
Вывод мышления	Возвращает полный вывод мышления	Возвращает суммированное мышление	Возвращает суммированное мышление	Возвращает суммированное мышление	Возвращает суммированное мышление
Чередующееся мышление	Не поддерживается	Поддерживается с заголовком бета `interleaved-thinking-2025-05-14`	Поддерживается с заголовком бета `interleaved-thinking-2025-05-14`	Поддерживается с заголовком бета `interleaved-thinking-2025-05-14` или автоматически с адаптивным мышлением	Автоматически с адаптивным мышлением (заголовок бета не поддерживается)

Сохранение блока мышления в Claude Opus 4.5 и более поздних версиях

Начиная с Claude Opus 4.5 (и продолжая в Claude Opus 4.6), блоки мышления из предыдущих ходов ассистента сохраняются в контексте модели по умолчанию. Это отличается от более ранних моделей, которые удаляют блоки мышления из предыдущих ходов.

Преимущества сохранения блока мышления:

Оптимизация кеша: При использовании инструментов сохраненные блоки мышления позволяют попаданиям в кеш, так как они передаются обратно с результатами инструментов и кешируются постепенно на протяжении хода ассистента, что приводит к экономии токенов в многошаговых рабочих процессах
Без влияния на интеллект: Сохранение блоков мышления не оказывает негативного влияния на производительность модели

Важные соображения:

Использование контекста: Длинные разговоры будут потреблять больше пространства контекста, поскольку блоки мышления сохраняются в контексте
Автоматическое поведение: Это поведение по умолчанию для моделей Claude Opus 4.5 и более поздних версий (включая Opus 4.6) — не требуются изменения кода или заголовки бета
Обратная совместимость: Чтобы использовать эту функцию, продолжайте передавать полные, неизмененные блоки мышления обратно в API, как вы делали бы для использования инструментов

Для более ранних моделей (Claude Sonnet 4.5, Opus 4.1 и т. д.) блоки мышления из предыдущих ходов продолжают удаляться из контекста. Существующее поведение, описанное в разделе Расширенное мышление с кешированием приглашений, применяется к этим моделям.

Цены

For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

The thinking process incurs charges for:

Tokens used during thinking (output tokens)
Thinking blocks from the last assistant turn included in subsequent requests (input tokens)
Standard text output tokens

When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

When using summarized thinking:

Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
Output tokens (billed): The original thinking tokens that Claude generated internally
Output tokens (visible): The summarized thinking tokens you see in the response
No charge: Tokens used to generate the summary

The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.

Лучшие практики и соображения для расширенного мышления

Работа с бюджетами мышления

Оптимизация бюджета: Минимальный бюджет составляет 1024 токена. Мы предлагаем начать с минимума и постепенно увеличивать бюджет мышления, чтобы найти оптимальный диапазон для вашего случая использования. Более высокие количества токенов позволяют более комплексное рассуждение, но с убывающей отдачей в зависимости от задачи. Увеличение бюджета может улучшить качество ответа за счет увеличения задержки. Для критических задач протестируйте различные настройки, чтобы найти оптимальный баланс. Обратите внимание, что бюджет мышления является целевым, а не строгим лимитом — фактическое использование токенов может варьироваться в зависимости от задачи.
Начальные точки: Начните с больших бюджетов мышления (16k+ токенов) для сложных задач и корректируйте в зависимости от ваших потребностей.
Большие бюджеты: Для бюджетов мышления выше 32k мы рекомендуем использовать пакетную обработку для избежания проблем с сетью. Запросы, которые заставляют модель думать выше 32k токенов, вызывают долгоживущие запросы, которые могут столкнуться с тайм-аутами системы и лимитами открытых соединений.
Отслеживание использования токенов: Отслеживайте использование токенов мышления для оптимизации затрат и производительности.

Соображения производительности

Время ответа: Будьте готовы к потенциально более длительному времени ответа из-за дополнительной обработки, необходимой для процесса рассуждения. Учитывайте, что генерация блоков мышления может увеличить общее время ответа.
Требования потоковой передачи: SDK требуют потоковую передачу, когда max_tokens больше 21333, чтобы избежать тайм-аутов HTTP на долгоживущих запросах. Это валидация на стороне клиента, а не ограничение API. Если вам не нужно обрабатывать события постепенно, используйте .stream() с .get_final_message() (Python) или .finalMessage() (TypeScript) для получения полного объекта Message без обработки отдельных событий — смотрите Потоковые сообщения для деталей. При потоковой передаче будьте готовы обрабатывать как блоки мышления, так и текстовые блоки по мере их поступления.

Совместимость функций

Мышление несовместимо с модификациями temperature или top_k, а также с принудительным использованием инструментов.
Когда мышление включено, вы можете установить top_p на значения между 1 и 0.95.
Вы не можете предварительно заполнить ответы, когда мышление включено.
Изменения в бюджете мышления инвалидируют закешированные префиксы приглашений, которые включают сообщения. Однако закешированные системные приглашения и определения инструментов продолжат работать при изменении параметров мышления.

Следующие шаги

Попробуйте кулинарную книгу расширенного мышления

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
        }
    ]
}'

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?"
        }
    ]
}'

Поддерживаемые модели

Как работает расширенное мышление

Как использовать расширенное мышление

Суммированное мышление

Потоковое мышление

Расширенное мышление с использованием инструментов

Переключение режимов мышления в разговорах

Плавная деградация мышления

Практическое руководство

Пример: Передача блоков мышления с результатами инструментов

Сохранение блоков мышления

Чередующееся мышление

Использование инструментов без чередующегося мышления

Использование инструментов с чередующимся мышлением

Расширенное мышление с кэшированием подсказок

Понимание поведения кеширования блоков мышления

Кеширование системного приглашения (сохраняется при изменении мышления)

Максимальное количество токенов и размер контекстного окна с расширенным мышлением

Контекстное окно с расширенным мышлением

Контекстное окно с расширенным мышлением и использованием инструментов

Управление токенами с расширенным мышлением

Шифрование мышления

Редакция мышления

Пример: Работа с отредактированными блоками мышления

Различия в мышлении между версиями моделей

Сохранение блока мышления в Claude Opus 4.5 и более поздних версиях

Цены

Лучшие практики и соображения для расширенного мышления

Работа с бюджетами мышления

Соображения производительности

Совместимость функций

Рекомендации по использованию

Следующие шаги

Кеширование сообщений (инвалидируется при изменении мышления)