This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Расширенное мышление дает Claude улучшенные возможности рассуждения для сложных задач, обеспечивая различные уровни прозрачности его пошагового процесса мышления перед выдачей окончательного ответа.
Для Claude Opus 4.7 и более поздних моделей используйте адаптивное мышление (thinking: {type: "adaptive"}) с параметром усилия. Ручное расширенное мышление (thinking: {type: "enabled", budget_tokens: N}) больше не поддерживается на Claude Opus 4.7 и более поздних моделях и возвращает ошибку 400. Для Claude Opus 4.6 и Claude Sonnet 4.6 адаптивное мышление также рекомендуется; ручная конфигурация по-прежнему функциональна на этих моделях, но устарела и будет удалена в будущем выпуске модели.
Ручное расширенное мышление (thinking: {type: "enabled", budget_tokens: N}) поддерживается на всех текущих моделях Claude кроме Claude Opus 4.7 и более поздних моделей, где оно больше не принимается и возвращает ошибку 400. Несколько моделей имеют поведение, зависящее от режима:
claude-opus-4-7) и более поздние модели: ручное расширенное мышление больше не поддерживается. Используйте адаптивное мышление (thinking: {type: "adaptive"}) с параметром усилия вместо этого.thinking: {type: "enabled", budget_tokens: N} также принимается. thinking: {type: "disabled"} не поддерживается, и display по умолчанию имеет значение "omitted" вместо возврата содержимого мышления. Передайте display: "summarized" для получения резюме.claude-opus-4-6): адаптивное мышление рекомендуется; ручной режим (type: "enabled") устарел, но по-прежнему функционален.claude-sonnet-4-6): адаптивное мышление рекомендуется; ручной режим (type: "enabled") с чередующимся режимом устарел, но по-прежнему функционален.Поведение API отличается на моделях Claude Sonnet 3.7 и Claude 4, но формы API остаются точно такими же.
Для получения дополнительной информации см. Различия в мышлении между версиями моделей.
Когда расширенное мышление включено, Claude создает блоки содержимого thinking, где выводит свои внутренние рассуждения. Claude включает идеи из этих рассуждений перед составлением окончательного ответа.
Ответ API включает блоки содержимого thinking, за которыми следуют блоки содержимого text.
Вот пример формата ответа по умолчанию:
{
"content": [
{
"type": "thinking",
"thinking": "Let me analyze this step by step...",
"signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
},
{
"type": "text",
"text": "Based on my analysis..."
}
]
}Для получения дополнительной информации о формате ответа расширенного мышления см. Справочник Messages API.
Вот пример использования расширенного мышления в Messages API:
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[
{
"role": "user",
"content": "Are there an infinite number of prime numbers such that n mod 4 == 3?",
}
],
)
# The response contains summarized thinking blocks and text blocks
for block in response.content:
if block.type == "thinking":
print(f"\nThinking summary: {block.thinking}")
elif block.type == "text":
print(f"\nResponse: {block.text}")Чтобы включить расширенное мышление, добавьте объект thinking с параметром type, установленным на enabled, и budget_tokens на указанный бюджет токенов для расширенного мышления. Для Claude Opus 4.6 и Claude Sonnet 4.6 используйте вместо этого type: "adaptive". Подробности см. в разделе Адаптивное мышление. Хотя type: "enabled" с budget_tokens по-прежнему функционален на этих моделях, он устарел и будет удален в будущем выпуске.
Параметр budget_tokens определяет максимальное количество токенов, которые Claude может использовать для своего внутреннего процесса рассуждения. В Claude 4 и более поздних моделях этот лимит применяется к полным токенам мышления, а не к суммированному выводу. Большие бюджеты могут улучшить качество ответа, обеспечивая более тщательный анализ сложных проблем, хотя Claude может не использовать весь выделенный бюджет, особенно в диапазонах выше 32k.
budget_tokens устарел на Claude Opus 4.6 и Claude Sonnet 4.6 и будет удален в будущем выпуске модели. Используйте адаптивное мышление с параметром усилия для управления глубиной мышления вместо этого.
Claude Mythos Preview, Claude Opus 4.7 и Claude Opus 4.6 поддерживают до 128k выходных токенов. Claude Sonnet 4.6 и Claude Haiku 4.5 поддерживают до 64k. Подробнее о лимитах для устаревших моделей см. в разделе обзор моделей. На Message Batches API бета-заголовок output-300k-2026-03-24 повышает лимит выходных данных до 300k для Opus 4.7, Opus 4.6 и Sonnet 4.6.
budget_tokens должен быть установлен на значение меньше max_tokens. Однако при использовании чередующегося мышления с инструментами вы можете превысить этот лимит, так как лимит токенов становится вашим всем контекстным окном.
With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse. This is the default behavior on Claude 4 models when the display field on the thinking configuration is unset or set to "summarized". On Claude Opus 4.7 and Claude Mythos Preview, display defaults to "omitted" instead, so you must set display: "summarized" explicitly to receive summarized thinking.
Here are some important considerations for summarized thinking:
In rare cases where you need access to full thinking output for Claude 4 models, contact Anthropic sales.
The display field on the thinking configuration controls how thinking content is returned in API responses. It accepts two values:
"summarized": Thinking blocks contain summarized thinking text. See Summarized thinking for details. This is the default on Claude Opus 4.6, Claude Sonnet 4.6, and earlier Claude 4 models."omitted": Thinking blocks are returned with an empty thinking field. The signature field still carries the encrypted full thinking for multi-turn continuity (see Thinking encryption). This is the default on Claude Opus 4.7 and Claude Mythos Preview.Setting display: "omitted" is useful when your application doesn't surface thinking content to users. The primary benefit is faster time-to-first-text-token when streaming: The server skips streaming thinking tokens entirely and delivers only the signature, so the final text response begins streaming sooner.
Here are some important considerations for omitted thinking:
signature to reconstruct the original thinking for prompt construction (see Preserving thinking blocks). Any text you place in the thinking field of a round-tripped omitted block is ignored.display is invalid with thinking.type: "disabled" (there is nothing to display).thinking.type: "adaptive" and the model skips thinking for a simple request, no thinking block is produced regardless of display.The signature field is identical whether display is "summarized" or "omitted". Switching display values between turns in a conversation is supported.
На Claude Mythos Preview display по умолчанию имеет значение "omitted". Примеры в этом разделе явно передают display, поэтому они применяются ко всем моделям, но на Mythos Preview вы можете оставить его неустановленным и получить то же поведение. Чтобы получить суммированное мышление на Mythos Preview, явно установите display: "summarized".
Автоматизированные конвейеры, которые никогда не выводят содержимое мышления конечным пользователям, могут пропустить накладные расходы на получение токенов мышления по сети. Приложения, чувствительные к задержкам, получают то же качество рассуждения без ожидания потоковой передачи текста мышления перед началом окончательного ответа.
Когда установлено display: "omitted", ответ содержит блоки thinking с пустым полем thinking:
{
"content": [
{
"type": "thinking",
"thinking": "",
"signature": "EosnCkYICxIMMb3LzNrMu..."
},
{
"type": "text",
"text": "The answer is 12,231."
}
]
}При потоковой передаче с display: "omitted" события thinking_delta не выпускаются; см. Потоковая передача мышления ниже для последовательности событий.
Вы можете передавать ответы с расширенным мышлением потоком, используя события, отправляемые сервером (SSE).
Когда потоковая передача включена для расширенного мышления, вы получаете содержимое мышления через события thinking_delta.
Когда установлено display: "omitted", события thinking_delta не отправляются. См. Управление отображением мышления.
Дополнительную документацию по потоковой передаче через API Messages см. в разделе Потоковая передача сообщений.
Вот как обрабатывать потоковую передачу с мышлением:
client = anthropic.Anthropic()
with client.messages.stream(
model="claude-sonnet-4-6",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[
{
"role": "user",
"content": "What is the greatest common divisor of 1071 and 462?",
}
],
) as stream:
thinking_started = False
response_started = False
for event in stream:
if event.type == "content_block_start":
print(f"\nStarting {event.content_block.type} block...")
# Reset flags for each new block
thinking_started = False
response_started = False
elif event.type == "content_block_delta":
if event.delta.type == "thinking_delta":
if not thinking_started:
print("Thinking: ", end="", flush=True)
thinking_started = True
print(event.delta.thinking, end="", flush=True)
elif event.delta.type == "text_delta":
if not response_started:
print("Response: ", end="", flush=True)
response_started = True
print(event.delta.text, end="", flush=True)
elif event.type == "content_block_stop":
print("\nBlock complete.")Пример вывода потоковой передачи:
event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-6", "stop_reason": null, "stop_sequence": null}}
event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": "", "signature": ""}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}
// Additional thinking deltas...
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
event: content_block_stop
data: {"type": "content_block_stop", "index": 0}
event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}
// Additional text deltas...
event: content_block_stop
data: {"type": "content_block_stop", "index": 1}
event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
event: message_stop
data: {"type": "message_stop"}Когда установлено display: "omitted", блок мышления открывается, приходит один signature_delta, и блок закрывается без каких-либо событий thinking_delta. Потоковая передача текста начинается сразу после:
event: content_block_start
data: {"type":"content_block_start","index":0,"content_block":{"type":"thinking","thinking":"","signature":""}}
event: content_block_delta
data: {"type":"content_block_delta","index":0,"delta":{"type":"signature_delta","signature":"EosnCkYICxIMMb3LzNrMu..."}}
event: content_block_stop
data: {"type":"content_block_stop","index":0}
event: content_block_start
data: {"type":"content_block_start","index":1,"content_block":{"type":"text","text":""}}При использовании потоковой передачи с включённым мышлением вы можете заметить, что текст иногда приходит более крупными фрагментами, чередуясь с более мелкой доставкой по одному токену за раз. Это ожидаемое поведение, особенно для содержимого мышления.
Система потоковой передачи должна обрабатывать содержимое партиями для оптимальной производительности, что может привести к этому «прерывистому» паттерну доставки с возможными задержками между событиями потоковой передачи. Anthropic постоянно работает над улучшением этого опыта, и будущие обновления сосредоточены на более плавной потоковой передаче содержимого мышления.
Расширенное мышление можно использовать вместе с использованием инструментов, позволяя Claude рассуждать о выборе инструментов и обработке результатов.
При использовании расширенного мышления с инструментами имейте в виду следующие ограничения:
Ограничение выбора инструмента: Использование инструментов с мышлением поддерживает только tool_choice: {"type": "auto"} (по умолчанию) или tool_choice: {"type": "none"}. Использование tool_choice: {"type": "any"} или tool_choice: {"type": "tool", "name": "..."} приведёт к ошибке, поскольку эти параметры принудительно используют инструменты, что несовместимо с расширенным мышлением.
Сохранение блоков мышления: При использовании инструментов вы должны передать блоки thinking обратно в API для последнего сообщения ассистента. Включите полный неизменённый блок обратно в API для сохранения непрерывности рассуждений.
Вы не можете переключать мышление в середине хода ассистента, включая во время циклов использования инструментов. Весь ход ассистента должен работать в одном режиме мышления:
С точки зрения модели, циклы использования инструментов являются частью хода ассистента. Ход ассистента не завершается до тех пор, пока Claude не завершит свой полный ответ, который может включать несколько вызовов инструментов и результатов.
Например, эта последовательность является частью одного хода ассистента:
User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]Несмотря на наличие нескольких сообщений API, цикл использования инструментов концептуально является частью одного непрерывного ответа ассистента.
Когда возникает конфликт мышления в середине хода (например, переключение мышления включено или выключено во время цикла использования инструментов), API автоматически отключает мышление для этого запроса. Чтобы сохранить качество модели и оставаться в распределении, API может:
Это означает, что попытка переключить мышление в середине хода не вызовет ошибку, но мышление будет молча отключено для этого запроса. Чтобы подтвердить, было ли мышление активным, проверьте наличие блоков thinking в ответе.
Лучшая практика: Планируйте свою стратегию мышления в начале каждого хода, а не пытайтесь переключаться в середине хода.
Пример: Переключение мышления после завершения хода
User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)Завершив ход ассистента перед переключением мышления, вы гарантируете, что мышление действительно включено для нового запроса.
Переключение режимов мышления также делает недействительным кэширование подсказок для истории сообщений. Для получения дополнительной информации см. раздел Расширенное мышление с кэшированием подсказок.
Во время использования инструментов вы должны передавать блоки thinking обратно в API, и вы должны включать полный неизмененный блок обратно в API. Это критически важно для сохранения потока рассуждений модели и целостности разговора.
Хотя вы можете опускать блоки thinking из предыдущих ходов роли assistant, всегда передавайте все блоки мышления в API для любого многоходового разговора. API:
При переключении режимов мышления во время разговора помните, что весь ход ассистента (включая циклы использования инструментов) должен работать в одном режиме мышления. Для получения дополнительной информации см. Переключение режимов мышления в разговорах.
Когда Claude вызывает инструменты, он приостанавливает построение ответа, чтобы ожидать внешней информации. Когда возвращаются результаты инструментов, Claude продолжает строить этот существующий ответ. Это требует сохранения блоков мышления во время использования инструментов по нескольким причинам:
Непрерывность рассуждений: Блоки мышления фиксируют пошаговые рассуждения Claude, которые привели к запросам инструментов. Когда вы публикуете результаты инструментов, включение исходного мышления гарантирует, что Claude может продолжить свои рассуждения с того момента, где он остановился.
Сохранение контекста: Хотя результаты инструментов отображаются как пользовательские сообщения в структуре API, они являются частью непрерывного потока рассуждений. Сохранение блоков мышления сохраняет этот концептуальный поток через несколько вызовов API. Для получения дополнительной информации об управлении контекстом см. руководство по контекстным окнам.
Важно: При предоставлении блоков thinking вся последовательность последовательных блоков thinking должна соответствовать выходам, созданным моделью во время исходного запроса; вы не можете переставлять или изменять последовательность этих блоков.
Расширенное мышление с использованием инструментов в моделях Claude 4 поддерживает чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и делать более сложные рассуждения после получения результатов инструментов.
С чередующимся мышлением Claude может:
Поддержка модели:
interleaved-thinking-2025-05-14 устарел на Opus 4.6 и безопасно игнорируется, если включен.interleaved-thinking-2025-05-14 с ручным расширенным мышлением (thinking: {type: "enabled"}) все еще функционален, но устарел.interleaved-thinking-2025-05-14 в ваш запрос API, чтобы включить чередующееся мышление.Вот некоторые важные соображения для чередующегося мышления:
budget_tokens может превышать параметр max_tokens, так как он представляет общий бюджет для всех блоков мышления в одном ходе ассистента.interleaved-thinking-2025-05-14 в запросах к любой модели без эффекта (кроме Opus 4.7 и Opus 4.6, где это устарело и безопасно игнорируется).interleaved-thinking-2025-05-14 к любой модели, кроме Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4 (устарело), Sonnet 4.5 или Sonnet 4 (устарело), ваш запрос не будет выполнен.Кеширование подсказок с мышлением имеет несколько важных соображений:
Задачи расширенного мышления часто занимают более 5 минут для завершения. Рассмотрите возможность использования длительности кеша в 1 час для сохранения попаданий в кеш во время длительных сеансов мышления и многошаговых рабочих процессов.
Удаление контекста блока мышления
Шаблоны инвалидации кеша
Хотя блоки мышления удаляются для кеширования и расчетов контекста, они должны быть сохранены при продолжении разговоров с использованием инструментов, особенно с чередующимся мышлением.
При использовании расширенного мышления с использованием инструментов блоки мышления демонстрируют специфическое поведение кэширования, которое влияет на подсчёт токенов:
Как это работает:
Подробный пример потока:
Запрос 1:
User: "What's the weather in Paris?"Ответ 1:
[thinking_block_1] + [tool_use block 1]Запрос 2:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]Ответ 2:
[thinking_block_2] + [text block 2]Запрос 2 записывает кэш содержимого запроса (не ответа). Кэш включает исходное сообщение пользователя, первый блок мышления, блок использования инструмента и результат инструмента.
Запрос 3:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]Для Claude Opus 4.5 и более поздних версий (включая Claude Opus 4.6) все предыдущие блоки мышления сохраняются по умолчанию. Для более старых моделей, поскольку был включен блок пользователя, не являющийся результатом инструмента, все предыдущие блоки мышления игнорируются. Этот запрос будет обработан так же, как:
User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]Ключевые моменты:
cache_controlВ более старых моделях Claude (до Claude Sonnet 3.7), если сумма токенов подсказки и max_tokens превышала контекстное окно модели, система автоматически корректировала max_tokens для соответствия лимиту контекста. Это означало, что вы могли установить большое значение max_tokens, и система молча уменьшала бы его по мере необходимости.
С моделями Claude 3.7 и 4, max_tokens (который включает ваш бюджет мышления, когда мышление включено) применяется как строгий лимит. Система теперь вернёт ошибку валидации, если токены подсказки + max_tokens превышает размер контекстного окна.
Вы можете прочитать руководство по контекстным окнам для более глубокого погружения.
При расчёте использования контекстного окна с включённым мышлением необходимо учитывать некоторые моменты:
max_tokens для этого ходаДиаграмма ниже демонстрирует специализированное управление токенами при включённом расширенном мышлении:
Эффективное контекстное окно рассчитывается как:
context window =
(current input tokens - previous thinking tokens) +
(thinking tokens + encrypted thinking tokens + text output tokens)Используйте API подсчёта токенов для получения точных подсчётов токенов для вашего конкретного случая использования, особенно при работе с многоходовыми разговорами, которые включают мышление.
При использовании расширенного мышления с использованием инструментов блоки мышления должны быть явно сохранены и возвращены с результатами инструментов.
Расчёт эффективного контекстного окна для расширенного мышления с использованием инструментов становится:
context window =
(current input tokens + previous thinking tokens + tool use tokens) +
(thinking tokens + encrypted thinking tokens + text output tokens)Диаграмма ниже иллюстрирует управление токенами для расширенного мышления с использованием инструментов:
Учитывая поведение контекстного окна и max_tokens с расширенным мышлением в моделях Claude 3.7 и 4, вам может потребоваться:
max_tokens по мере изменения длины подсказкиЭто изменение было сделано для обеспечения более предсказуемого и прозрачного поведения, особенно поскольку максимальные лимиты токенов значительно увеличились.
Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.
It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns. If you pass them back, whether the API keeps or strips them depends on the model: Opus 4.5+ and Sonnet 4.6+ keep them in context by default; earlier Opus/Sonnet models and all Haiku models strip them. See context editing to configure this.
If sending back thinking blocks, pass everything back as you received it for consistency and to avoid potential issues.
Here are some important considerations on thinking encryption:
signature_delta inside a content_block_delta event just before the content_block_stop event.signature values are significantly longer in Claude 4 models than in previous models.signature field is an opaque field and should not be interpreted or parsed.signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.В дополнение к обычным блокам thinking, API может возвращать блоки redacted_thinking. Блок redacted_thinking содержит зашифрованное содержимое мышления в поле data без читаемого резюме:
{
"type": "redacted_thinking",
"data": "..."
}Поле data непрозрачно и зашифровано. Как и поле signature в обычных блоках мышления, вы должны передавать блоки redacted_thinking обратно в API без изменений при продолжении многоходового разговора с инструментами.
Если ваш код фильтрует блоки содержимого по типу (например, block.type == "thinking") при передаче ответов с использованием инструментов, также включайте блоки redacted_thinking. Фильтрация только по block.type == "thinking" молча отбрасывает блоки redacted_thinking и нарушает многоходовый протокол, описанный выше.
Блоки redacted_thinking — это отдельный тип блока содержимого, возвращаемый API, когда части мышления удаляются по соображениям безопасности. Это отличается от опции display: "omitted", которая возвращает обычные блоки thinking с пустым полем thinking.
Messages API обрабатывает мышление по-разному в моделях Claude Sonnet 3.7 и Claude 4, в основном в поведении суммаризации.
См. таблицу ниже для сокращённого сравнения:
| Функция | Claude Sonnet 3.7 | Claude 4 Models (pre-Opus 4.5) | Claude Opus 4.5 | Claude Sonnet 4.6 | Claude Opus 4.6 (адаптивное мышление) | Claude Mythos Preview (адаптивное мышление) |
|---|---|---|---|---|---|---|
| Вывод мышления | Возвращает полный вывод мышления | Возвращает суммаризированное мышление | Возвращает суммаризированное мышление | Возвращает суммаризированное мышление | Возвращает суммаризированное мышление | Опущено по умолчанию; установите display: "summarized" для получения суммаризированного мышления. Необработанные токены мышления никогда не возвращаются. |
| Чередующееся мышление | Не поддерживается | Поддерживается с заголовком бета interleaved-thinking-2025-05-14 | Поддерживается с заголовком бета interleaved-thinking-2025-05-14 | Поддерживается с заголовком бета interleaved-thinking-2025-05-14 или автоматически с адаптивным мышлением | Автоматически с адаптивным мышлением (заголовок бета не поддерживается) | Автоматически с адаптивным мышлением (заголовок бета не поддерживается). Межинструментальное рассуждение переходит в блоки мышления на этой модели. |
| Сохранение блока мышления | Не сохраняется между ходами | Не сохраняется между ходами | Сохраняется по умолчанию | Сохраняется по умолчанию | Сохраняется по умолчанию | Сохраняется по умолчанию. Блоки удаляются при продолжении разговора на модели, которая не поддерживает формат мышления Mythos. |
Начиная с Claude Opus 4.5 (и продолжая в Claude Opus 4.6), блоки мышления из предыдущих ходов ассистента сохраняются в контексте модели по умолчанию. Это отличается от более ранних моделей, которые удаляют блоки мышления из предыдущих ходов.
Преимущества сохранения блока мышления:
Важные соображения:
Для более ранних моделей (Claude Sonnet 4.5, Opus 4.1 и т. д.) блоки мышления из предыдущих ходов продолжают удаляться из контекста. Существующее поведение, описанное в разделе Расширенное мышление с кэшированием подсказок, применяется к этим моделям.
For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.
The thinking process incurs charges for:
When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.
When using summarized thinking:
When using display: "omitted":
thinking field is empty)The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the thinking content visible in the response.
max_tokens больше 21333, чтобы избежать тайм-аутов HTTP при долгоживущих запросах. Это проверка на стороне клиента, а не ограничение API. Если вам не нужно обрабатывать события постепенно, используйте .stream() с .get_final_message() (Python) или .finalMessage() (TypeScript) для получения полного объекта Message без обработки отдельных событий. См. Потоковая передача сообщений для деталей. При потоковой передаче будьте готовы обрабатывать как блоки мышления, так и текстовые блоки содержимого по мере их поступления.display: "omitted" в конфигурации мышления, чтобы сократить время до первого текстового токена. См. Управление отображением мышления.temperature или top_k, а также с принудительным использованием инструментов.top_p на значения между 1 и 0.95.Изучите практические примеры мышления в кулинарной книге.
Изучите лучшие практики инженерии подсказок для расширенного мышления.
Was this page helpful?