This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Pensamento adaptativo é a forma recomendada de usar pensamento estendido com Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6, e é o modo padrão em Claude Mythos Preview (onde se aplica automaticamente sempre que thinking não está definido). Em vez de definir manualmente um orçamento de token de pensamento, pensamento adaptativo permite que Claude determine dinamicamente quando e quanto usar pensamento estendido com base na complexidade de cada solicitação. No Claude Opus 4.7, pensamento adaptativo é o único modo de pensamento suportado; thinking: {type: "enabled", budget_tokens: N} manual não é mais aceito.
Pensamento adaptativo pode gerar melhor desempenho do que pensamento estendido com budget_tokens fixo para muitas cargas de trabalho, especialmente tarefas bimodais e fluxos de trabalho de agentes de longo horizonte. Nenhum cabeçalho beta é necessário.
Se sua carga de trabalho requer latência previsível ou controle preciso sobre custos de pensamento, pensamento estendido com budget_tokens ainda é funcional no Claude Opus 4.6 e Claude Sonnet 4.6, mas está descontinuado e não é mais recomendado. Veja o aviso abaixo.
Pensamento adaptativo é suportado nos seguintes modelos:
claude-mythos-preview), pensamento adaptativo é o padrão; thinking: {type: "disabled"} não é suportadoclaude-opus-4-7), pensamento adaptativo é o único modo de pensamento suportado. Pensamento está desativado a menos que você defina explicitamente thinking: {type: "adaptive"} em sua solicitação; thinking: {type: "enabled"} manual é rejeitado com um erro 400.claude-opus-4-6)claude-sonnet-4-6)thinking.type: "enabled" e budget_tokens são descontinuados no Opus 4.6 e Sonnet 4.6 e serão removidos em um lançamento de modelo futuro. Use thinking.type: "adaptive" com o parâmetro effort em vez disso. Configurações existentes de budget_tokens ainda são funcionais, mas não são mais recomendadas; planeje migrar.
Modelos mais antigos (Sonnet 4.5, Opus 4.5, etc.) não suportam pensamento adaptativo e requerem thinking.type: "enabled" com budget_tokens.
No modo adaptativo, pensamento é opcional para o modelo. Claude avalia a complexidade de cada solicitação e determina se e quanto usar pensamento estendido. No nível de esforço padrão (high), Claude quase sempre pensa. Em níveis de esforço mais baixos, Claude pode pular pensamento para problemas mais simples.
Pensamento adaptativo também ativa automaticamente pensamento intercalado. Isso significa que Claude pode pensar entre chamadas de ferramenta, tornando-o especialmente eficaz para fluxos de trabalho de agentes.
Defina thinking.type como "adaptive" em sua solicitação de API:
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[
{
"role": "user",
"content": "Explain why the sum of two even numbers is always even.",
}
],
)
for block in response.content:
if block.type == "thinking":
print(f"\nThinking: {block.thinking}")
elif block.type == "text":
print(f"\nResponse: {block.text}")Você pode combinar pensamento adaptativo com o parâmetro de esforço para guiar quanto pensamento Claude faz. O nível de esforço atua como orientação suave para a alocação de pensamento de Claude:
| Nível de esforço | Comportamento de pensamento |
|---|---|
max | Claude sempre pensa sem restrições na profundidade do pensamento. Disponível no Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6. |
xhigh | Claude sempre pensa profundamente com exploração estendida. Disponível no Claude Opus 4.7. |
high (padrão) | Claude sempre pensa. Fornece raciocínio profundo em tarefas complexas. |
medium | Claude usa pensamento moderado. Pode pular pensamento para consultas muito simples. |
low | Claude minimiza pensamento. Pula pensamento para tarefas simples onde a velocidade é mais importante. |
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "medium"},
messages=[{"role": "user", "content": "What is the capital of France?"}],
)
print(response.content[0].text)Pensamento adaptativo funciona perfeitamente com streaming. Blocos de pensamento são transmitidos via eventos thinking_delta assim como modo de pensamento manual:
client = anthropic.Anthropic()
with client.messages.stream(
model="claude-opus-4-7",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[
{
"role": "user",
"content": "What is the greatest common divisor of 1071 and 462?",
}
],
) as stream:
for event in stream:
if event.type == "content_block_start":
print(f"\nStarting {event.content_block.type} block...")
elif event.type == "content_block_delta":
if event.delta.type == "thinking_delta":
print(event.delta.thinking, end="", flush=True)
elif event.delta.type == "text_delta":
print(event.delta.text, end="", flush=True)| Modo | Configuração | Disponibilidade | Quando usar |
|---|---|---|---|
| Adaptativo | thinking: {type: "adaptive"} | Claude Mythos Preview (padrão), Opus 4.7 (único modo), Opus 4.6, Sonnet 4.6 | Claude determina quando e quanto usar pensamento estendido. Use effort para guiar. |
| Manual | thinking: {type: "enabled", budget_tokens: N} | Todos os modelos exceto Claude Opus 4.7 (rejeitado). Descontinuado no Opus 4.6 e Sonnet 4.6 (considere modo adaptativo em vez disso). | Quando você precisa de controle preciso sobre gastos de token de pensamento. |
| Desativado | Omita o parâmetro thinking ou passe {type: "disabled"} | Todos os modelos exceto Claude Mythos Preview | Quando você não precisa de pensamento estendido e quer a latência mais baixa. |
Pensamento adaptativo está disponível no Claude Mythos Preview, Claude Opus 4.7, Opus 4.6 e Sonnet 4.6. No Mythos Preview, pensamento adaptativo é o padrão e se aplica automaticamente sempre que thinking não está definido. No Claude Opus 4.7, pensamento adaptativo é o único modo suportado e type: "enabled" com budget_tokens é rejeitado. Modelos mais antigos suportam apenas type: "enabled" com budget_tokens. No Opus 4.6 e Sonnet 4.6, type: "enabled" com budget_tokens ainda é funcional, mas descontinuado.
Disponibilidade de pensamento intercalado por modo:
interleaved-thinking-2025-05-14.Ao usar pensamento adaptativo, turnos anteriores do assistente não precisam começar com blocos de pensamento. Isso é mais flexível do que modo manual, onde a API impõe que turnos com pensamento habilitado começam com um bloco de pensamento.
Solicitações consecutivas usando pensamento adaptive preservam pontos de interrupção de cache de prompt. No entanto, alternar entre modos de pensamento adaptive e enabled/disabled quebra pontos de interrupção de cache para mensagens. Prompts de sistema e definições de ferramenta permanecem em cache independentemente de mudanças de modo.
O comportamento de acionamento do pensamento adaptativo é solicitável. Se Claude está pensando mais ou menos frequentemente do que você gostaria, você pode adicionar orientação ao seu prompt de sistema:
Extended thinking adds latency and should only be used when it
will meaningfully improve answer quality — typically for problems
that require multi-step reasoning. When in doubt, respond directly.Orientar Claude a pensar menos frequentemente pode reduzir a qualidade em tarefas que se beneficiam do raciocínio. Meça o impacto em suas cargas de trabalho específicas antes de implantar ajuste baseado em prompt em produção. Considere testar com níveis de esforço mais baixos primeiro.
Use max_tokens como um limite rígido na saída total (pensamento + texto de resposta). O parâmetro effort fornece orientação suave adicional sobre quanto pensamento Claude aloca. Juntos, esses dão a você controle efetivo sobre custo.
Nos níveis de esforço high e max, Claude pode pensar mais extensivamente e pode ser mais provável de esgotar o orçamento de max_tokens. Se você observar stop_reason: "max_tokens" em respostas, considere aumentar max_tokens para dar mais espaço ao modelo, ou diminuir o nível de esforço.
Os seguintes conceitos se aplicam a todos os modelos que suportam pensamento estendido, independentemente de você usar modo adaptativo ou manual.
With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse. This is the default behavior on Claude 4 models when the display field on the thinking configuration is unset or set to "summarized". On Claude Opus 4.7 and Claude Mythos Preview, display defaults to "omitted" instead, so you must set display: "summarized" explicitly to receive summarized thinking.
Here are some important considerations for summarized thinking:
In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.
The display field on the thinking configuration controls how thinking content is returned in API responses. It accepts two values:
"summarized": Thinking blocks contain summarized thinking text. See Summarized thinking for details. This is the default on Claude Opus 4.6, Claude Sonnet 4.6, and earlier Claude 4 models."omitted": Thinking blocks are returned with an empty thinking field. The signature field still carries the encrypted full thinking for multi-turn continuity (see Thinking encryption). This is the default on Claude Opus 4.7 and Claude Mythos Preview.Setting display: "omitted" is useful when your application doesn't surface thinking content to users. The primary benefit is faster time-to-first-text-token when streaming: The server skips streaming thinking tokens entirely and delivers only the signature, so the final text response begins streaming sooner.
Here are some important considerations for omitted thinking:
signature to reconstruct the original thinking for prompt construction (see Preserving thinking blocks). Any text you place in the thinking field of a round-tripped omitted block is ignored.display is invalid with thinking.type: "disabled" (there is nothing to display).thinking.type: "adaptive" and the model skips thinking for a simple request, no thinking block is produced regardless of display.The signature field is identical whether display is "summarized" or "omitted". Switching display values between turns in a conversation is supported.
No Claude Opus 4.7, thinking.display padrão é "omitted". Blocos de pensamento ainda aparecem no fluxo de resposta, mas seu campo thinking está vazio a menos que você opte explicitamente. Esta é uma mudança silenciosa do Claude Opus 4.6, onde o padrão era "summarized". Para restaurar texto de pensamento resumido no Claude Opus 4.7, defina thinking.display como "summarized" explicitamente:
thinking = {
"type": "adaptive",
"display": "summarized",
}Para exemplos de código e comportamento de streaming com display: "omitted", veja Controlando a exibição de pensamento na página de pensamento estendido. Os exemplos lá usam type: "enabled"; com pensamento adaptativo, use:
thinking = {"type": "adaptive", "display": "omitted"}Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.
It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns. If you pass them back, whether the API keeps or strips them depends on the model: Opus 4.5+ and Sonnet 4.6+ keep them in context by default; earlier Opus/Sonnet models and all Haiku models strip them. See context editing to configure this.
If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.
Here are some important considerations on thinking encryption:
signature_delta inside a content_block_delta event just before the content_block_stop event.signature values are significantly longer in Claude 4 models than in previous models.signature field is an opaque field and should not be interpreted or parsed.signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.
The thinking process incurs charges for:
When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.
When using summarized thinking:
When using display: "omitted":
thinking field is empty)The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the thinking content visible in the response.
A página de pensamento estendido cobre vários tópicos em mais detalhes com exemplos de código específicos do modo:
tool_choice quando pensamento está ativo.adaptive e enabled/disabled quebra pontos de interrupção de cache para mensagens (prompts de sistema e definições de ferramenta permanecem em cache).max_tokens e limites de janela de contexto.Saiba mais sobre pensamento estendido, incluindo modo manual, uso de ferramenta e cache de prompt.
Controle como Claude responde minuciosamente com o parâmetro de esforço.
Was this page helpful?