Loading...
  • Construir
  • Admin
  • Modelos e preços
  • SDKs do cliente
  • Referência da API
Search...
⌘K
Log in
Pensamento adaptativo
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Capacidades do modelo

Pensamento adaptativo

Deixe Claude determinar dinamicamente quando e quanto usar pensamento estendido com modo de pensamento adaptativo.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Pensamento adaptativo é a forma recomendada de usar pensamento estendido com Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6, e é o modo padrão em Claude Mythos Preview (onde se aplica automaticamente sempre que thinking não está definido). Em vez de definir manualmente um orçamento de token de pensamento, pensamento adaptativo permite que Claude determine dinamicamente quando e quanto usar pensamento estendido com base na complexidade de cada solicitação. No Claude Opus 4.7, pensamento adaptativo é o único modo de pensamento suportado; thinking: {type: "enabled", budget_tokens: N} manual não é mais aceito.

Pensamento adaptativo pode gerar melhor desempenho do que pensamento estendido com budget_tokens fixo para muitas cargas de trabalho, especialmente tarefas bimodais e fluxos de trabalho de agentes de longo horizonte. Nenhum cabeçalho beta é necessário.

Se sua carga de trabalho requer latência previsível ou controle preciso sobre custos de pensamento, pensamento estendido com budget_tokens ainda é funcional no Claude Opus 4.6 e Claude Sonnet 4.6, mas está descontinuado e não é mais recomendado. Veja o aviso abaixo.

Modelos suportados

Pensamento adaptativo é suportado nos seguintes modelos:

  • Claude Mythos Preview (claude-mythos-preview), pensamento adaptativo é o padrão; thinking: {type: "disabled"} não é suportado
  • Claude Opus 4.7 (claude-opus-4-7), pensamento adaptativo é o único modo de pensamento suportado. Pensamento está desativado a menos que você defina explicitamente thinking: {type: "adaptive"} em sua solicitação; thinking: {type: "enabled"} manual é rejeitado com um erro 400.
  • Claude Opus 4.6 (claude-opus-4-6)
  • Claude Sonnet 4.6 (claude-sonnet-4-6)

thinking.type: "enabled" e budget_tokens são descontinuados no Opus 4.6 e Sonnet 4.6 e serão removidos em um lançamento de modelo futuro. Use thinking.type: "adaptive" com o parâmetro effort em vez disso. Configurações existentes de budget_tokens ainda são funcionais, mas não são mais recomendadas; planeje migrar.

Modelos mais antigos (Sonnet 4.5, Opus 4.5, etc.) não suportam pensamento adaptativo e requerem thinking.type: "enabled" com budget_tokens.

Como funciona o pensamento adaptativo

No modo adaptativo, pensamento é opcional para o modelo. Claude avalia a complexidade de cada solicitação e determina se e quanto usar pensamento estendido. No nível de esforço padrão (high), Claude quase sempre pensa. Em níveis de esforço mais baixos, Claude pode pular pensamento para problemas mais simples.

Pensamento adaptativo também ativa automaticamente pensamento intercalado. Isso significa que Claude pode pensar entre chamadas de ferramenta, tornando-o especialmente eficaz para fluxos de trabalho de agentes.

Como usar pensamento adaptativo

Defina thinking.type como "adaptive" em sua solicitação de API:

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {
            "role": "user",
            "content": "Explain why the sum of two even numbers is always even.",
        }
    ],
)

for block in response.content:
    if block.type == "thinking":
        print(f"\nThinking: {block.thinking}")
    elif block.type == "text":
        print(f"\nResponse: {block.text}")

Pensamento adaptativo com o parâmetro de esforço

Você pode combinar pensamento adaptativo com o parâmetro de esforço para guiar quanto pensamento Claude faz. O nível de esforço atua como orientação suave para a alocação de pensamento de Claude:

Nível de esforçoComportamento de pensamento
maxClaude sempre pensa sem restrições na profundidade do pensamento. Disponível no Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6.
xhighClaude sempre pensa profundamente com exploração estendida. Disponível no Claude Opus 4.7.
high (padrão)Claude sempre pensa. Fornece raciocínio profundo em tarefas complexas.
mediumClaude usa pensamento moderado. Pode pular pensamento para consultas muito simples.
lowClaude minimiza pensamento. Pula pensamento para tarefas simples onde a velocidade é mais importante.
client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    output_config={"effort": "medium"},
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(response.content[0].text)

Streaming com pensamento adaptativo

Pensamento adaptativo funciona perfeitamente com streaming. Blocos de pensamento são transmitidos via eventos thinking_delta assim como modo de pensamento manual:

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?",
        }
    ],
) as stream:
    for event in stream:
        if event.type == "content_block_start":
            print(f"\nStarting {event.content_block.type} block...")
        elif event.type == "content_block_delta":
            if event.delta.type == "thinking_delta":
                print(event.delta.thinking, end="", flush=True)
            elif event.delta.type == "text_delta":
                print(event.delta.text, end="", flush=True)

Pensamento adaptativo vs manual vs desativado

ModoConfiguraçãoDisponibilidadeQuando usar
Adaptativothinking: {type: "adaptive"}Claude Mythos Preview (padrão), Opus 4.7 (único modo), Opus 4.6, Sonnet 4.6Claude determina quando e quanto usar pensamento estendido. Use effort para guiar.
Manualthinking: {type: "enabled", budget_tokens: N}Todos os modelos exceto Claude Opus 4.7 (rejeitado). Descontinuado no Opus 4.6 e Sonnet 4.6 (considere modo adaptativo em vez disso).Quando você precisa de controle preciso sobre gastos de token de pensamento.
DesativadoOmita o parâmetro thinking ou passe {type: "disabled"}Todos os modelos exceto Claude Mythos PreviewQuando você não precisa de pensamento estendido e quer a latência mais baixa.

Pensamento adaptativo está disponível no Claude Mythos Preview, Claude Opus 4.7, Opus 4.6 e Sonnet 4.6. No Mythos Preview, pensamento adaptativo é o padrão e se aplica automaticamente sempre que thinking não está definido. No Claude Opus 4.7, pensamento adaptativo é o único modo suportado e type: "enabled" com budget_tokens é rejeitado. Modelos mais antigos suportam apenas type: "enabled" com budget_tokens. No Opus 4.6 e Sonnet 4.6, type: "enabled" com budget_tokens ainda é funcional, mas descontinuado.

Disponibilidade de pensamento intercalado por modo:

  • Modo adaptativo: Pensamento intercalado é automaticamente ativado no Claude Mythos Preview, Claude Opus 4.7, Opus 4.6 e Sonnet 4.6. No Mythos Preview e Opus 4.7, raciocínio inter-ferramenta sempre fica dentro de blocos de pensamento.
  • Modo manual no Sonnet 4.6: Pensamento intercalado funciona via cabeçalho beta interleaved-thinking-2025-05-14.
  • Modo manual no Opus 4.6: Pensamento intercalado não está disponível. Se seu fluxo de trabalho de agente requer pensamento entre chamadas de ferramenta no Opus 4.6, use modo adaptativo.

Considerações importantes

Mudanças de validação

Ao usar pensamento adaptativo, turnos anteriores do assistente não precisam começar com blocos de pensamento. Isso é mais flexível do que modo manual, onde a API impõe que turnos com pensamento habilitado começam com um bloco de pensamento.

Cache de prompt

Solicitações consecutivas usando pensamento adaptive preservam pontos de interrupção de cache de prompt. No entanto, alternar entre modos de pensamento adaptive e enabled/disabled quebra pontos de interrupção de cache para mensagens. Prompts de sistema e definições de ferramenta permanecem em cache independentemente de mudanças de modo.

Ajuste do comportamento de pensamento

O comportamento de acionamento do pensamento adaptativo é solicitável. Se Claude está pensando mais ou menos frequentemente do que você gostaria, você pode adicionar orientação ao seu prompt de sistema:

Extended thinking adds latency and should only be used when it
will meaningfully improve answer quality — typically for problems
that require multi-step reasoning. When in doubt, respond directly.

Orientar Claude a pensar menos frequentemente pode reduzir a qualidade em tarefas que se beneficiam do raciocínio. Meça o impacto em suas cargas de trabalho específicas antes de implantar ajuste baseado em prompt em produção. Considere testar com níveis de esforço mais baixos primeiro.

Controle de custo

Use max_tokens como um limite rígido na saída total (pensamento + texto de resposta). O parâmetro effort fornece orientação suave adicional sobre quanto pensamento Claude aloca. Juntos, esses dão a você controle efetivo sobre custo.

Nos níveis de esforço high e max, Claude pode pensar mais extensivamente e pode ser mais provável de esgotar o orçamento de max_tokens. Se você observar stop_reason: "max_tokens" em respostas, considere aumentar max_tokens para dar mais espaço ao modelo, ou diminuir o nível de esforço.

Trabalhando com blocos de pensamento

Os seguintes conceitos se aplicam a todos os modelos que suportam pensamento estendido, independentemente de você usar modo adaptativo ou manual.

Pensamento resumido

With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse. This is the default behavior on Claude 4 models when the display field on the thinking configuration is unset or set to "summarized". On Claude Opus 4.7 and Claude Mythos Preview, display defaults to "omitted" instead, so you must set display: "summarized" explicitly to receive summarized thinking.

Here are some important considerations for summarized thinking:

  • You're charged for the full thinking tokens generated by the original request, not the summary tokens.
  • The billed output token count will not match the count of tokens you see in the response.
  • On Claude 4 models, the first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes. Claude Mythos Preview summarizes from the first token, so its thinking blocks do not show this verbose preamble.
  • As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
  • Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience.
  • Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

Controlando a exibição de pensamento

The display field on the thinking configuration controls how thinking content is returned in API responses. It accepts two values:

  • "summarized": Thinking blocks contain summarized thinking text. See Summarized thinking for details. This is the default on Claude Opus 4.6, Claude Sonnet 4.6, and earlier Claude 4 models.
  • "omitted": Thinking blocks are returned with an empty thinking field. The signature field still carries the encrypted full thinking for multi-turn continuity (see Thinking encryption). This is the default on Claude Opus 4.7 and Claude Mythos Preview.

Setting display: "omitted" is useful when your application doesn't surface thinking content to users. The primary benefit is faster time-to-first-text-token when streaming: The server skips streaming thinking tokens entirely and delivers only the signature, so the final text response begins streaming sooner.

Here are some important considerations for omitted thinking:

  • You're still charged for the full thinking tokens. Omitting reduces latency, not cost.
  • If you pass thinking blocks back in multi-turn conversations, pass them unchanged. The server decrypts the signature to reconstruct the original thinking for prompt construction (see Preserving thinking blocks). Any text you place in the thinking field of a round-tripped omitted block is ignored.
  • display is invalid with thinking.type: "disabled" (there is nothing to display).
  • When using thinking.type: "adaptive" and the model skips thinking for a simple request, no thinking block is produced regardless of display.

The signature field is identical whether display is "summarized" or "omitted". Switching display values between turns in a conversation is supported.

No Claude Opus 4.7, thinking.display padrão é "omitted". Blocos de pensamento ainda aparecem no fluxo de resposta, mas seu campo thinking está vazio a menos que você opte explicitamente. Esta é uma mudança silenciosa do Claude Opus 4.6, onde o padrão era "summarized". Para restaurar texto de pensamento resumido no Claude Opus 4.7, defina thinking.display como "summarized" explicitamente:

thinking = {
    "type": "adaptive",
    "display": "summarized",
}

Para exemplos de código e comportamento de streaming com display: "omitted", veja Controlando a exibição de pensamento na página de pensamento estendido. Os exemplos lá usam type: "enabled"; com pensamento adaptativo, use:

thinking = {"type": "adaptive", "display": "omitted"}

Criptografia de pensamento

Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns. If you pass them back, whether the API keeps or strips them depends on the model: Opus 4.5+ and Sonnet 4.6+ keep them in context by default; earlier Opus/Sonnet models and all Haiku models strip them. See context editing to configure this.

If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

Here are some important considerations on thinking encryption:

  • When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
  • signature values are significantly longer in Claude 4 models than in previous models.
  • The signature field is an opaque field and should not be interpreted or parsed.
  • signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

Preços

For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

The thinking process incurs charges for:

  • Tokens used during thinking (output tokens)
  • Thinking blocks from prior assistant turns kept in context: only the last turn on earlier Opus/Sonnet models and all Haiku models; all turns by default on Opus 4.5+ and Sonnet 4.6+ (input tokens)
  • Standard text output tokens

When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

When using summarized thinking:

  • Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
  • Output tokens (billed): The original thinking tokens that Claude generated internally
  • Output tokens (visible): The summarized thinking tokens you see in the response
  • No charge: Tokens used to generate the summary

When using display: "omitted":

  • Input tokens: Tokens in your original request (same as summarized)
  • Output tokens (billed): The original thinking tokens that Claude generated internally (same as summarized)
  • Output tokens (visible): Zero thinking tokens (the thinking field is empty)

The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the thinking content visible in the response.

Tópicos adicionais

A página de pensamento estendido cobre vários tópicos em mais detalhes com exemplos de código específicos do modo:

  • Uso de ferramenta com pensamento: As mesmas regras se aplicam para pensamento adaptativo: preserve blocos de pensamento entre chamadas de ferramenta e esteja ciente das limitações de tool_choice quando pensamento está ativo.
  • Cache de prompt: Com pensamento adaptativo, solicitações consecutivas usando o mesmo modo de pensamento preservam pontos de interrupção de cache. Alternar entre modos adaptive e enabled/disabled quebra pontos de interrupção de cache para mensagens (prompts de sistema e definições de ferramenta permanecem em cache).
  • Janelas de contexto: Como tokens de pensamento interagem com max_tokens e limites de janela de contexto.

Próximos passos

Pensamento estendido

Saiba mais sobre pensamento estendido, incluindo modo manual, uso de ferramenta e cache de prompt.

Parâmetro de esforço

Controle como Claude responde minuciosamente com o parâmetro de esforço.

Was this page helpful?

  • Modelos suportados
  • Como funciona o pensamento adaptativo
  • Como usar pensamento adaptativo
  • Pensamento adaptativo com o parâmetro de esforço
  • Streaming com pensamento adaptativo
  • Pensamento adaptativo vs manual vs desativado
  • Considerações importantes
  • Mudanças de validação
  • Cache de prompt
  • Ajuste do comportamento de pensamento
  • Controle de custo
  • Trabalhando com blocos de pensamento
  • Pensamento resumido
  • Controlando a exibição de pensamento
  • Criptografia de pensamento
  • Preços
  • Tópicos adicionais
  • Próximos passos