Loading...
    • Guia do Desenvolvedor
    • Referência da API
    • MCP
    • Recursos
    • Notas de Lançamento
    Search...
    ⌘K

    Primeiros passos

    introget-started

    Modelos e preços

    overviewchoosing-a-modelwhats-new-claude-4-5migrating-to-claude-4model-deprecationspricing

    Criar com Claude

    overviewworking-with-messagescontext-windowsclaude-4-best-practices

    Capacidades

    prompt-cachingcontext-editingextended-thinkingstreamingbatch-processingcitationsmultilingual-supporttoken-countingembeddingsvisionpdf-supportfilessearch-resultsclaude-for-sheets

    Ferramentas

    overviewimplement-tool-usetoken-efficient-tool-usefine-grained-tool-streamingbash-toolcode-execution-toolcomputer-use-tooltext-editor-toolweb-fetch-toolweb-search-toolmemory-tool

    Habilidades do Agente

    overviewquickstartbest-practicesskills-guide

    SDK do Agente

    overviewtypescriptpython

    Guias

    streaming-vs-single-modepermissionssessionshostingmodifying-system-promptsmcpcustom-toolssubagentsslash-commandsskillscost-trackingtodo-trackingplugins

    MCP na API

    mcp-connectorremote-mcp-servers

    Claude em plataformas de terceiros

    claude-on-amazon-bedrockclaude-on-vertex-ai

    Engenharia de prompts

    overviewprompt-generatorprompt-templates-and-variablesprompt-improverbe-clear-and-directmultishot-promptingchain-of-thoughtuse-xml-tagssystem-promptsprefill-claudes-responsechain-promptslong-context-tipsextended-thinking-tips

    Testar e avaliar

    define-successdevelop-testseval-toolreduce-latency

    Fortalecer proteções

    reduce-hallucinationsincrease-consistencymitigate-jailbreakshandle-streaming-refusalsreduce-prompt-leakkeep-claude-in-character

    Administração e monitoramento

    administration-apiusage-cost-apiclaude-code-analytics-api
    Console
    Capacidades

    Construindo com pensamento estendido

    O pensamento estendido oferece ao Claude capacidades de raciocínio aprimoradas para tarefas complexas, enquanto fornece níveis variados de transparência em seu processo de pensamento passo a passo antes de entregar sua resposta final.

    Modelos suportados

    O pensamento estendido é suportado nos seguintes modelos:

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (descontinuado)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    O comportamento da API difere entre os modelos Claude Sonnet 3.7 e Claude 4, mas as formas da API permanecem exatamente as mesmas.

    Para mais informações, consulte Diferenças no pensamento entre versões de modelos.

    Como funciona o pensamento estendido

    Quando o pensamento estendido é ativado, Claude cria blocos de conteúdo thinking onde produz seu raciocínio interno. Claude incorpora insights deste raciocínio antes de elaborar uma resposta final.

    A resposta da API incluirá blocos de conteúdo thinking, seguidos por blocos de conteúdo text.

    Aqui está um exemplo do formato de resposta padrão:

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Para mais informações sobre o formato de resposta do pensamento estendido, consulte a Referência da API de Mensagens.

    Como usar o pensamento estendido

    Aqui está um exemplo de uso do pensamento estendido na API de Mensagens:

    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
            }
        ]
    }'

    Para ativar o pensamento estendido, adicione um objeto thinking, com o parâmetro type definido como enabled e o budget_tokens para um orçamento de token especificado para o pensamento estendido.

    O parâmetro budget_tokens determina o número máximo de tokens que Claude pode usar para seu processo de raciocínio interno. Nos modelos Claude 4, este limite se aplica aos tokens de pensamento completo, e não ao resultado resumido. Orçamentos maiores podem melhorar a qualidade da resposta, permitindo análise mais completa para problemas complexos, embora Claude possa não usar todo o orçamento alocado, especialmente em intervalos acima de 32k.

    budget_tokens deve ser definido para um valor menor que max_tokens. No entanto, ao usar pensamento intercalado com ferramentas, você pode exceder este limite, pois o limite de token se torna sua janela de contexto inteira (200k tokens).

    Pensamento resumido

    Com o pensamento estendido ativado, a API de Mensagens para modelos Claude 4 retorna um resumo do processo de pensamento completo do Claude. O pensamento resumido fornece os benefícios de inteligência completa do pensamento estendido, enquanto previne abuso.

    Aqui estão algumas considerações importantes para o pensamento resumido:

    • Você é cobrado pelos tokens de pensamento completo gerados pela solicitação original, não pelos tokens de resumo.
    • A contagem de tokens de saída faturados não corresponderá à contagem de tokens que você vê na resposta.
    • As primeiras linhas da saída de pensamento são mais verbosas, fornecendo raciocínio detalhado que é particularmente útil para fins de engenharia de prompt.
    • Conforme a Anthropic busca melhorar o recurso de pensamento estendido, o comportamento de resumo está sujeito a mudanças.
    • A resumição preserva as ideias-chave do processo de pensamento do Claude com latência mínima adicionada, permitindo uma experiência de usuário transmissível e migração fácil do Claude Sonnet 3.7 para modelos Claude 4.
    • A resumição é processada por um modelo diferente daquele que você direciona em suas solicitações. O modelo de pensamento não vê a saída resumida.

    Claude Sonnet 3.7 continua retornando saída de pensamento completo.

    Em casos raros onde você precisa de acesso à saída de pensamento completo para modelos Claude 4, entre em contato com nossa equipe de vendas.

    Pensamento em streaming

    Você pode fazer streaming de respostas de pensamento estendido usando eventos enviados pelo servidor (SSE).

    Quando o streaming está ativado para pensamento estendido, você recebe conteúdo de pensamento via eventos thinking_delta.

    Para mais documentação sobre streaming via a API de Mensagens, consulte Streaming de Mensagens.

    Aqui está como lidar com streaming com pensamento:

    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "stream": true,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "What is 27 * 453?"
            }
        ]
    }'

    Tente no Console

    Exemplo de saída de streaming:

    event: message_start
    data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Let me solve this step by step:\n\n1. First break down 27 * 453"}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}
    
    // Additional thinking deltas...
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 0}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12,231"}}
    
    // Additional text deltas...
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 1}
    
    event: message_delta
    data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
    
    event: message_stop
    data: {"type": "message_stop"}

    Ao usar streaming com pensamento ativado, você pode notar que o texto às vezes chega em pedaços maiores alternando com entrega token por token menor. Este é o comportamento esperado, especialmente para conteúdo de pensamento.

    O sistema de streaming precisa processar conteúdo em lotes para desempenho ideal, o que pode resultar neste padrão de entrega "em pedaços", com possíveis atrasos entre eventos de streaming. Estamos continuamente trabalhando para melhorar esta experiência, com futuras atualizações focadas em fazer o conteúdo de pensamento fazer streaming mais suavemente.

    Pensamento estendido com uso de ferramentas

    O pensamento estendido pode ser usado junto com uso de ferramentas, permitindo que Claude raciocine através da seleção de ferramentas e processamento de resultados.

    Ao usar pensamento estendido com uso de ferramentas, esteja ciente das seguintes limitações:

    1. Limitação de escolha de ferramenta: O uso de ferramentas com pensamento suporta apenas tool_choice: {"type": "auto"} (o padrão) ou tool_choice: {"type": "none"}. Usar tool_choice: {"type": "any"} ou tool_choice: {"type": "tool", "name": "..."} resultará em um erro porque estas opções forçam o uso de ferramentas, que é incompatível com pensamento estendido.

    2. Preservando blocos de pensamento: Durante o uso de ferramentas, você deve passar blocos thinking de volta para a API para a última mensagem do assistente. Inclua o bloco completo não modificado de volta para a API para manter a continuidade do raciocínio.

    Alternando modos de pensamento em conversas

    Você não pode alternar pensamento no meio de um turno do assistente, incluindo durante loops de uso de ferramentas. O turno inteiro do assistente deve operar em um único modo de pensamento:

    • Se o pensamento está ativado, o turno final do assistente deve começar com um bloco de pensamento.
    • Se o pensamento está desativado, o turno final do assistente não deve conter nenhum bloco de pensamento

    Do ponto de vista do modelo, loops de uso de ferramentas fazem parte do turno do assistente. Um turno do assistente não se completa até que Claude termine sua resposta completa, que pode incluir múltiplas chamadas de ferramentas e resultados.

    Por exemplo, esta sequência é toda parte de um único turno do assistente:

    User: "What's the weather in Paris?"
    Assistant: [thinking] + [tool_use: get_weather]
    User: [tool_result: "20°C, sunny"]
    Assistant: [text: "The weather in Paris is 20°C and sunny"]

    Embora haja múltiplas mensagens da API, o loop de uso de ferramentas é conceitualmente parte de uma resposta contínua do assistente.

    Cenários de erro comuns

    Você pode encontrar este erro:

    Expected `thinking` or `redacted_thinking`, but found `tool_use`.
    When `thinking` is enabled, a final `assistant` message must start
    with a thinking block (preceding the lastmost set of `tool_use` and
    `tool_result` blocks).

    Isto normalmente ocorre quando:

    1. Você tinha pensamento desativado durante uma sequência de uso de ferramentas
    2. Você quer ativar pensamento novamente
    3. Sua última mensagem do assistente contém blocos de uso de ferramentas mas nenhum bloco de pensamento

    Orientação prática

    ✗ Inválido: Alternando pensamento imediatamente após uso de ferramentas

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    // Cannot enable thinking here - still in the same assistant turn

    ✓ Válido: Completar o turno do assistente primeiro

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    Assistant: [text: "It's sunny"] 
    User: "What about tomorrow?" (thinking disabled)
    Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

    Melhor prática: Planeje sua estratégia de pensamento no início de cada turno em vez de tentar alternar no meio do turno.

    Alternar modos de pensamento também invalida o cache de prompt para histórico de mensagens. Para mais detalhes, consulte a seção Pensamento estendido com cache de prompt.

    Preservando blocos de pensamento

    Durante o uso de ferramentas, você deve passar blocos thinking de volta para a API, e você deve incluir o bloco completo não modificado de volta para a API. Isto é crítico para manter o fluxo de raciocínio do modelo e a integridade da conversa.

    Embora você possa omitir blocos thinking de turnos anteriores do assistant, sugerimos sempre passar de volta todos os blocos de pensamento para a API para qualquer conversa multi-turno. A API irá:

    • Filtrar automaticamente os blocos de pensamento fornecidos
    • Usar os blocos de pensamento relevantes necessários para preservar o raciocínio do modelo
    • Cobrar apenas pelos tokens de entrada para os blocos mostrados ao Claude

    Ao alternar modos de pensamento durante uma conversa, lembre-se que o turno inteiro do assistente (incluindo loops de uso de ferramentas) deve operar em um único modo de pensamento. Para mais detalhes, consulte Alternando modos de pensamento em conversas.

    Quando Claude invoca ferramentas, está pausando sua construção de uma resposta para aguardar informações externas. Quando resultados de ferramentas são retornados, Claude continuará construindo essa resposta existente. Isto necessita preservar blocos de pensamento durante o uso de ferramentas, por um par de razões:

    1. Continuidade de raciocínio: Os blocos de pensamento capturam o raciocínio passo a passo do Claude que levou a solicitações de ferramentas. Quando você posta resultados de ferramentas, incluir o pensamento original garante que Claude possa continuar seu raciocínio de onde parou.

    2. Manutenção de contexto: Enquanto resultados de ferramentas aparecem como mensagens de usuário na estrutura da API, eles fazem parte de um fluxo de raciocínio contínuo. Preservar blocos de pensamento mantém este fluxo conceitual através de múltiplas chamadas de API. Para mais informações sobre gerenciamento de contexto, consulte nosso guia sobre janelas de contexto.

    Importante: Ao fornecer blocos thinking, a sequência inteira de blocos thinking consecutivos deve corresponder aos resultados gerados pelo modelo durante a solicitação original; você não pode reorganizar ou modificar a sequência destes blocos.

    Pensamento intercalado

    O pensamento estendido com uso de ferramentas em modelos Claude 4 suporta pensamento intercalado, que permite que Claude pense entre chamadas de ferramentas e faça raciocínio mais sofisticado após receber resultados de ferramentas.

    Com pensamento intercalado, Claude pode:

    • Raciocinar sobre os resultados de uma chamada de ferramenta antes de decidir o que fazer a seguir
    • Encadear múltiplas chamadas de ferramentas com etapas de raciocínio entre elas
    • Tomar decisões mais nuançadas baseadas em resultados intermediários

    Para ativar pensamento intercalado, adicione o cabeçalho beta interleaved-thinking-2025-05-14 à sua solicitação de API.

    Aqui estão algumas considerações importantes para pensamento intercalado:

    • Com pensamento intercalado, o budget_tokens pode exceder o parâmetro max_tokens, pois representa o orçamento total em todos os blocos de pensamento dentro de um turno do assistente.
    • Pensamento intercalado é suportado apenas para ferramentas usadas via a API de Mensagens.
    • Pensamento intercalado é suportado apenas para modelos Claude 4, com o cabeçalho beta interleaved-thinking-2025-05-14.
    • Chamadas diretas para a API Claude permitem que você passe interleaved-thinking-2025-05-14 em solicitações para qualquer modelo, sem efeito.
    • Em plataformas de terceiros (por exemplo, Amazon Bedrock e Vertex AI), se você passar interleaved-thinking-2025-05-14 para qualquer modelo além de Claude Opus 4.1, Opus 4, ou Sonnet 4, sua solicitação falhará.

    Pensamento estendido com cache de prompt

    Cache de prompt com pensamento tem várias considerações importantes:

    Tarefas de pensamento estendido frequentemente levam mais de 5 minutos para serem concluídas. Considere usar a duração de cache de 1 hora para manter acertos de cache em sessões de pensamento mais longas e fluxos de trabalho multi-etapas.

    Remoção de contexto de bloco de pensamento

    • Blocos de pensamento de turnos anteriores são removidos do contexto, o que pode afetar pontos de quebra de cache
    • Ao continuar conversas com uso de ferramentas, blocos de pensamento são armazenados em cache e contam como tokens de entrada quando lidos do cache
    • Isto cria uma troca: enquanto blocos de pensamento não consomem espaço de janela de contexto visualmente, eles ainda contam para seu uso de token de entrada quando armazenados em cache
    • Se o pensamento se tornar desativado, solicitações falharão se você passar conteúdo de pensamento no turno atual de uso de ferramentas. Em outros contextos, conteúdo de pensamento passado para a API é simplesmente ignorado

    Padrões de invalidação de cache

    • Mudanças em parâmetros de pensamento (ativado/desativado ou alocação de orçamento) invalidam pontos de quebra de cache de mensagem
    • Pensamento intercalado amplifica invalidação de cache, pois blocos de pensamento podem ocorrer entre múltiplas chamadas de ferramentas
    • Prompts de sistema e ferramentas permanecem em cache apesar de mudanças de parâmetros de pensamento ou remoção de bloco

    Enquanto blocos de pensamento são removidos para caching e cálculos de contexto, eles devem ser preservados ao continuar conversas com uso de ferramentas, especialmente com pensamento intercalado.

    Entendendo o comportamento de caching de bloco de pensamento

    Ao usar pensamento estendido com uso de ferramentas, blocos de pensamento exibem comportamento de caching específico que afeta a contagem de tokens:

    Como funciona:

    1. O caching ocorre apenas quando você faz uma solicitação subsequente que inclui resultados de ferramentas
    2. Quando a solicitação subsequente é feita, o histórico de conversa anterior (incluindo blocos de pensamento) pode ser armazenado em cache
    3. Estes blocos de pensamento em cache contam como tokens de entrada em suas métricas de uso quando lidos do cache
    4. Quando um bloco de usuário não-resultado-de-ferramenta é incluído, todos os blocos de pensamento anteriores são ignorados e removidos do contexto

    Exemplo de fluxo detalhado:

    Solicitação 1:

    User: "What's the weather in Paris?"

    Resposta 1:

    [thinking_block_1] + [tool_use block 1]

    Solicitação 2:

    User: ["What's the weather in Paris?"], 
    Assistant: [thinking_block_1] + [tool_use block 1], 
    User: [tool_result_1, cache=True]

    Resposta 2:

    [thinking_block_2] + [text block 2]

    A Solicitação 2 escreve um cache do conteúdo da solicitação (não a resposta). O cache inclui a mensagem de usuário original, o primeiro bloco de pensamento, bloco de uso de ferramentas e o resultado da ferramenta.

    Solicitação 3:

    User: ["What's the weather in Paris?"], 
    Assistant: [thinking_block_1] + [tool_use block 1], 
    User: [tool_result_1, cache=True], 
    Assistant: [thinking_block_2] + [text block 2], 
    User: [Text response, cache=True]

    Porque um bloco de usuário não-resultado-de-ferramenta foi incluído, todos os blocos de pensamento anteriores são ignorados. Esta solicitação será processada da mesma forma que:

    User: ["What's the weather in Paris?"], 
    Assistant: [tool_use block 1], 
    User: [tool_result_1, cache=True], 
    Assistant: [text block 2], 
    User: [Text response, cache=True]

    Pontos-chave:

    • Este comportamento de caching acontece automaticamente, mesmo sem marcadores cache_control explícitos
    • Este comportamento é consistente se usar pensamento regular ou pensamento intercalado

    Tokens máximos e tamanho da janela de contexto com pensamento estendido

    Em modelos Claude mais antigos (anteriores ao Claude Sonnet 3.7), se a soma de tokens de prompt e max_tokens excedesse a janela de contexto do modelo, o sistema ajustaria automaticamente max_tokens para caber dentro do limite de contexto. Isto significava que você poderia definir um grande valor de max_tokens e o sistema o reduziria silenciosamente conforme necessário.

    Com modelos Claude 3.7 e 4, max_tokens (que inclui seu orçamento de pensamento quando pensamento está ativado) é aplicado como um limite rigoroso. O sistema agora retornará um erro de validação se tokens de prompt + max_tokens exceder o tamanho da janela de contexto.

    Você pode ler nosso guia sobre janelas de contexto para uma análise mais profunda.

    A janela de contexto com pensamento estendido

    Ao calcular o uso da janela de contexto com pensamento ativado, há algumas considerações a serem cientes:

    • Blocos de pensamento de turnos anteriores são removidos e não contam para sua janela de contexto
    • Pensamento do turno atual conta para seu limite de max_tokens para esse turno

    O diagrama abaixo demonstra o gerenciamento de token especializado quando pensamento estendido está ativado:

    Diagrama de janela de contexto com pensamento estendido

    A janela de contexto efetiva é calculada como:

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Recomendamos usar a API de contagem de tokens para obter contagens de token precisas para seu caso de uso específico, especialmente ao trabalhar com conversas multi-turno que incluem pensamento.

    A janela de contexto com pensamento estendido e uso de ferramentas

    Ao usar pensamento estendido com uso de ferramentas, blocos de pensamento devem ser explicitamente preservados e retornados com os resultados de ferramentas.

    O cálculo efetivo da janela de contexto para pensamento estendido com uso de ferramentas se torna:

    context window =
      (current input tokens + previous thinking tokens + tool use tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    O diagrama abaixo ilustra o gerenciamento de token para pensamento estendido com uso de ferramentas:

    Diagrama de janela de contexto com pensamento estendido e ferramentas

    Gerenciando tokens com pensamento estendido

    Dado o comportamento da janela de contexto e max_tokens com pensamento estendido em modelos Claude 3.7 e 4, você pode precisar:

    • Monitorar e gerenciar mais ativamente seu uso de token
    • Ajustar valores de max_tokens conforme o comprimento do seu prompt muda
    • Potencialmente usar os endpoints de contagem de tokens com mais frequência
    • Estar ciente de que blocos de pensamento anteriores não se acumulam em sua janela de contexto

    Esta mudança foi feita para fornecer comportamento mais previsível e transparente, especialmente conforme os limites de token máximo aumentaram significativamente.

    Criptografia de pensamento

    O conteúdo de pensamento completo é criptografado e retornado no campo signature. Este campo é usado para verificar que blocos de pensamento foram gerados por Claude quando passados de volta para a API.

    É apenas estritamente necessário enviar de volta blocos de pensamento ao usar ferramentas com pensamento estendido. Caso contrário, você pode omitir blocos de pensamento de turnos anteriores, ou deixar a API removê-los para você se você os passar de volta.

    Se enviar de volta blocos de pensamento, recomendamos passar tudo de volta como você recebeu para consistência e para evitar possíveis problemas.

    Aqui estão algumas considerações importantes sobre criptografia de pensamento:

    • Ao fazer streaming de respostas, a assinatura é adicionada via um signature_delta dentro de um evento content_block_delta logo antes do evento content_block_stop.
    • Valores de signature são significativamente mais longos em modelos Claude 4 do que em modelos anteriores.
    • O campo signature é um campo opaco e não deve ser interpretado ou analisado - ele existe apenas para fins de verificação.
    • Valores de signature são compatíveis entre plataformas (APIs Claude, Amazon Bedrock, e Vertex AI). Valores gerados em uma plataforma serão compatíveis com outra.

    Redação de pensamento

    Ocasionalmente, o raciocínio interno do Claude será sinalizado por nossos sistemas de segurança. Quando isto ocorre, criptografamos parte ou todo o bloco thinking e o retornamos para você como um bloco redacted_thinking. Blocos redacted_thinking são descriptografados quando passados de volta para a API, permitindo que Claude continue sua resposta sem perder contexto.

    Ao construir aplicações voltadas para o cliente que usam pensamento estendido:

    • Esteja ciente de que blocos de pensamento redatado contêm conteúdo criptografado que não é legível por humanos
    • Considere fornecer uma explicação simples como: "Parte do raciocínio interno do Claude foi automaticamente criptografada por razões de segurança. Isto não afeta a qualidade das respostas."
    • Se mostrar blocos de pensamento aos usuários, você pode filtrar blocos redatados enquanto preserva blocos de pensamento normais
    • Seja transparente que usar recursos de pensamento estendido pode ocasionalmente resultar em parte do raciocínio sendo criptografado
    • Implemente tratamento de erro apropriado para gerenciar graciosamente pensamento redatado sem quebrar sua UI

    Aqui está um exemplo mostrando blocos de pensamento normal e redatado:

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Ver blocos de pensamento redatado em sua saída é comportamento esperado. O modelo ainda pode usar este raciocínio redatado para informar suas respostas enquanto mantém proteções de segurança.

    Se você precisar testar o tratamento de pensamento redatado em sua aplicação, você pode usar esta string de teste especial como seu prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    Ao passar blocos thinking e redacted_thinking de volta para a API em uma conversa multi-turno, você deve incluir o bloco completo não modificado de volta para a API para o último turno do assistente. Isto é crítico para manter o fluxo de raciocínio do modelo. Sugerimos sempre passar de volta todos os blocos de pensamento para a API. Para mais detalhes, consulte a seção Preservando blocos de pensamento acima.

    Diferenças no pensamento entre versões de modelos

    A API de Mensagens lida com pensamento de forma diferente entre modelos Claude Sonnet 3.7 e Claude 4, principalmente no comportamento de redação e resumição.

    Consulte a tabela abaixo para uma comparação condensada:

    RecursoClaude Sonnet 3.7Modelos Claude 4
    Saída de PensamentoRetorna saída de pensamento completoRetorna pensamento resumido
    Pensamento IntercaladoNão suportadoSuportado com cabeçalho beta interleaved-thinking-2025-05-14

    Preços

    O pensamento estendido usa o esquema de preços de token padrão:

    ModeloTokens de Entrada BaseEscritas em CacheAcertos em CacheTokens de Saída
    Claude Opus 4.1$15 / MTok$18.75 / MTok$1.50 / MTok$75 / MTok
    Claude Opus 4$15 / MTok$18.75 / MTok$1.50 / MTok$75 / MTok
    Claude Sonnet 4.5$3 / MTok$3.75 / MTok$0.30 / MTok$15 / MTok
    Claude Sonnet 4$3 / MTok$3.75 / MTok$0.30 / MTok$15 / MTok
    Claude Sonnet 3.7$3 / MTok$3.75 / MTok$0.30 / MTok$15 / MTok

    O processo de pensamento incorre em cobranças por:

    • Tokens usados durante pensamento (tokens de saída)
    • Blocos de pensamento do último turno do assistente incluídos em solicitações subsequentes (tokens de entrada)
    • Tokens de saída de texto padrão

    Quando pensamento estendido está ativado, um prompt de sistema especializado é automaticamente incluído para suportar este recurso.

    Ao usar pensamento resumido:

    • Tokens de entrada: Tokens em sua solicitação original (exclui tokens de pensamento de turnos anteriores)
    • Tokens de saída (faturados): Os tokens de pensamento originais que Claude gerou internamente
    • Tokens de saída (visíveis): Os tokens de pensamento resumido que você vê na resposta
    • Sem cobrança: Tokens usados para gerar o resumo

    A contagem de tokens de saída faturados não corresponderá à contagem de tokens visível na resposta. Você é faturado pelo processo de pensamento completo, não pelo resumo que você vê.

    Melhores práticas e considerações para pensamento estendido

    Trabalhando com orçamentos de pensamento

    • Otimização de orçamento: O orçamento mínimo é 1.024 tokens. Sugerimos começar com o mínimo e aumentar o orçamento de pensamento incrementalmente para encontrar o intervalo ideal para seu caso de uso. Contagens de token mais altas permitem raciocínio mais abrangente, mas com retornos decrescentes dependendo da tarefa. Aumentar o orçamento pode melhorar a qualidade da resposta ao custo de latência aumentada. Para tarefas críticas, teste diferentes configurações para encontrar o equilíbrio ideal. Observe que o orçamento de pensamento é um alvo em vez de um limite rigoroso—o uso real de token pode variar com base na tarefa.
    • Pontos de partida: Comece com orçamentos de pensamento maiores (16k+ tokens) para tarefas complexas e ajuste com base em suas necessidades.
    • Orçamentos grandes: Para orçamentos de pensamento acima de 32k, recomendamos usar processamento em lote para evitar problemas de rede. Solicitações empurrando o modelo para pensar acima de 32k tokens causam solicitações de longa duração que podem se chocar contra limites de tempo do sistema e limites de conexão aberta.
    • Rastreamento de uso de token: Monitore o uso de token de pensamento para otimizar custos e desempenho.

    Considerações de desempenho

    • Tempos de resposta: Esteja preparado para tempos de resposta potencialmente mais longos devido ao processamento adicional necessário para o processo de raciocínio. Considere que gerar blocos de pensamento pode aumentar o tempo de resposta geral.
    • Requisitos de streaming: Streaming é necessário quando max_tokens é maior que 21.333. Ao fazer streaming, esteja preparado para lidar com blocos de conteúdo de pensamento e texto conforme chegam.

    Compatibilidade de recursos

    • Pensamento não é compatível com modificações de temperature ou top_k bem como uso forçado de ferramentas.
    • Quando pensamento está ativado, você pode definir top_p para valores entre 1 e 0.95.
    • Você não pode pré-preenchimento de respostas quando pensamento está ativado.
    • Mudanças no orçamento de pensamento invalidam prefixos de prompt em cache que incluem mensagens. No entanto, prompts de sistema em cache e definições de ferramentas continuarão funcionando quando os parâmetros de pensamento mudam.

    Diretrizes de uso

    • Seleção de tarefa: Use pensamento estendido para tarefas particularmente complexas que se beneficiam de raciocínio passo a passo como matemática, codificação e análise.
    • Tratamento de contexto: Você não precisa remover blocos de pensamento anteriores você mesmo. A API Claude automaticamente ignora blocos de pensamento de turnos anteriores e eles não são incluídos ao calcular o uso de contexto.
    • Engenharia de prompt: Revise nossas dicas de prompt de pensamento estendido se você quiser maximizar as capacidades de pensamento do Claude.

    Próximos passos

    Tente o livro de receitas de pensamento estendido

    Explore exemplos práticos de pensamento em nosso livro de receitas.

    Dicas de prompt de pensamento estendido

    Aprenda as melhores práticas de engenharia de prompt para pensamento estendido.

    • Modelos suportados
    • Como funciona o pensamento estendido
    • Como usar o pensamento estendido
    • Pensamento resumido
    • Pensamento em streaming
    • Pensamento estendido com uso de ferramentas
    • Alternando modos de pensamento em conversas
    • Preservando blocos de pensamento
    • Pensamento intercalado
    • Pensamento estendido com cache de prompt
    • Entendendo o comportamento de caching de bloco de pensamento
    • Tokens máximos e tamanho da janela de contexto com pensamento estendido
    • A janela de contexto com pensamento estendido
    • A janela de contexto com pensamento estendido e uso de ferramentas
    • Gerenciando tokens com pensamento estendido
    • Criptografia de pensamento
    • Redação de pensamento
    • Diferenças no pensamento entre versões de modelos
    • Preços
    • Melhores práticas e considerações para pensamento estendido
    • Trabalhando com orçamentos de pensamento
    • Considerações de desempenho
    • Compatibilidade de recursos
    • Diretrizes de uso
    • Próximos passos
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC