Este recurso é elegível para Zero Data Retention (ZDR). Quando sua organização possui um acordo de ZDR, os dados enviados por meio deste recurso não são armazenados após a resposta da API ser retornada.
À medida que as conversas crescem, você eventualmente se aproximará dos limites da janela de contexto. Para conversas de longa duração e fluxos de trabalho agênticos, a compactação no lado do servidor é a principal estratégia para gerenciamento de contexto.
A "context window" (janela de contexto) refere-se a todo o texto que um modelo de linguagem pode referenciar ao gerar uma resposta, incluindo a própria resposta. Isso é diferente do grande corpus de dados em que o modelo de linguagem foi treinado, e representa uma "memória de trabalho" para o modelo. Uma janela de contexto maior permite que o modelo lide com prompts mais complexos e longos, mas mais contexto não é automaticamente melhor. À medida que a contagem de tokens cresce, a precisão e a recuperação de informações se degradam, um fenômeno conhecido como context rot (deterioração de contexto). Isso torna a curadoria do que está no contexto tão importante quanto a quantidade de espaço disponível.
Para saber mais sobre por que contextos longos se degradam e como fazer engenharia em torno disso, consulte Effective context engineering.
O diagrama a seguir ilustra o comportamento padrão da janela de contexto para requisições de API1:
1Interfaces de chat como claude.ai também podem gerenciar a janela de contexto em uma base rotativa de "primeiro a entrar, primeiro a sair".
Tudo na requisição conta para a janela de contexto: o prompt do sistema, cada mensagem em messages (incluindo resultados de ferramentas, imagens e documentos) e suas definições de ferramentas. A saída que o Claude gera para o turno, incluindo seu pensamento estendido, também conta. Cada resposta informa o que a requisição consumiu em seu campo usage. Se você usar cache de prompt, a contagem de entrada é dividida entre input_tokens, cache_read_input_tokens e cache_creation_input_tokens, e todos os três contam para a janela. Para estimar uma requisição antes de enviá-la, use a API de contagem de tokens.
Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 e Claude Sonnet 4.6 têm uma janela de contexto de 1M de tokens na API do Claude, Amazon Bedrock, Google Cloud e Microsoft Foundry. Claude Mythos Preview também tem uma janela de contexto de 1M de tokens.
Claude Fable 5 e Claude Mythos 5 (claude-fable-5 e claude-mythos-5) têm uma janela de contexto de 1M de tokens, e uma única requisição a esses modelos pode gerar até 128k tokens de saída (max_tokens). Outros modelos Claude, incluindo Claude Sonnet 4.5, têm uma janela de contexto de 200k tokens.
Para todos os modelos com janela de contexto de 1M de tokens, 1M é o padrão: você não precisa de um cabeçalho beta, e requisições de contexto longo são cobradas com preços padrão.
Uma única requisição pode incluir até 600 imagens ou páginas de PDF (100 para modelos com janela de contexto de 200k tokens). Se você enviar muitas imagens ou documentos grandes, pode atingir os limites de tamanho de requisição antes do limite de tokens.
Consulte a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto por modelo.
Com pensamento estendido, todos os tokens de entrada e saída, incluindo tokens de pensamento, contam para o limite da janela de contexto, com algumas nuances em situações de múltiplos turnos.
Os tokens de orçamento de pensamento são um subconjunto do seu parâmetro max_tokens, são cobrados como tokens de saída e contam para os limites de taxa. Com pensamento adaptativo, o Claude determina sua alocação de pensamento dinamicamente, então o uso de tokens de pensamento varia de requisição para requisição.
Se os blocos de pensamento de turnos anteriores do assistente permanecem na janela de contexto depende do modelo. No Claude Opus 4.5 e modelos Opus posteriores, Claude Sonnet 4.6 e modelos Sonnet posteriores, Claude Fable 5, Claude Mythos 5 e Claude Mythos Preview, a API mantém os blocos de pensamento anteriores por padrão, e eles contam para a janela de contexto como quaisquer outros tokens de entrada. Em modelos Opus e Sonnet anteriores e em todos os modelos Haiku, a API remove automaticamente os blocos de pensamento anteriores do histórico da conversa quando você os passa de volta, o que preserva capacidade de tokens para o conteúdo da conversa. Para os padrões por modelo, consulte preservação de blocos de pensamento por modelo. Para substituir o padrão em qualquer direção, use limpeza de blocos de pensamento.
O diagrama a seguir mostra como os tokens são gerenciados quando o pensamento estendido está habilitado em um modelo que remove blocos de pensamento anteriores:
Você pode ler mais sobre a janela de contexto e o pensamento estendido no guia de Pensamento estendido.
O diagrama a seguir ilustra como os tokens são gerenciados quando você combina pensamento estendido com uso de ferramentas em um modelo que remove blocos de pensamento anteriores:
Arquitetura do primeiro turno
Tratamento do resultado da ferramenta (turno 2)
tool_result. Você deve retornar o bloco de pensamento estendido com os resultados de ferramenta correspondentes. Este é o único caso em que você precisa retornar blocos de pensamento.user, a menos que o pensamento intercalado esteja habilitado).Novo turno do usuário (turno 3)
user.user fora do ciclo de uso de ferramenta, o Claude gera um novo bloco de pensamento estendido e continua a partir daí.assistant atual.A maioria dos modelos Claude atuais suporta pensamento intercalado, que permite ao Claude pensar entre chamadas de ferramentas, inclusive depois de receber resultados de ferramentas. É automático em modelos com pensamento adaptativo. Claude Opus 4.5, Claude Sonnet 4.5 e modelos Claude 4 anteriores exigem o cabeçalho beta interleaved-thinking-2025-05-14.
Para mais informações sobre o uso de ferramentas com pensamento estendido, consulte Pensamento estendido com uso de ferramentas.
Para reduzir o contexto consumido pelas próprias definições de ferramentas, consulte Gerenciar contexto de ferramentas, ou adie as definições de ferramentas com a ferramenta de busca de ferramentas.
Claude Sonnet 5, Claude Sonnet 4.6, Claude Sonnet 4.5 e Claude Haiku 4.5 têm consciência de contexto: esses modelos rastreiam sua janela de contexto restante (seu "orçamento de tokens") ao longo de uma conversa. Isso permite que o modelo gerencie tarefas de longa duração em relação ao espaço que resta, em vez de adivinhar quantos tokens restam. A consciência de contexto é automática: não há nada para você habilitar, e você nunca envia as tags mostradas nesta seção por conta própria. A API as injeta.
No prompt do sistema de cada requisição, a API informa ao Claude sua janela de contexto total:
<budget:token_budget>200000</budget:token_budget>O orçamento corresponde à janela de contexto disponível para sua requisição: 1M de tokens para Claude Sonnet 5 e Claude Sonnet 4.6, e 200k tokens para Claude Sonnet 4.5 e Claude Haiku 4.5. Os exemplos nesta seção mostram um modelo com uma janela de contexto de 200k tokens.
Após cada chamada de ferramenta, a API fornece ao Claude uma atualização sobre sua capacidade restante:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Tokens de imagem estão incluídos nesses orçamentos.
Modelos mais recentes não recebem essas tags injetadas. No Claude Opus 4.7 e posteriores, Claude Fable 5 e Claude Mythos 5, você pode dar ao modelo um orçamento explícito com orçamentos de tarefa, que estão em beta.
Para agentes que abrangem múltiplas sessões, projete seus artefatos de estado de forma que a recuperação de contexto seja rápida quando uma nova sessão começar. O padrão de múltiplas sessões da ferramenta de memória apresenta uma abordagem concreta. Consulte também Effective harnesses for long-running agents.
Para orientações de prompting sobre o uso da consciência de contexto, consulte Melhores práticas de prompting.
Se suas conversas se aproximam regularmente dos limites da janela de contexto, use compactação no lado do servidor. A compactação resume automaticamente partes anteriores da conversa no servidor, para que a conversa possa continuar além do limite da janela de contexto. Está disponível em beta para Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 e Claude Sonnet 4.6.
Para necessidades mais especializadas, a edição de contexto oferece estratégias adicionais:
Prefixos de prompt em cache ainda ocupam a janela de contexto: o cache de prompt muda o que você paga por esses tokens, não se eles contam.
Se a entrada sozinha já exceder a janela de contexto do modelo, a API retorna um erro 400 invalid_request_error ("prompt is too long") em todos os modelos.
Em modelos Claude 4.5 e mais recentes, se os tokens de entrada mais max_tokens excederem o tamanho da janela de contexto, a API aceita a requisição. Se a geração então atingir o limite da janela de contexto, ela para com stop_reason: "model_context_window_exceeded". Em modelos anteriores, a API retorna um erro de validação em vez disso. Para optar pelo comportamento model_context_window_exceeded nesses modelos, use o cabeçalho beta model-context-window-exceeded-2025-08-26. Consulte Motivos de parada e fallback para detalhes.
Para permanecer dentro dos limites da janela de contexto, use a API de contagem de tokens para estimar o uso de tokens antes de enviar mensagens ao Claude.
Compactação de contexto no lado do servidor para gerenciar conversas longas que se aproximam dos limites da janela de contexto.
Gerencie automaticamente o contexto da conversa à medida que ele cresce com a edição de contexto.
Consulte a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto e preços de tokens de entrada/saída por modelo.
Dê ao Claude raciocínio aprimorado para tarefas complexas e controle como o conteúdo de pensamento é retornado.
Was this page helpful?