Claude Platform Docs
  • Messages
  • Managed Agents
  • Admin

Search...
⌘K
Primeiros passos
Introdução ao ClaudeInício rápido
Desenvolvendo com Claude
Visão geral dos recursosUsando a Messages APIMotivos de parada e fallbackRecusas e fallbackCrédito de fallback
Capacidades do modelo
Pensamento estendidoPensamento adaptativoEsforçoOrçamentos de tarefas (beta)Modo rápido (prévia de pesquisa)Saídas estruturadasCitaçõesStreaming de mensagensProcessamento em loteResultados de pesquisaStreaming de recusasSuporte multilíngueEmbeddings
Ferramentas
Visão geralComo funciona o uso de ferramentasTutorial: Crie um agente que usa ferramentasDefinir ferramentasLidar com chamadas de ferramentasUso de ferramentas em paraleloTool Runner (SDK)Uso de ferramentas estritoFerramentas de servidorFerramenta de pesquisa na webFerramenta de busca na webFerramenta de execução de códigoFerramenta de consultorFerramenta de busca de ferramentasFerramenta de memóriaFerramenta BashFerramenta de editor de textoFerramenta de uso de computadorSolução de problemas
Infraestrutura de ferramentas
Referência de ferramentasGerenciar contexto de ferramentasCombinações de ferramentasUso de ferramentas com cache de promptChamada programática de ferramentasStreaming granular de ferramentas
Gerenciamento de contexto
Janelas de contextoCompactaçãoEdição de contextoCache de promptMensagens de sistema no meio da conversaCriar um modo de orquestraçãoDiagnóstico de cache (beta)Contagem de tokens
Trabalhando com arquivos
Files APISuporte a PDF
Skills
Visão geralInício rápidoPráticas recomendadasSkills para empresasSkills na API
MCP
Servidores MCP remotosConector MCP
Claude em plataformas de nuvem
Amazon BedrockAmazon Bedrock (legado)Claude Platform na AWSGoogle CloudMicrosoft Foundry

Log in
Janelas de contexto
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messages/Gerenciamento de contexto

Janelas de contexto

Entenda como a janela de contexto funciona, como o pensamento estendido e o uso de ferramentas contam para ela, e como gerenciar o contexto à medida que as conversas crescem.


Este recurso é elegível para Zero Data Retention (ZDR). Quando sua organização possui um acordo de ZDR, os dados enviados por meio deste recurso não são armazenados após a resposta da API ser retornada.

À medida que as conversas crescem, você eventualmente se aproximará dos limites da janela de contexto. Para conversas de longa duração e fluxos de trabalho agênticos, a compactação no lado do servidor é a principal estratégia para gerenciamento de contexto.

Como a janela de contexto funciona

A "context window" (janela de contexto) refere-se a todo o texto que um modelo de linguagem pode referenciar ao gerar uma resposta, incluindo a própria resposta. Isso é diferente do grande corpus de dados em que o modelo de linguagem foi treinado, e representa uma "memória de trabalho" para o modelo. Uma janela de contexto maior permite que o modelo lide com prompts mais complexos e longos, mas mais contexto não é automaticamente melhor. À medida que a contagem de tokens cresce, a precisão e a recuperação de informações se degradam, um fenômeno conhecido como context rot (deterioração de contexto). Isso torna a curadoria do que está no contexto tão importante quanto a quantidade de espaço disponível.



Para saber mais sobre por que contextos longos se degradam e como fazer engenharia em torno disso, consulte Effective context engineering.

O diagrama a seguir ilustra o comportamento padrão da janela de contexto para requisições de API1:

Diagrama de turnos acumulando na janela de contexto até que a conversa se aproxime do limite de tokens

1Interfaces de chat como claude.ai também podem gerenciar a janela de contexto em uma base rotativa de "primeiro a entrar, primeiro a sair".

  • Acumulação progressiva de tokens: À medida que a conversa avança pelos turnos, cada mensagem do usuário e resposta do assistente se acumula dentro da janela de contexto, e os turnos anteriores são preservados completamente.
  • Capacidade da janela de contexto: A janela de contexto (até 1M de tokens, dependendo do modelo) contém o histórico da conversa mais a nova saída que o Claude gera.
  • Fluxo de entrada-saída: Cada turno consiste em:
    • Fase de entrada: Contém todo o histórico de conversa anterior mais a mensagem atual do usuário
    • Fase de saída: Gera uma resposta de texto que se torna parte da entrada para o próximo turno

Tudo na requisição conta para a janela de contexto: o prompt do sistema, cada mensagem em messages (incluindo resultados de ferramentas, imagens e documentos) e suas definições de ferramentas. A saída que o Claude gera para o turno, incluindo seu pensamento estendido, também conta. Cada resposta informa o que a requisição consumiu em seu campo usage. Se você usar cache de prompt, a contagem de entrada é dividida entre input_tokens, cache_read_input_tokens e cache_creation_input_tokens, e todos os três contam para a janela. Para estimar uma requisição antes de enviá-la, use a API de contagem de tokens.

Tamanhos de janela de contexto por modelo

Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 e Claude Sonnet 4.6 têm uma janela de contexto de 1M de tokens na API do Claude, Amazon Bedrock, Google Cloud e Microsoft Foundry. Claude Mythos Preview também tem uma janela de contexto de 1M de tokens.

Claude Fable 5 e Claude Mythos 5 (claude-fable-5 e claude-mythos-5) têm uma janela de contexto de 1M de tokens, e uma única requisição a esses modelos pode gerar até 128k tokens de saída (max_tokens). Outros modelos Claude, incluindo Claude Sonnet 4.5, têm uma janela de contexto de 200k tokens.

Para todos os modelos com janela de contexto de 1M de tokens, 1M é o padrão: você não precisa de um cabeçalho beta, e requisições de contexto longo são cobradas com preços padrão.

Uma única requisição pode incluir até 600 imagens ou páginas de PDF (100 para modelos com janela de contexto de 200k tokens). Se você enviar muitas imagens ou documentos grandes, pode atingir os limites de tamanho de requisição antes do limite de tokens.

Consulte a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto por modelo.

A janela de contexto com pensamento estendido

Com pensamento estendido, todos os tokens de entrada e saída, incluindo tokens de pensamento, contam para o limite da janela de contexto, com algumas nuances em situações de múltiplos turnos.

Os tokens de orçamento de pensamento são um subconjunto do seu parâmetro max_tokens, são cobrados como tokens de saída e contam para os limites de taxa. Com pensamento adaptativo, o Claude determina sua alocação de pensamento dinamicamente, então o uso de tokens de pensamento varia de requisição para requisição.

Se os blocos de pensamento de turnos anteriores do assistente permanecem na janela de contexto depende do modelo. No Claude Opus 4.5 e modelos Opus posteriores, Claude Sonnet 4.6 e modelos Sonnet posteriores, Claude Fable 5, Claude Mythos 5 e Claude Mythos Preview, a API mantém os blocos de pensamento anteriores por padrão, e eles contam para a janela de contexto como quaisquer outros tokens de entrada. Em modelos Opus e Sonnet anteriores e em todos os modelos Haiku, a API remove automaticamente os blocos de pensamento anteriores do histórico da conversa quando você os passa de volta, o que preserva capacidade de tokens para o conteúdo da conversa. Para os padrões por modelo, consulte preservação de blocos de pensamento por modelo. Para substituir o padrão em qualquer direção, use limpeza de blocos de pensamento.

O diagrama a seguir mostra como os tokens são gerenciados quando o pensamento estendido está habilitado em um modelo que remove blocos de pensamento anteriores:

Diagrama de pensamento estendido em um modelo que remove blocos de pensamento anteriores: o bloco de pensamento de cada turno é gerado na saída e não é transportado para a entrada de turnos posteriores

  • Remoção de pensamento estendido: Em modelos que removem blocos de pensamento anteriores, os blocos de pensamento estendido (mostrados em cinza escuro) são gerados durante a fase de saída de cada turno, mas não são transportados como tokens de entrada para turnos subsequentes. Você não precisa remover os blocos de pensamento por conta própria: se você os passar de volta, a API do Claude os remove automaticamente.
  • Cobrança: Tokens de pensamento estendido são cobrados como tokens de saída uma vez, quando são gerados. Em modelos que mantêm blocos de pensamento anteriores, os blocos mantidos passam a fazer parte da entrada de requisições posteriores e são cobrados como tokens de entrada, assim como o restante do histórico da conversa.


Você pode ler mais sobre a janela de contexto e o pensamento estendido no guia de Pensamento estendido.

A janela de contexto com pensamento estendido e uso de ferramentas

O diagrama a seguir ilustra como os tokens são gerenciados quando você combina pensamento estendido com uso de ferramentas em um modelo que remove blocos de pensamento anteriores:

Diagrama de pensamento estendido com uso de ferramentas: o pensamento é mantido com seu resultado de ferramenta, depois descartado no próximo turno do usuário em modelos que removem blocos de pensamento anteriores

  1. 1

    Arquitetura do primeiro turno

    • Componentes de entrada: Configuração de ferramentas e mensagem do usuário
    • Componentes de saída: Pensamento estendido + resposta de texto + requisição de uso de ferramenta
    • Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são cobrados como tokens de saída.
  2. 2

    Tratamento do resultado da ferramenta (turno 2)

    • Componentes de entrada: Cada bloco do primeiro turno e o tool_result. Você deve retornar o bloco de pensamento estendido com os resultados de ferramenta correspondentes. Este é o único caso em que você precisa retornar blocos de pensamento.
    • Componentes de saída: Depois que os resultados da ferramenta são passados de volta ao Claude, o Claude responde apenas com texto (sem pensamento estendido adicional até a próxima mensagem user, a menos que o pensamento intercalado esteja habilitado).
    • Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são cobrados como tokens de saída.
  3. 3

    Novo turno do usuário (turno 3)

    • Componentes de entrada: Todas as entradas e a saída do turno anterior são transportadas. O bloco de pensamento do ciclo de uso de ferramenta concluído não precisa mais permanecer no contexto: em modelos que removem blocos de pensamento anteriores, a API o descarta automaticamente quando você o passa de volta, e em modelos que mantêm blocos de pensamento anteriores, você mesmo pode removê-lo nesta etapa. É também aqui que você adiciona o próximo turno user.
    • Componentes de saída: Como há um novo turno user fora do ciclo de uso de ferramenta, o Claude gera um novo bloco de pensamento estendido e continua a partir daí.
    • Cálculo de tokens: Em modelos que removem blocos de pensamento anteriores, os tokens de pensamento anteriores não contam mais para a janela de contexto. Todos os outros blocos anteriores ainda contam para a janela de contexto, assim como o bloco de pensamento no turno assistant atual.
  • Considerações para uso de ferramentas com pensamento estendido:
    • Quando você envia resultados de ferramentas, deve incluir o bloco de pensamento inteiro e não modificado que acompanha aquela requisição de ferramenta, incluindo sua assinatura.
    • A API usa assinaturas criptográficas para verificar a autenticidade do bloco de pensamento. Se você modificar um bloco de pensamento, a API retorna um erro.


A maioria dos modelos Claude atuais suporta pensamento intercalado, que permite ao Claude pensar entre chamadas de ferramentas, inclusive depois de receber resultados de ferramentas. É automático em modelos com pensamento adaptativo. Claude Opus 4.5, Claude Sonnet 4.5 e modelos Claude 4 anteriores exigem o cabeçalho beta interleaved-thinking-2025-05-14.

Para mais informações sobre o uso de ferramentas com pensamento estendido, consulte Pensamento estendido com uso de ferramentas.

Para reduzir o contexto consumido pelas próprias definições de ferramentas, consulte Gerenciar contexto de ferramentas, ou adie as definições de ferramentas com a ferramenta de busca de ferramentas.

Consciência de contexto

Claude Sonnet 5, Claude Sonnet 4.6, Claude Sonnet 4.5 e Claude Haiku 4.5 têm consciência de contexto: esses modelos rastreiam sua janela de contexto restante (seu "orçamento de tokens") ao longo de uma conversa. Isso permite que o modelo gerencie tarefas de longa duração em relação ao espaço que resta, em vez de adivinhar quantos tokens restam. A consciência de contexto é automática: não há nada para você habilitar, e você nunca envia as tags mostradas nesta seção por conta própria. A API as injeta.

Como funciona

No prompt do sistema de cada requisição, a API informa ao Claude sua janela de contexto total:

<budget:token_budget>200000</budget:token_budget>

O orçamento corresponde à janela de contexto disponível para sua requisição: 1M de tokens para Claude Sonnet 5 e Claude Sonnet 4.6, e 200k tokens para Claude Sonnet 4.5 e Claude Haiku 4.5. Os exemplos nesta seção mostram um modelo com uma janela de contexto de 200k tokens.

Após cada chamada de ferramenta, a API fornece ao Claude uma atualização sobre sua capacidade restante:

<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

Tokens de imagem estão incluídos nesses orçamentos.

Modelos mais recentes não recebem essas tags injetadas. No Claude Opus 4.7 e posteriores, Claude Fable 5 e Claude Mythos 5, você pode dar ao modelo um orçamento explícito com orçamentos de tarefa, que estão em beta.



Para agentes que abrangem múltiplas sessões, projete seus artefatos de estado de forma que a recuperação de contexto seja rápida quando uma nova sessão começar. O padrão de múltiplas sessões da ferramenta de memória apresenta uma abordagem concreta. Consulte também Effective harnesses for long-running agents.

Para orientações de prompting sobre o uso da consciência de contexto, consulte Melhores práticas de prompting.

Gerenciar contexto com compactação

Se suas conversas se aproximam regularmente dos limites da janela de contexto, use compactação no lado do servidor. A compactação resume automaticamente partes anteriores da conversa no servidor, para que a conversa possa continuar além do limite da janela de contexto. Está disponível em beta para Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 5 e Claude Sonnet 4.6.

Para necessidades mais especializadas, a edição de contexto oferece estratégias adicionais:

  • Limpeza de resultados de ferramentas: Limpe resultados antigos de ferramentas em fluxos de trabalho agênticos
  • Limpeza de blocos de pensamento: Gerencie blocos de pensamento quando você usa pensamento estendido

Prefixos de prompt em cache ainda ocupam a janela de contexto: o cache de prompt muda o que você paga por esses tokens, não se eles contam.

Comportamento de estouro da janela de contexto

Se a entrada sozinha já exceder a janela de contexto do modelo, a API retorna um erro 400 invalid_request_error ("prompt is too long") em todos os modelos.

Em modelos Claude 4.5 e mais recentes, se os tokens de entrada mais max_tokens excederem o tamanho da janela de contexto, a API aceita a requisição. Se a geração então atingir o limite da janela de contexto, ela para com stop_reason: "model_context_window_exceeded". Em modelos anteriores, a API retorna um erro de validação em vez disso. Para optar pelo comportamento model_context_window_exceeded nesses modelos, use o cabeçalho beta model-context-window-exceeded-2025-08-26. Consulte Motivos de parada e fallback para detalhes.

Para permanecer dentro dos limites da janela de contexto, use a API de contagem de tokens para estimar o uso de tokens antes de enviar mensagens ao Claude.

Próximos passos

Compactação

Compactação de contexto no lado do servidor para gerenciar conversas longas que se aproximam dos limites da janela de contexto.


Edição de contexto

Gerencie automaticamente o contexto da conversa à medida que ele cresce com a edição de contexto.

Tabela de comparação de modelos

Consulte a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto e preços de tokens de entrada/saída por modelo.


Pensamento estendido

Dê ao Claude raciocínio aprimorado para tarefas complexas e controle como o conteúdo de pensamento é retornado.

Was this page helpful?

  • Como a janela de contexto funciona
  • Tamanhos de janela de contexto por modelo
  • A janela de contexto com pensamento estendido
  • A janela de contexto com pensamento estendido e uso de ferramentas
  • Consciência de contexto
  • Como funciona
  • Gerenciar contexto com compactação
  • Comportamento de estouro da janela de contexto
  • Próximos passos