Janelas de contexto

ConstruirGerenciamento de contexto

Janelas de contexto

Entenda como as janelas de contexto funcionam e aprenda estratégias para gerenciá-las efetivamente em conversas longas e fluxos de trabalho com agentes.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

À medida que as conversas crescem, você eventualmente se aproximará dos limites da janela de contexto. Este guia explica como as janelas de contexto funcionam e apresenta estratégias para gerenciá-las efetivamente.

Para conversas de longa duração e fluxos de trabalho com agentes, compactação do lado do servidor é a estratégia principal para gerenciamento de contexto. Para necessidades mais especializadas, edição de contexto oferece estratégias adicionais como limpeza de resultados de ferramentas e limpeza de blocos de pensamento.

Entendendo a janela de contexto

A "janela de contexto" refere-se a todo o texto que um modelo de linguagem pode referenciar ao gerar uma resposta, incluindo a resposta em si. Isso é diferente do grande corpus de dados em que o modelo de linguagem foi treinado e, em vez disso, representa uma "memória de trabalho" para o modelo. Uma janela de contexto maior permite que o modelo lide com prompts mais complexos e longos, mas mais contexto não é automaticamente melhor. À medida que a contagem de tokens cresce, a precisão e a recuperação se degradam, um fenômeno conhecido como context rot. Isso torna a curação do que está em contexto tão importante quanto o espaço disponível.

Claude alcança resultados de ponta em benchmarks de recuperação de contexto longo como MRCR e GraphWalks, mas esses ganhos dependem do que está em contexto, não apenas de quanto cabe.

Para uma análise profunda sobre por que contextos longos se degradam e como contornar isso, veja Engenharia de contexto efetiva.

O diagrama abaixo ilustra o comportamento padrão da janela de contexto para solicitações de API¹:

Diagrama da janela de contexto

¹Para interfaces de chat, como para claude.ai, as janelas de contexto também podem ser configuradas em um sistema "primeiro a entrar, primeiro a sair" contínuo.

Acúmulo progressivo de tokens: À medida que a conversa avança através de turnos, cada mensagem do usuário e resposta do assistente se acumulam dentro da janela de contexto. Os turnos anteriores são preservados completamente.
Padrão de crescimento linear: O uso de contexto cresce linearmente com cada turno, com turnos anteriores preservados completamente.
Capacidade da janela de contexto: A janela de contexto total disponível (até 1M de tokens) representa a capacidade máxima para armazenar histórico de conversa e gerar nova saída do Claude.
Fluxo de entrada-saída: Cada turno consiste em:
- Fase de entrada: Contém todo o histórico de conversa anterior mais a mensagem atual do usuário
- Fase de saída: Gera uma resposta de texto que se torna parte de uma entrada futura

A janela de contexto com pensamento estendido

Ao usar pensamento estendido, todos os tokens de entrada e saída, incluindo os tokens usados para pensamento, contam para o limite da janela de contexto, com algumas nuances em situações multi-turno.

Os tokens do orçamento de pensamento são um subconjunto do seu parâmetro max_tokens, são cobrados como tokens de saída e contam para os limites de taxa. Com pensamento adaptativo, Claude decide dinamicamente sua alocação de pensamento, então o uso real de tokens de pensamento pode variar por solicitação.

No entanto, blocos de pensamento anteriores são automaticamente removidos do cálculo da janela de contexto pela API Claude e não fazem parte do histórico de conversa que o modelo "vê" para turnos subsequentes, preservando a capacidade de tokens para conteúdo de conversa real.

O diagrama abaixo demonstra o gerenciamento especializado de tokens quando o pensamento estendido está ativado:

Diagrama da janela de contexto com pensamento estendido

Remoção de pensamento estendido: Blocos de pensamento estendido (mostrados em cinza escuro) são gerados durante a fase de saída de cada turno, mas não são levados adiante como tokens de entrada para turnos subsequentes. Você não precisa remover os blocos de pensamento você mesmo. A API Claude faz isso automaticamente para você se você os passar de volta.
Detalhes de implementação técnica:
- A API automaticamente exclui blocos de pensamento de turnos anteriores quando você os passa de volta como parte do histórico de conversa.
- Tokens de pensamento estendido são cobrados como tokens de saída apenas uma vez, durante sua geração.
- O cálculo efetivo da janela de contexto se torna: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
- Tokens de pensamento incluem blocos thinking.

Esta arquitetura é eficiente em tokens e permite raciocínio extensivo sem desperdício de tokens, já que blocos de pensamento podem ser substanciais em comprimento.

Você pode ler mais sobre a janela de contexto e pensamento estendido no guia de pensamento estendido.

A janela de contexto com pensamento estendido e uso de ferramentas

O diagrama abaixo ilustra o gerenciamento de tokens da janela de contexto ao combinar pensamento estendido com uso de ferramentas:

Diagrama da janela de contexto com pensamento estendido e uso de ferramentas

Arquitetura do primeiro turno
- Componentes de entrada: Configuração de ferramentas e mensagem do usuário
- Componentes de saída: Pensamento estendido + resposta de texto + solicitação de uso de ferramenta
- Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são cobrados como tokens de saída.
Manipulação de resultado de ferramenta (turno 2)
- Componentes de entrada: Cada bloco do primeiro turno bem como o tool_result. O bloco de pensamento estendido deve ser retornado com os resultados de ferramenta correspondentes. Este é o único caso em que você tem que retornar blocos de pensamento.
- Componentes de saída: Depois que os resultados de ferramenta foram passados de volta para Claude, Claude responderá apenas com texto (sem pensamento estendido adicional até a próxima mensagem user).
- Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são cobrados como tokens de saída.
Terceiro Passo
- Componentes de entrada: Todas as entradas e a saída do turno anterior são levadas adiante com a exceção do bloco de pensamento, que pode ser descartado agora que Claude completou todo o ciclo de uso de ferramenta. A API removerá automaticamente o bloco de pensamento para você se você o passar de volta, ou você pode se sentir livre para removê-lo você mesmo neste estágio. Este é também o lugar onde você adicionaria o próximo turno User.
- Componentes de saída: Como há um novo turno User fora do ciclo de uso de ferramenta, Claude gera um novo bloco de pensamento estendido e continua a partir daí.
- Cálculo de tokens: Tokens de pensamento anteriores são automaticamente removidos dos cálculos da janela de contexto. Todos os outros blocos anteriores ainda contam como parte da janela de tokens, e o bloco de pensamento no turno Assistant atual conta como parte da janela de contexto.

Considerações para uso de ferramentas com pensamento estendido:
- Ao postar resultados de ferramenta, o bloco de pensamento inteiro e não modificado que acompanha essa solicitação de ferramenta específica (incluindo porções de assinatura) deve ser incluído.
- O cálculo efetivo da janela de contexto para pensamento estendido com uso de ferramentas se torna: context_window = input_tokens + current_turn_tokens.
- O sistema usa assinaturas criptográficas para verificar a autenticidade do bloco de pensamento. Falhar em preservar blocos de pensamento durante o uso de ferramentas pode quebrar a continuidade de raciocínio do Claude. Assim, se você modificar blocos de pensamento, a API retorna um erro.

Modelos Claude 4 suportam pensamento intercalado, que permite que Claude pense entre chamadas de ferramenta e faça raciocínio mais sofisticado após receber resultados de ferramenta.

Claude Sonnet 3.7 não suporta pensamento intercalado, então não há intercalação de pensamento estendido e chamadas de ferramenta sem um turno de usuário não-tool_result no meio.

Para mais informações sobre como usar ferramentas com pensamento estendido, veja o guia de pensamento estendido.

Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6 têm uma janela de contexto de 1M de tokens. Outros modelos Claude, incluindo Claude Sonnet 4.5 e Sonnet 4 (descontinuado), têm uma janela de contexto de 200k de tokens.

Uma única solicitação pode incluir até 600 imagens ou páginas de PDF (100 para modelos com uma janela de contexto de 200k de tokens). Ao enviar muitas imagens ou documentos grandes, você pode se aproximar dos limites de tamanho de solicitação antes do limite de tokens.

Consciência de contexto em Claude Sonnet 4.6, Sonnet 4.5 e Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5 e Claude Haiku 4.5 apresentam consciência de contexto. Esta capacidade permite que esses modelos rastreiem sua janela de contexto restante (ou seja, "orçamento de tokens") ao longo de uma conversa. Isso permite que Claude execute tarefas e gerencie contexto de forma mais eficaz, entendendo quanto espaço tem para trabalhar. Claude é treinado para usar este contexto com precisão, persistindo na tarefa até o final em vez de adivinhar quantos tokens permanecem. Para um modelo, a falta de consciência de contexto é como competir em um programa de culinária sem um relógio. Modelos Claude 4.5+ mudam isso informando explicitamente ao modelo sobre seu contexto restante, para que possa aproveitar ao máximo os tokens disponíveis.

Como funciona:

No início de uma conversa, Claude recebe informações sobre sua janela de contexto total:

<budget:token_budget>1000000</budget:token_budget>

O orçamento é definido para 1M de tokens (200k para modelos com uma janela de contexto menor).

Após cada chamada de ferramenta, Claude recebe uma atualização sobre a capacidade restante:

<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

Esta consciência ajuda Claude a determinar quanto de capacidade permanece para trabalho e permite execução mais eficaz em tarefas de longa duração. Tokens de imagem são incluídos nestes orçamentos.

Benefícios:

A consciência de contexto é particularmente valiosa para:

Sessões de agente de longa duração que requerem foco sustentado
Fluxos de trabalho de múltiplas janelas de contexto onde transições de estado importam
Tarefas complexas que requerem gerenciamento cuidadoso de tokens

Para agentes que abrangem múltiplas sessões, projete seus artefatos de estado para que a recuperação de contexto seja rápida quando uma nova sessão começar. O padrão multi-sessão da ferramenta de memória percorre uma abordagem concreta. Veja também Arneses eficazes para agentes de longa duração.

Para orientação de prompting sobre como aproveitar a consciência de contexto, veja o guia de melhores práticas de prompting.

Gerenciando contexto com compactação

Se suas conversas regularmente se aproximam dos limites da janela de contexto, compactação do lado do servidor é a abordagem recomendada. Compactação fornece sumarização do lado do servidor que automaticamente condensa partes anteriores de uma conversa, permitindo conversas de longa duração além dos limites de contexto com trabalho de integração mínimo. Atualmente está disponível em beta para Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6.

Para necessidades mais especializadas, edição de contexto oferece estratégias adicionais:

Limpeza de resultado de ferramenta - Limpe resultados de ferramenta antigos em fluxos de trabalho com agentes
Limpeza de bloco de pensamento - Gerencie blocos de pensamento com pensamento estendido

Gerenciamento da janela de contexto com modelos Claude mais novos

Modelos Claude mais novos (começando com Claude Sonnet 3.7) retornam um erro de validação quando tokens de prompt e saída excedem a janela de contexto, em vez de truncar silenciosamente. Esta mudança fornece comportamento mais previsível, mas requer gerenciamento de tokens mais cuidadoso.

Use a API de contagem de tokens para estimar o uso de tokens antes de enviar mensagens para Claude. Isso ajuda você a planejar e permanecer dentro dos limites da janela de contexto.

Veja a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto por modelo.

Próximos passos

Compactação

A estratégia recomendada para gerenciar contexto em conversas de longa duração.

Edição de contexto

Estratégias de granulação fina como limpeza de resultado de ferramenta e limpeza de bloco de pensamento.

Tabela de comparação de modelos

Veja a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto e preços de tokens de entrada/saída por modelo.

Visão geral de pensamento estendido

Saiba mais sobre como o pensamento estendido funciona e como implementá-lo junto com outros recursos, como uso de ferramentas e cache de prompt.

Was this page helpful?

ConstruirGerenciamento de contexto

Janelas de contexto

Entenda como as janelas de contexto funcionam e aprenda estratégias para gerenciá-las efetivamente em conversas longas e fluxos de trabalho com agentes.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Entendendo a janela de contexto

Claude alcança resultados de ponta em benchmarks de recuperação de contexto longo como MRCR e GraphWalks, mas esses ganhos dependem do que está em contexto, não apenas de quanto cabe.

Para uma análise profunda sobre por que contextos longos se degradam e como contornar isso, veja Engenharia de contexto efetiva.

O diagrama abaixo ilustra o comportamento padrão da janela de contexto para solicitações de API¹:

Diagrama da janela de contexto

¹Para interfaces de chat, como para claude.ai, as janelas de contexto também podem ser configuradas em um sistema "primeiro a entrar, primeiro a sair" contínuo.

Acúmulo progressivo de tokens: À medida que a conversa avança através de turnos, cada mensagem do usuário e resposta do assistente se acumulam dentro da janela de contexto. Os turnos anteriores são preservados completamente.
Padrão de crescimento linear: O uso de contexto cresce linearmente com cada turno, com turnos anteriores preservados completamente.
Capacidade da janela de contexto: A janela de contexto total disponível (até 1M de tokens) representa a capacidade máxima para armazenar histórico de conversa e gerar nova saída do Claude.
Fluxo de entrada-saída: Cada turno consiste em:
- Fase de entrada: Contém todo o histórico de conversa anterior mais a mensagem atual do usuário
- Fase de saída: Gera uma resposta de texto que se torna parte de uma entrada futura

A janela de contexto com pensamento estendido

O diagrama abaixo demonstra o gerenciamento especializado de tokens quando o pensamento estendido está ativado:

Diagrama da janela de contexto com pensamento estendido

Remoção de pensamento estendido: Blocos de pensamento estendido (mostrados em cinza escuro) são gerados durante a fase de saída de cada turno, mas não são levados adiante como tokens de entrada para turnos subsequentes. Você não precisa remover os blocos de pensamento você mesmo. A API Claude faz isso automaticamente para você se você os passar de volta.
Detalhes de implementação técnica:
- A API automaticamente exclui blocos de pensamento de turnos anteriores quando você os passa de volta como parte do histórico de conversa.
- Tokens de pensamento estendido são cobrados como tokens de saída apenas uma vez, durante sua geração.
- O cálculo efetivo da janela de contexto se torna: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
- Tokens de pensamento incluem blocos thinking.

Esta arquitetura é eficiente em tokens e permite raciocínio extensivo sem desperdício de tokens, já que blocos de pensamento podem ser substanciais em comprimento.

Você pode ler mais sobre a janela de contexto e pensamento estendido no guia de pensamento estendido.

A janela de contexto com pensamento estendido e uso de ferramentas

O diagrama abaixo ilustra o gerenciamento de tokens da janela de contexto ao combinar pensamento estendido com uso de ferramentas:

Diagrama da janela de contexto com pensamento estendido e uso de ferramentas

Arquitetura do primeiro turno
- Componentes de entrada: Configuração de ferramentas e mensagem do usuário
- Componentes de saída: Pensamento estendido + resposta de texto + solicitação de uso de ferramenta
- Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são cobrados como tokens de saída.
Manipulação de resultado de ferramenta (turno 2)
- Componentes de entrada: Cada bloco do primeiro turno bem como o tool_result. O bloco de pensamento estendido deve ser retornado com os resultados de ferramenta correspondentes. Este é o único caso em que você tem que retornar blocos de pensamento.
- Componentes de saída: Depois que os resultados de ferramenta foram passados de volta para Claude, Claude responderá apenas com texto (sem pensamento estendido adicional até a próxima mensagem user).
- Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são cobrados como tokens de saída.
Terceiro Passo
- Componentes de entrada: Todas as entradas e a saída do turno anterior são levadas adiante com a exceção do bloco de pensamento, que pode ser descartado agora que Claude completou todo o ciclo de uso de ferramenta. A API removerá automaticamente o bloco de pensamento para você se você o passar de volta, ou você pode se sentir livre para removê-lo você mesmo neste estágio. Este é também o lugar onde você adicionaria o próximo turno User.
- Componentes de saída: Como há um novo turno User fora do ciclo de uso de ferramenta, Claude gera um novo bloco de pensamento estendido e continua a partir daí.
- Cálculo de tokens: Tokens de pensamento anteriores são automaticamente removidos dos cálculos da janela de contexto. Todos os outros blocos anteriores ainda contam como parte da janela de tokens, e o bloco de pensamento no turno Assistant atual conta como parte da janela de contexto.

Considerações para uso de ferramentas com pensamento estendido:
- Ao postar resultados de ferramenta, o bloco de pensamento inteiro e não modificado que acompanha essa solicitação de ferramenta específica (incluindo porções de assinatura) deve ser incluído.
- O cálculo efetivo da janela de contexto para pensamento estendido com uso de ferramentas se torna: context_window = input_tokens + current_turn_tokens.
- O sistema usa assinaturas criptográficas para verificar a autenticidade do bloco de pensamento. Falhar em preservar blocos de pensamento durante o uso de ferramentas pode quebrar a continuidade de raciocínio do Claude. Assim, se você modificar blocos de pensamento, a API retorna um erro.

Modelos Claude 4 suportam pensamento intercalado, que permite que Claude pense entre chamadas de ferramenta e faça raciocínio mais sofisticado após receber resultados de ferramenta.

Claude Sonnet 3.7 não suporta pensamento intercalado, então não há intercalação de pensamento estendido e chamadas de ferramenta sem um turno de usuário não-tool_result no meio.

Para mais informações sobre como usar ferramentas com pensamento estendido, veja o guia de pensamento estendido.

Consciência de contexto em Claude Sonnet 4.6, Sonnet 4.5 e Haiku 4.5

Como funciona:

No início de uma conversa, Claude recebe informações sobre sua janela de contexto total:

<budget:token_budget>1000000</budget:token_budget>

O orçamento é definido para 1M de tokens (200k para modelos com uma janela de contexto menor).

Após cada chamada de ferramenta, Claude recebe uma atualização sobre a capacidade restante:

<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

Benefícios:

A consciência de contexto é particularmente valiosa para:

Sessões de agente de longa duração que requerem foco sustentado
Fluxos de trabalho de múltiplas janelas de contexto onde transições de estado importam
Tarefas complexas que requerem gerenciamento cuidadoso de tokens

Para orientação de prompting sobre como aproveitar a consciência de contexto, veja o guia de melhores práticas de prompting.

Gerenciando contexto com compactação

Para necessidades mais especializadas, edição de contexto oferece estratégias adicionais:

Limpeza de resultado de ferramenta - Limpe resultados de ferramenta antigos em fluxos de trabalho com agentes
Limpeza de bloco de pensamento - Gerencie blocos de pensamento com pensamento estendido

Gerenciamento da janela de contexto com modelos Claude mais novos

Use a API de contagem de tokens para estimar o uso de tokens antes de enviar mensagens para Claude. Isso ajuda você a planejar e permanecer dentro dos limites da janela de contexto.

Veja a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto por modelo.

Próximos passos

Compactação

A estratégia recomendada para gerenciar contexto em conversas de longa duração.

Edição de contexto

Estratégias de granulação fina como limpeza de resultado de ferramenta e limpeza de bloco de pensamento.

Tabela de comparação de modelos

Veja a tabela de comparação de modelos para uma lista de tamanhos de janela de contexto e preços de tokens de entrada/saída por modelo.

Visão geral de pensamento estendido

Saiba mais sobre como o pensamento estendido funciona e como implementá-lo junto com outros recursos, como uso de ferramentas e cache de prompt.

Was this page helpful?