A "janela de contexto" refere-se à totalidade da quantidade de texto que um modelo de linguagem pode consultar e referenciar ao gerar novo texto, mais o novo texto que gera. Isso é diferente do grande corpus de dados em que o modelo de linguagem foi treinado e, em vez disso, representa uma "memória de trabalho" para o modelo. Uma janela de contexto maior permite que o modelo compreenda e responda a prompts mais complexos e longos, enquanto uma janela de contexto menor pode limitar a capacidade do modelo de lidar com prompts mais longos ou manter coerência em conversas estendidas.
O diagrama abaixo ilustra o comportamento padrão da janela de contexto para solicitações de API1:
1Para interfaces de chat, como para claude.ai, as janelas de contexto também podem ser configuradas em um sistema "primeiro a entrar, primeiro a sair" contínuo.
Ao usar pensamento estendido, todos os tokens de entrada e saída, incluindo os tokens usados para pensar, contam para o limite da janela de contexto, com algumas nuances em situações multi-turno.
Os tokens do orçamento de pensamento são um subconjunto do seu parâmetro max_tokens, são faturados como tokens de saída e contam para os limites de taxa.
No entanto, os blocos de pensamento anteriores são automaticamente removidos do cálculo da janela de contexto pela API Claude e não fazem parte do histórico de conversa que o modelo "vê" para turnos subsequentes, preservando a capacidade de tokens para conteúdo de conversa real.
O diagrama abaixo demonstra o gerenciamento especializado de tokens quando o pensamento estendido está ativado:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking e blocos redacted_thinking.Esta arquitetura é eficiente em tokens e permite raciocínio extensivo sem desperdício de tokens, pois blocos de pensamento podem ser substanciais em comprimento.
Você pode ler mais sobre a janela de contexto e pensamento estendido em nosso guia de pensamento estendido.
O diagrama abaixo ilustra o gerenciamento de tokens da janela de contexto ao combinar pensamento estendido com uso de ferramentas:
Arquitetura do primeiro turno
Manipulação de resultado de ferramenta (turno 2)
tool_result. O bloco de pensamento estendido deve ser retornado com os resultados de ferramenta correspondentes. Este é o único caso em que você tem que retornar blocos de pensamento.user).Terceiro Passo
context_window = input_tokens + current_turn_tokens.Modelos Claude 4 suportam pensamento intercalado, que permite que Claude pense entre chamadas de ferramenta e faça raciocínio mais sofisticado após receber resultados de ferramenta.
Claude Sonnet 3.7 não suporta pensamento intercalado, portanto não há intercalação de pensamento estendido e chamadas de ferramenta sem um turno de usuário não-tool_result no meio.
Para mais informações sobre como usar ferramentas com pensamento estendido, consulte nosso guia de pensamento estendido.
Claude Sonnet 4 e 4.5 suportam uma janela de contexto de 1 milhão de tokens. Esta janela de contexto estendida permite que você processe documentos muito maiores, mantenha conversas mais longas e trabalhe com bases de código mais extensas.
A janela de contexto de 1M tokens está atualmente em beta para organizações no nível de uso 4 e organizações com limites de taxa personalizados. A janela de contexto de 1M tokens está disponível apenas para Claude Sonnet 4 e Sonnet 4.5.
Para usar a janela de contexto de 1M tokens, inclua o cabeçalho beta context-1m-2025-08-07 em suas solicitações de API:
Considerações importantes:
Claude Sonnet 4.5 e Claude Haiku 4.5 apresentam consciência de contexto, permitindo que esses modelos rastreiem sua janela de contexto restante (ou seja, "orçamento de tokens") ao longo de uma conversa. Isso permite que Claude execute tarefas e gerencie contexto de forma mais eficaz, compreendendo quanto espaço tem para trabalhar. Claude é treinado nativamente para usar este contexto precisamente para persistir na tarefa até o final, em vez de ter que adivinhar quantos tokens restam. Para um modelo, a falta de consciência de contexto é como competir em um programa de culinária sem um relógio. Modelos Claude 4.5 mudam isso informando explicitamente ao modelo sobre seu contexto restante, para que possa aproveitar ao máximo os tokens disponíveis.
Como funciona:
No início de uma conversa, Claude recebe informações sobre sua janela de contexto total:
<budget:token_budget>200000</budget:token_budget>O orçamento é definido como 200K tokens (padrão), 500K tokens (Claude.ai Enterprise) ou 1M tokens (beta, para organizações elegíveis).
Após cada chamada de ferramenta, Claude recebe uma atualização sobre a capacidade restante:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Esta consciência ajuda Claude a determinar quanto capacidade resta para trabalho e permite execução mais eficaz em tarefas de longa duração. Tokens de imagem estão incluídos nestes orçamentos.
Benefícios:
A consciência de contexto é particularmente valiosa para:
Para orientação de prompt sobre como aproveitar a consciência de contexto, consulte nosso guia de melhores práticas Claude 4.
Em modelos Claude mais novos (começando com Claude Sonnet 3.7), se a soma de tokens de prompt e tokens de saída exceder a janela de contexto do modelo, o sistema retornará um erro de validação em vez de truncar silenciosamente o contexto. Esta mudança fornece comportamento mais previsível, mas requer gerenciamento de tokens mais cuidadoso.
Para planejar seu uso de tokens e garantir que você permaneça dentro dos limites da janela de contexto, você pode usar a API de contagem de tokens para estimar quantos tokens suas mensagens usarão antes de enviá-las para Claude.
Consulte nossa tabela de comparação de modelos para uma lista de tamanhos de janela de contexto por modelo.
UserUser fora do ciclo de uso de ferramenta, Claude gerará um novo bloco de pensamento estendido e continuará a partir daí.Assistant atual conta como parte da janela de contexto.from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Saiba mais sobre como o pensamento estendido funciona e como implementá-lo junto com outros recursos, como uso de ferramentas e cache de prompt.