Loading...
    • Guia do Desenvolvedor
    • Referência da API
    • MCP
    • Recursos
    • Notas de lançamento
    Search...
    ⌘K
    Primeiros passos
    Introdução ao ClaudeInício rápido
    Modelos e preços
    Visão geral dos modelosEscolhendo um modeloNovidades no Claude 4.5Migrando para Claude 4.5Descontinuação de modelosPreços
    Construir com Claude
    Visão geral de recursosUsando a API MessagesJanelas de contextoMelhores práticas de prompting
    Capacidades
    Cache de promptEdição de contextoPensamento estendidoEsforçoStreaming de mensagensProcessamento em loteCitaçõesSuporte multilíngueContagem de tokensEmbeddingsVisãoSuporte a PDFAPI de arquivosResultados de buscaSaídas estruturadas
    Ferramentas
    Visão geralComo implementar o uso de ferramentasStreaming de ferramentas granularFerramenta BashFerramenta de execução de códigoChamada de ferramenta programáticaFerramenta de uso do computadorFerramenta de editor de textoFerramenta de busca na webFerramenta de pesquisa na webFerramenta de memóriaFerramenta de busca de ferramentas
    Habilidades do agente
    Visão geralInício rápidoMelhores práticasUsando habilidades com a API
    SDK do agente
    Visão geralInício rápidoSDK TypeScriptTypeScript V2 (preview)SDK PythonGuia de migração
    MCP na API
    Conector MCPServidores MCP remotos
    Claude em plataformas de terceiros
    Amazon BedrockMicrosoft FoundryVertex AI
    Engenharia de prompts
    Visão geralGerador de promptsUsar modelos de promptsMelhorador de promptsSeja claro e diretoUse exemplos (prompting multishot)Deixe Claude pensar (CoT)Use tags XMLDê um papel ao Claude (prompts do sistema)Preencha a resposta do ClaudeEncadeie prompts complexosDicas de contexto longoDicas de pensamento estendido
    Testar e avaliar
    Definir critérios de sucessoDesenvolver casos de testeUsando a ferramenta de avaliaçãoReduzindo latência
    Fortalecer proteções
    Reduzir alucinaçõesAumentar consistência de saídaMitigar jailbreaksRecusas de streamingReduzir vazamento de promptManter Claude em personagem
    Administração e monitoramento
    Visão geral da API de administraçãoAPI de uso e custoAPI de análise de código Claude
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Construir com Claude

    Janelas de contexto

    Entenda como as janelas de contexto funcionam em modelos de linguagem e como gerenciá-las efetivamente com Claude.

    Entendendo a janela de contexto

    A "janela de contexto" refere-se à totalidade da quantidade de texto que um modelo de linguagem pode consultar e referenciar ao gerar novo texto, mais o novo texto que gera. Isso é diferente do grande corpus de dados em que o modelo de linguagem foi treinado e, em vez disso, representa uma "memória de trabalho" para o modelo. Uma janela de contexto maior permite que o modelo compreenda e responda a prompts mais complexos e longos, enquanto uma janela de contexto menor pode limitar a capacidade do modelo de lidar com prompts mais longos ou manter coerência em conversas estendidas.

    O diagrama abaixo ilustra o comportamento padrão da janela de contexto para solicitações de API1:

    Diagrama da janela de contexto

    1Para interfaces de chat, como para claude.ai, as janelas de contexto também podem ser configuradas em um sistema "primeiro a entrar, primeiro a sair" contínuo.

    • Acúmulo progressivo de tokens: Conforme a conversa avança através dos turnos, cada mensagem do usuário e resposta do assistente se acumulam dentro da janela de contexto. Os turnos anteriores são preservados completamente.
    • Padrão de crescimento linear: O uso de contexto cresce linearmente com cada turno, com os turnos anteriores preservados completamente.
    • Capacidade de 200K tokens: A janela de contexto total disponível (200.000 tokens) representa a capacidade máxima para armazenar histórico de conversa e gerar nova saída do Claude.
    • Fluxo de entrada-saída: Cada turno consiste em:
      • Fase de entrada: Contém todo o histórico de conversa anterior mais a mensagem atual do usuário
      • Fase de saída: Gera uma resposta de texto que se torna parte de uma entrada futura

    A janela de contexto com pensamento estendido

    Ao usar pensamento estendido, todos os tokens de entrada e saída, incluindo os tokens usados para pensar, contam para o limite da janela de contexto, com algumas nuances em situações multi-turno.

    Os tokens do orçamento de pensamento são um subconjunto do seu parâmetro max_tokens, são faturados como tokens de saída e contam para os limites de taxa.

    No entanto, os blocos de pensamento anteriores são automaticamente removidos do cálculo da janela de contexto pela API Claude e não fazem parte do histórico de conversa que o modelo "vê" para turnos subsequentes, preservando a capacidade de tokens para conteúdo de conversa real.

    O diagrama abaixo demonstra o gerenciamento especializado de tokens quando o pensamento estendido está ativado:

    Diagrama da janela de contexto com pensamento estendido

    • Remoção de pensamento estendido: Blocos de pensamento estendido (mostrados em cinza escuro) são gerados durante a fase de saída de cada turno, mas não são levados adiante como tokens de entrada para turnos subsequentes. Você não precisa remover os blocos de pensamento você mesmo. A API Claude faz isso automaticamente para você se você os passar de volta.
    • Detalhes de implementação técnica:
      • A API automaticamente exclui blocos de pensamento de turnos anteriores quando você os passa de volta como parte do histórico de conversa.
      • Tokens de pensamento estendido são faturados como tokens de saída apenas uma vez, durante sua geração.
      • O cálculo efetivo da janela de contexto se torna: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • Tokens de pensamento incluem blocos thinking e blocos redacted_thinking.

    Esta arquitetura é eficiente em tokens e permite raciocínio extensivo sem desperdício de tokens, pois blocos de pensamento podem ser substanciais em comprimento.

    Você pode ler mais sobre a janela de contexto e pensamento estendido em nosso guia de pensamento estendido.

    A janela de contexto com pensamento estendido e uso de ferramentas

    O diagrama abaixo ilustra o gerenciamento de tokens da janela de contexto ao combinar pensamento estendido com uso de ferramentas:

    Diagrama da janela de contexto com pensamento estendido e uso de ferramentas

    1. 1

      Arquitetura do primeiro turno

      • Componentes de entrada: Configuração de ferramentas e mensagem do usuário
      • Componentes de saída: Pensamento estendido + resposta de texto + solicitação de uso de ferramenta
      • Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são faturados como tokens de saída.
    2. 2

      Manipulação de resultado de ferramenta (turno 2)

      • Componentes de entrada: Cada bloco do primeiro turno bem como o tool_result. O bloco de pensamento estendido deve ser retornado com os resultados de ferramenta correspondentes. Este é o único caso em que você tem que retornar blocos de pensamento.
      • Componentes de saída: Depois que os resultados de ferramenta foram passados de volta para Claude, Claude responderá apenas com texto (sem pensamento estendido adicional até a próxima mensagem user).
      • Cálculo de tokens: Todos os componentes de entrada e saída contam para a janela de contexto, e todos os componentes de saída são faturados como tokens de saída.
    3. 3

      Terceiro Passo

      • Todas as entradas e a saída do turno anterior são levadas adiante com a exceção do bloco de pensamento, que pode ser descartado agora que Claude completou todo o ciclo de uso de ferramenta. A API removerá automaticamente o bloco de pensamento para você se você o passar de volta, ou você pode se sentir livre para removê-lo você mesmo neste estágio. Este é também onde você adicionaria o próximo turno .
    • Considerações para uso de ferramentas com pensamento estendido:
      • Ao postar resultados de ferramenta, o bloco de pensamento inteiro e não modificado que acompanha essa solicitação de ferramenta específica (incluindo porções de assinatura/redação) deve ser incluído.
      • O cálculo efetivo da janela de contexto para pensamento estendido com uso de ferramentas se torna: context_window = input_tokens + current_turn_tokens.
      • O sistema usa assinaturas criptográficas para verificar a autenticidade do bloco de pensamento. Falhar em preservar blocos de pensamento durante o uso de ferramentas pode quebrar a continuidade de raciocínio de Claude. Assim, se você modificar blocos de pensamento, a API retornará um erro.

    Modelos Claude 4 suportam pensamento intercalado, que permite que Claude pense entre chamadas de ferramenta e faça raciocínio mais sofisticado após receber resultados de ferramenta.

    Claude Sonnet 3.7 não suporta pensamento intercalado, portanto não há intercalação de pensamento estendido e chamadas de ferramenta sem um turno de usuário não-tool_result no meio.

    Para mais informações sobre como usar ferramentas com pensamento estendido, consulte nosso guia de pensamento estendido.

    Janela de contexto de 1M tokens

    Claude Sonnet 4 e 4.5 suportam uma janela de contexto de 1 milhão de tokens. Esta janela de contexto estendida permite que você processe documentos muito maiores, mantenha conversas mais longas e trabalhe com bases de código mais extensas.

    A janela de contexto de 1M tokens está atualmente em beta para organizações no nível de uso 4 e organizações com limites de taxa personalizados. A janela de contexto de 1M tokens está disponível apenas para Claude Sonnet 4 e Sonnet 4.5.

    Para usar a janela de contexto de 1M tokens, inclua o cabeçalho beta context-1m-2025-08-07 em suas solicitações de API:

    Considerações importantes:

    • Status beta: Este é um recurso beta sujeito a alterações. Recursos e preços podem ser modificados ou removidos em versões futuras.
    • Requisito de nível de uso: A janela de contexto de 1M tokens está disponível para organizações no nível de uso 4 e organizações com limites de taxa personalizados. Organizações de nível inferior devem avançar para o nível de uso 4 para acessar este recurso.
    • Disponibilidade: A janela de contexto de 1M tokens está atualmente disponível na API Claude, Microsoft Foundry, Amazon Bedrock e Google Cloud's Vertex AI.
    • Preços: Solicitações que excedem 200K tokens são automaticamente cobradas com taxas premium (2x entrada, 1,5x preços de saída). Consulte a documentação de preços para detalhes.
    • Limites de taxa: Solicitações de contexto longo têm limites de taxa dedicados. Consulte a documentação de limites de taxa para detalhes.
    • Considerações multimodais: Ao processar um grande número de imagens ou pdfs, esteja ciente de que os arquivos podem variar no uso de tokens. Ao emparelhar um prompt grande com um grande número de imagens, você pode atingir .

    Consciência de contexto em Claude Sonnet 4.5 e Haiku 4.5

    Claude Sonnet 4.5 e Claude Haiku 4.5 apresentam consciência de contexto, permitindo que esses modelos rastreiem sua janela de contexto restante (ou seja, "orçamento de tokens") ao longo de uma conversa. Isso permite que Claude execute tarefas e gerencie contexto de forma mais eficaz, compreendendo quanto espaço tem para trabalhar. Claude é treinado nativamente para usar este contexto precisamente para persistir na tarefa até o final, em vez de ter que adivinhar quantos tokens restam. Para um modelo, a falta de consciência de contexto é como competir em um programa de culinária sem um relógio. Modelos Claude 4.5 mudam isso informando explicitamente ao modelo sobre seu contexto restante, para que possa aproveitar ao máximo os tokens disponíveis.

    Como funciona:

    No início de uma conversa, Claude recebe informações sobre sua janela de contexto total:

    <budget:token_budget>200000</budget:token_budget>

    O orçamento é definido como 200K tokens (padrão), 500K tokens (Claude.ai Enterprise) ou 1M tokens (beta, para organizações elegíveis).

    Após cada chamada de ferramenta, Claude recebe uma atualização sobre a capacidade restante:

    <system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

    Esta consciência ajuda Claude a determinar quanto capacidade resta para trabalho e permite execução mais eficaz em tarefas de longa duração. Tokens de imagem estão incluídos nestes orçamentos.

    Benefícios:

    A consciência de contexto é particularmente valiosa para:

    • Sessões de agente de longa duração que requerem foco sustentado
    • Fluxos de trabalho de múltiplas janelas de contexto onde transições de estado importam
    • Tarefas complexas que requerem gerenciamento cuidadoso de tokens

    Para orientação de prompt sobre como aproveitar a consciência de contexto, consulte nosso guia de melhores práticas Claude 4.

    Gerenciamento de janela de contexto com modelos Claude mais novos

    Em modelos Claude mais novos (começando com Claude Sonnet 3.7), se a soma de tokens de prompt e tokens de saída exceder a janela de contexto do modelo, o sistema retornará um erro de validação em vez de truncar silenciosamente o contexto. Esta mudança fornece comportamento mais previsível, mas requer gerenciamento de tokens mais cuidadoso.

    Para planejar seu uso de tokens e garantir que você permaneça dentro dos limites da janela de contexto, você pode usar a API de contagem de tokens para estimar quantos tokens suas mensagens usarão antes de enviá-las para Claude.

    Consulte nossa tabela de comparação de modelos para uma lista de tamanhos de janela de contexto por modelo.

    Próximas etapas

    Tabela de comparação de modelos

    Consulte nossa tabela de comparação de modelos para uma lista de tamanhos de janela de contexto e preços de tokens de entrada/saída por modelo.

    • Entendendo a janela de contexto
    • A janela de contexto com pensamento estendido
    • A janela de contexto com pensamento estendido e uso de ferramentas
    • Janela de contexto de 1M tokens
    • Consciência de contexto em Claude Sonnet 4.5 e Haiku 4.5
    • Gerenciamento de janela de contexto com modelos Claude mais novos
    Componentes de entrada:
    User
  1. Componentes de saída: Como há um novo turno User fora do ciclo de uso de ferramenta, Claude gerará um novo bloco de pensamento estendido e continuará a partir daí.
  2. Cálculo de tokens: Tokens de pensamento anteriores são automaticamente removidos dos cálculos da janela de contexto. Todos os outros blocos anteriores ainda contam como parte da janela de tokens, e o bloco de pensamento no turno Assistant atual conta como parte da janela de contexto.
  3. from anthropic import Anthropic
    
    client = Anthropic()
    
    response = client.beta.messages.create(
        model="claude-sonnet-4-5",
        max_tokens=1024,
        messages=[
            {"role": "user", "content": "Process this large document..."}
        ],
        betas=["context-1m-2025-08-07"]
    )
    limites de tamanho de solicitação
    Visão geral de pensamento estendido

    Saiba mais sobre como o pensamento estendido funciona e como implementá-lo junto com outros recursos, como uso de ferramentas e cache de prompt.