Definições de ferramentas e blocos tool_result acumulados consomem sua janela de contexto. Agentes de longa duração com muitas ferramentas ou muitas rodadas podem esgotar o contexto disponível antes que a tarefa seja concluída. Quatro abordagens resolvem isso em diferentes pontos do pipeline.
Cada abordagem visa uma fonte diferente de pressão de contexto. Escolha a que corresponde ao local para onde seus tokens estão indo.
| Abordagem | O que reduz | Quando se encaixa | Saiba mais |
|---|---|---|---|
| Busca de ferramentas | Definições de ferramentas carregadas antecipadamente | Grandes conjuntos de ferramentas (20+ ferramentas) onde a maioria das ferramentas não é necessária a cada rodada | Ferramenta de busca de ferramentas |
| Chamadas de ferramentas programáticas | Roundtrips tool_result | Cadeias de chamadas de ferramentas que podem ser executadas como um único script | Chamadas de ferramentas programáticas |
| Cache de prompt | Custo de token de definições de ferramentas repetidas | Conjuntos de ferramentas estáveis em muitas solicitações | Uso de ferramentas com cache de prompt |
| Edição de contexto | Blocos tool_result antigos no histórico | Conversas longas onde resultados anteriores não são mais relevantes | Edição de contexto |
A busca de ferramentas mantém as definições de ferramentas fora da janela de contexto até que Claude as solicite. Em vez de enviar 50 esquemas de ferramentas antecipadamente, você envia uma única ferramenta tool_search e deixa Claude descobrir o resto sob demanda. Isso troca uma pequena quantidade de latência (uma rodada extra para procurar uma ferramenta) por uma grande redução no uso de contexto de linha de base.
As chamadas de ferramentas programáticas colapsam uma sequência de chamadas de ferramentas em um único bloco de código que Claude escreve e a sandbox de execução de código da Anthropic executa. Em vez de cinco roundtrips de tool_use e tool_result, Claude emite um script que chama todas as cinco funções de dentro da sandbox. Os resultados intermediários nunca entram no histórico de conversas.
O cache de prompt não reduz o número de tokens em contexto, mas reduz o que você paga por eles em solicitações subsequentes. Se suas definições de ferramentas forem estáveis, armazene-as em cache uma vez e reutilize o prefixo em cache em milhares de solicitações. Esta é a escolha certa quando o conjunto de ferramentas é grande, mas fixo.
A edição de contexto remove blocos tool_result antigos do histórico de conversas depois que cumpriram seu propósito. Um loop de agente longo pode produzir centenas de resultados intermediários que eram úteis na época, mas agora são peso morto. A edição de contexto permite que você os corte sem reiniciar a conversa.
Essas abordagens se combinam. Um agente de longa duração pode usar busca de ferramentas para manter o conjunto de ferramentas enxuto, cache de prompt para amortizar o custo das definições restantes e edição de contexto para cortar resultados obsoletos conforme a conversa cresce. Cada uma resolve uma parte diferente do problema, portanto não há conflito em usá-las juntas.
Um ponto de partida razoável para um agente de alto volume:
Carregue definições de ferramentas sob demanda em vez de antecipadamente.
Collapse cadeias de chamadas de ferramentas em um único script executável.
Armazene em cache definições de ferramentas em solicitações para reduzir custos de token.
Corte resultados de ferramentas obsoletos de conversas de longa duração.
Was this page helpful?