Infraestrutura de ferramentas

Gerenciar contexto de ferramentas

Escolha entre busca de ferramentas, chamadas de ferramentas programáticas, cache de prompt e edição de contexto para gerenciar o inchaço de contexto.

Definições de ferramentas e blocos tool_result acumulados consomem sua janela de contexto. Agentes de longa duração com muitas ferramentas ou muitas rodadas podem esgotar o contexto disponível antes que a tarefa seja concluída. Quatro abordagens resolvem isso em diferentes pontos do pipeline.

As quatro abordagens

Cada abordagem visa uma fonte diferente de pressão de contexto. Escolha a que corresponde ao local para onde seus tokens estão indo.

Abordagem	O que reduz	Quando se encaixa	Saiba mais
Busca de ferramentas	Definições de ferramentas carregadas antecipadamente	Grandes conjuntos de ferramentas (20+ ferramentas) onde a maioria das ferramentas não é necessária a cada rodada	Ferramenta de busca de ferramentas
Chamadas de ferramentas programáticas	Roundtrips `tool_result`	Cadeias de chamadas de ferramentas que podem ser executadas como um único script	Chamadas de ferramentas programáticas
Cache de prompt	Custo de token de definições de ferramentas repetidas	Conjuntos de ferramentas estáveis em muitas solicitações	Uso de ferramentas com cache de prompt
Edição de contexto	Blocos `tool_result` antigos no histórico	Conversas longas onde resultados anteriores não são mais relevantes	Edição de contexto

Busca de ferramentas

A busca de ferramentas mantém as definições de ferramentas fora da janela de contexto até que Claude as solicite. Em vez de enviar 50 esquemas de ferramentas antecipadamente, você envia uma única ferramenta tool_search e deixa Claude descobrir o resto sob demanda. Isso troca uma pequena quantidade de latência (uma rodada extra para procurar uma ferramenta) por uma grande redução no uso de contexto de linha de base.

Chamadas de ferramentas programáticas

As chamadas de ferramentas programáticas colapsam uma sequência de chamadas de ferramentas em um único bloco de código que Claude escreve e a sandbox de execução de código da Anthropic executa. Em vez de cinco roundtrips de tool_use e tool_result, Claude emite um script que chama todas as cinco funções de dentro da sandbox. Os resultados intermediários nunca entram no histórico de conversas.

Cache de prompt

O cache de prompt não reduz o número de tokens em contexto, mas reduz o que você paga por eles em solicitações subsequentes. Se suas definições de ferramentas forem estáveis, armazene-as em cache uma vez e reutilize o prefixo em cache em milhares de solicitações. Esta é a escolha certa quando o conjunto de ferramentas é grande, mas fixo.

Edição de contexto

A edição de contexto remove blocos tool_result antigos do histórico de conversas depois que cumpriram seu propósito. Um loop de agente longo pode produzir centenas de resultados intermediários que eram úteis na época, mas agora são peso morto. A edição de contexto permite que você os corte sem reiniciar a conversa.

Combinando abordagens

Essas abordagens se combinam. Um agente de longa duração pode usar busca de ferramentas para manter o conjunto de ferramentas enxuto, cache de prompt para amortizar o custo das definições restantes e edição de contexto para cortar resultados obsoletos conforme a conversa cresce. Cada uma resolve uma parte diferente do problema, portanto não há conflito em usá-las juntas.

Um ponto de partida razoável para um agente de alto volume:

Ative o cache de prompt em suas definições de ferramentas desde o primeiro dia. As gravações de cache carregam uma margem de 25% sobre o preço de entrada base, que se paga na segunda solicitação que atinge o cache.
Adicione busca de ferramentas quando seu conjunto de ferramentas crescer para aproximadamente 20 ferramentas ou quando o uso de contexto de linha de base se tornar perceptível.
Adicione edição de contexto quando conversas individuais começarem a ser executadas por tempo suficiente para que resultados anteriores se tornem irrelevantes.
Considere chamadas de ferramentas programáticas se você notar cadeias repetitivas de pequenas chamadas de ferramentas que poderiam ser executadas como um único lote.

Próximas etapas

Ferramenta de busca de ferramentas

Carregue definições de ferramentas sob demanda em vez de antecipadamente.

Chamadas de ferramentas programáticas

Collapse cadeias de chamadas de ferramentas em um único script executável.

Uso de ferramentas com cache de prompt

Armazene em cache definições de ferramentas em solicitações para reduzir custos de token.

Edição de contexto

Corte resultados de ferramentas obsoletos de conversas de longa duração.

Was this page helpful?

As quatro abordagens

Cada abordagem visa uma fonte diferente de pressão de contexto. Escolha a que corresponde ao local para onde seus tokens estão indo.

Abordagem	O que reduz	Quando se encaixa	Saiba mais
Busca de ferramentas	Definições de ferramentas carregadas antecipadamente	Grandes conjuntos de ferramentas (20+ ferramentas) onde a maioria das ferramentas não é necessária a cada rodada	Ferramenta de busca de ferramentas
Chamadas de ferramentas programáticas	Roundtrips `tool_result`	Cadeias de chamadas de ferramentas que podem ser executadas como um único script	Chamadas de ferramentas programáticas
Cache de prompt	Custo de token de definições de ferramentas repetidas	Conjuntos de ferramentas estáveis em muitas solicitações	Uso de ferramentas com cache de prompt
Edição de contexto	Blocos `tool_result` antigos no histórico	Conversas longas onde resultados anteriores não são mais relevantes	Edição de contexto

Busca de ferramentas

Chamadas de ferramentas programáticas

Cache de prompt

Edição de contexto

Combinando abordagens

Um ponto de partida razoável para um agente de alto volume:

Ative o cache de prompt em suas definições de ferramentas desde o primeiro dia. As gravações de cache carregam uma margem de 25% sobre o preço de entrada base, que se paga na segunda solicitação que atinge o cache.

Adicione busca de ferramentas quando seu conjunto de ferramentas crescer para aproximadamente 20 ferramentas ou quando o uso de contexto de linha de base se tornar perceptível.

Adicione edição de contexto quando conversas individuais começarem a ser executadas por tempo suficiente para que resultados anteriores se tornem irrelevantes.

Considere chamadas de ferramentas programáticas se você notar cadeias repetitivas de pequenas chamadas de ferramentas que poderiam ser executadas como um único lote.