Gestionar el contexto de herramientas

Los cuatro enfoques

Cada enfoque se dirige a una fuente diferente de presión de contexto. Elige el que coincida con dónde van tus tokens.

Enfoque	Lo que reduce	Cuándo se ajusta	Más información
Búsqueda de herramientas	Definiciones de herramientas cargadas por adelantado	Conjuntos de herramientas grandes (20+ herramientas) donde la mayoría de herramientas no se necesitan cada turno	Herramienta de búsqueda de herramientas
Llamadas de herramientas programáticas	Viajes de ida y vuelta de `tool_result`	Cadenas de llamadas de herramientas que pueden ejecutarse como un único script	Llamadas de herramientas programáticas
Almacenamiento en caché de indicaciones	Costo de token de definiciones de herramientas repetidas	Conjuntos de herramientas estables en muchas solicitudes	Uso de herramientas con almacenamiento en caché de indicaciones
Edición de contexto	Bloques `tool_result` antiguos en el historial	Conversaciones largas donde los resultados anteriores ya no son relevantes	Edición de contexto

Búsqueda de herramientas

La búsqueda de herramientas mantiene las definiciones de herramientas fuera de la ventana de contexto hasta que Claude las solicita. En lugar de enviar 50 esquemas de herramientas por adelantado, envías una única herramienta tool_search y dejas que Claude descubra el resto bajo demanda. Esto intercambia una pequeña cantidad de latencia (un turno adicional para buscar una herramienta) por una gran reducción en el uso de contexto de línea base.

Llamadas de herramientas programáticas

Las llamadas de herramientas programáticas colapsan una secuencia de llamadas de herramientas en un único bloque de código que Claude escribe y la sandbox de ejecución de código de Anthropic ejecuta. En lugar de cinco viajes de ida y vuelta de tool_use y tool_result, Claude emite un script que llama a las cinco funciones desde dentro de la sandbox. Los resultados intermedios nunca entran en el historial de conversación.

Almacenamiento en caché de indicaciones

El almacenamiento en caché de indicaciones no reduce el número de tokens en contexto, pero reduce lo que pagas por ellos en solicitudes posteriores. Si tus definiciones de herramientas son estables, almacénalas en caché una vez y reutiliza el prefijo en caché en miles de solicitudes. Esta es la opción correcta cuando el conjunto de herramientas es grande pero fijo.

Edición de contexto

La edición de contexto elimina bloques tool_result antiguos del historial de conversación una vez que han cumplido su propósito. Un bucle de agente largo podría producir cientos de resultados intermedios que fueron útiles en su momento pero que ahora son peso muerto. La edición de contexto te permite recortarlos sin reiniciar la conversación.

Combinación de enfoques

Estos enfoques se componen. Un agente de larga duración podría usar búsqueda de herramientas para mantener el conjunto de herramientas ágil, almacenamiento en caché de indicaciones para amortizar el costo de las definiciones restantes y edición de contexto para recortar resultados obsoletos a medida que crece la conversación. Cada uno resuelve una parte diferente del problema, por lo que no hay conflicto en usarlos juntos.

Un punto de partida razonable para un agente de alto volumen:

Habilita el almacenamiento en caché de indicaciones en tus definiciones de herramientas desde el primer día. Las escrituras en caché llevan un margen del 25% sobre los precios de entrada base, que se recuperan en la segunda solicitud que accede al caché.

Agrega búsqueda de herramientas una vez que tu conjunto de herramientas crece más allá de aproximadamente 20 herramientas o tu uso de contexto de línea base se vuelve notable.

Agrega edición de contexto una vez que las conversaciones individuales comienzan a ejecutarse el tiempo suficiente para que los resultados anteriores se vuelvan irrelevantes.

Considera llamadas de herramientas programáticas si notas cadenas repetitivas de pequeñas llamadas de herramientas que podrían ejecutarse como un único lote.