Was this page helpful?
Las definiciones de herramientas y los bloques tool_result acumulados consumen tu ventana de contexto. Los agentes de larga duración con muchas herramientas o muchos turnos pueden agotar el contexto disponible antes de que se complete la tarea. Cuatro enfoques abordan esto en diferentes puntos del pipeline.
Cada enfoque se dirige a una fuente diferente de presión de contexto. Elige el que coincida con dónde van tus tokens.
| Enfoque | Lo que reduce | Cuándo se ajusta | Más información |
|---|---|---|---|
| Búsqueda de herramientas | Definiciones de herramientas cargadas por adelantado | Conjuntos de herramientas grandes (20+ herramientas) donde la mayoría de herramientas no se necesitan cada turno | Herramienta de búsqueda de herramientas |
| Llamadas de herramientas programáticas | Viajes de ida y vuelta de tool_result | Cadenas de llamadas de herramientas que pueden ejecutarse como un único script | Llamadas de herramientas programáticas |
| Almacenamiento en caché de indicaciones | Costo de token de definiciones de herramientas repetidas | Conjuntos de herramientas estables en muchas solicitudes | Uso de herramientas con almacenamiento en caché de indicaciones |
| Edición de contexto | Bloques tool_result antiguos en el historial | Conversaciones largas donde los resultados anteriores ya no son relevantes | Edición de contexto |
La búsqueda de herramientas mantiene las definiciones de herramientas fuera de la ventana de contexto hasta que Claude las solicita. En lugar de enviar 50 esquemas de herramientas por adelantado, envías una única herramienta tool_search y dejas que Claude descubra el resto bajo demanda. Esto intercambia una pequeña cantidad de latencia (un turno adicional para buscar una herramienta) por una gran reducción en el uso de contexto de línea base.
Las llamadas de herramientas programáticas colapsan una secuencia de llamadas de herramientas en un único bloque de código que Claude escribe y la sandbox de ejecución de código de Anthropic ejecuta. En lugar de cinco viajes de ida y vuelta de tool_use y tool_result, Claude emite un script que llama a las cinco funciones desde dentro de la sandbox. Los resultados intermedios nunca entran en el historial de conversación.
El almacenamiento en caché de indicaciones no reduce el número de tokens en contexto, pero reduce lo que pagas por ellos en solicitudes posteriores. Si tus definiciones de herramientas son estables, almacénalas en caché una vez y reutiliza el prefijo en caché en miles de solicitudes. Esta es la opción correcta cuando el conjunto de herramientas es grande pero fijo.
La edición de contexto elimina bloques tool_result antiguos del historial de conversación una vez que han cumplido su propósito. Un bucle de agente largo podría producir cientos de resultados intermedios que fueron útiles en su momento pero que ahora son peso muerto. La edición de contexto te permite recortarlos sin reiniciar la conversación.
Estos enfoques se componen. Un agente de larga duración podría usar búsqueda de herramientas para mantener el conjunto de herramientas ágil, almacenamiento en caché de indicaciones para amortizar el costo de las definiciones restantes y edición de contexto para recortar resultados obsoletos a medida que crece la conversación. Cada uno resuelve una parte diferente del problema, por lo que no hay conflicto en usarlos juntos.
Un punto de partida razonable para un agente de alto volumen:
Almacena en caché definiciones de herramientas en solicitudes para reducir costos de tokens.