Was this page helpful?
Werkzeugdefinitionen und angesammelte tool_result-Blöcke verbrauchen Ihr Kontextfenster. Langfristig laufende Agenten mit vielen Werkzeugen oder vielen Durchläufen können den verfügbaren Kontext erschöpfen, bevor die Aufgabe abgeschlossen ist. Vier Ansätze adressieren dies an verschiedenen Punkten in der Pipeline.
Jeder Ansatz zielt auf eine andere Quelle von Kontextdruck ab. Wählen Sie denjenigen, der passt, wohin Ihre Token gehen.
| Ansatz | Was es reduziert | Wann es passt | Weitere Informationen |
|---|---|---|---|
| Werkzeugsuche | Werkzeugdefinitionen, die vorab geladen werden | Große Werkzeugsätze (20+ Werkzeuge), bei denen die meisten Werkzeuge nicht bei jedem Durchlauf benötigt werden | Werkzeugsuche-Tool |
| Programmatisches Werkzeugaufrufen | tool_result-Roundtrips | Ketten von Werkzeugaufrufen, die als einzelnes Skript ausgeführt werden können | Programmatisches Werkzeugaufrufen |
| Prompt-Caching | Token-Kosten wiederholter Werkzeugdefinitionen | Stabile Werkzeugsätze über viele Anfragen hinweg | Werkzeugnutzung mit Prompt-Caching |
| Kontextbearbeitung | Alte tool_result-Blöcke in der Historie | Lange Gespräche, bei denen frühe Ergebnisse nicht mehr relevant sind | Kontextbearbeitung |
Die Werkzeugsuche hält Werkzeugdefinitionen aus dem Kontextfenster heraus, bis Claude danach fragt. Anstatt 50 Werkzeugschemas vorab zu senden, senden Sie ein einzelnes tool_search-Werkzeug und lassen Claude den Rest bei Bedarf entdecken. Dies tauscht eine kleine Menge Latenz (einen zusätzlichen Durchlauf zum Nachschlagen eines Werkzeugs) gegen eine große Reduzierung der Baseline-Kontextnutzung.
Das programmatische Werkzeugaufrufen reduziert eine Sequenz von Werkzeugaufrufen auf einen einzelnen Codeblock, den Claude schreibt und Anthropics Code-Execution-Sandbox ausführt. Anstatt fünf Roundtrips von tool_use und tool_result gibt Claude ein Skript aus, das alle fünf Funktionen innerhalb der Sandbox aufruft. Die Zwischenergebnisse gelangen nie in die Gesprächshistorie.
Prompt-Caching reduziert nicht die Anzahl der Token im Kontext, sondern reduziert, was Sie dafür bei nachfolgenden Anfragen zahlen. Wenn Ihre Werkzeugdefinitionen stabil sind, cachen Sie sie einmal und verwenden Sie das gecachte Präfix über Tausende von Anfragen hinweg erneut. Dies ist die richtige Wahl, wenn der Werkzeugsatz groß, aber fest ist.
Die Kontextbearbeitung entfernt alte tool_result-Blöcke aus der Gesprächshistorie, sobald sie ihren Zweck erfüllt haben. Eine lange Agent-Schleife könnte Hunderte von Zwischenergebnissen erzeugen, die damals nützlich waren, aber jetzt totes Gewicht sind. Mit der Kontextbearbeitung können Sie diese trimmen, ohne das Gespräch neu zu starten.
Diese Ansätze lassen sich kombinieren. Ein langfristig laufender Agent könnte Werkzeugsuche verwenden, um den Werkzeugsatz schlank zu halten, Prompt-Caching, um die Kosten der verbleibenden Definitionen zu amortisieren, und Kontextbearbeitung, um veraltete Ergebnisse zu trimmen, während das Gespräch wächst. Jeder löst einen anderen Teil des Problems, daher gibt es keinen Konflikt bei der gemeinsamen Verwendung.
Ein vernünftiger Ausgangspunkt für einen Agent mit hohem Volumen:
Cachen Sie Werkzeugdefinitionen über Anfragen hinweg, um Token-Kosten zu senken.