Werkzeugkontext verwalten

Die vier Ansätze

Jeder Ansatz zielt auf eine andere Quelle von Kontextdruck ab. Wählen Sie denjenigen, der passt, wohin Ihre Token gehen.

Ansatz	Was es reduziert	Wann es passt	Weitere Informationen
Werkzeugsuche	Werkzeugdefinitionen, die vorab geladen werden	Große Werkzeugsätze (20+ Werkzeuge), bei denen die meisten Werkzeuge nicht bei jedem Durchlauf benötigt werden	Werkzeugsuche-Tool
Programmatisches Werkzeugaufrufen	`tool_result`-Roundtrips	Ketten von Werkzeugaufrufen, die als einzelnes Skript ausgeführt werden können	Programmatisches Werkzeugaufrufen
Prompt-Caching	Token-Kosten wiederholter Werkzeugdefinitionen	Stabile Werkzeugsätze über viele Anfragen hinweg	Werkzeugnutzung mit Prompt-Caching
Kontextbearbeitung	Alte `tool_result`-Blöcke in der Historie	Lange Gespräche, bei denen frühe Ergebnisse nicht mehr relevant sind	Kontextbearbeitung

Werkzeugsuche

Die Werkzeugsuche hält Werkzeugdefinitionen aus dem Kontextfenster heraus, bis Claude danach fragt. Anstatt 50 Werkzeugschemas vorab zu senden, senden Sie ein einzelnes tool_search-Werkzeug und lassen Claude den Rest bei Bedarf entdecken. Dies tauscht eine kleine Menge Latenz (einen zusätzlichen Durchlauf zum Nachschlagen eines Werkzeugs) gegen eine große Reduzierung der Baseline-Kontextnutzung.

Programmatisches Werkzeugaufrufen

Das programmatische Werkzeugaufrufen reduziert eine Sequenz von Werkzeugaufrufen auf einen einzelnen Codeblock, den Claude schreibt und Anthropics Code-Execution-Sandbox ausführt. Anstatt fünf Roundtrips von tool_use und tool_result gibt Claude ein Skript aus, das alle fünf Funktionen innerhalb der Sandbox aufruft. Die Zwischenergebnisse gelangen nie in die Gesprächshistorie.

Prompt-Caching

Prompt-Caching reduziert nicht die Anzahl der Token im Kontext, sondern reduziert, was Sie dafür bei nachfolgenden Anfragen zahlen. Wenn Ihre Werkzeugdefinitionen stabil sind, cachen Sie sie einmal und verwenden Sie das gecachte Präfix über Tausende von Anfragen hinweg erneut. Dies ist die richtige Wahl, wenn der Werkzeugsatz groß, aber fest ist.

Kontextbearbeitung

Die Kontextbearbeitung entfernt alte tool_result-Blöcke aus der Gesprächshistorie, sobald sie ihren Zweck erfüllt haben. Eine lange Agent-Schleife könnte Hunderte von Zwischenergebnissen erzeugen, die damals nützlich waren, aber jetzt totes Gewicht sind. Mit der Kontextbearbeitung können Sie diese trimmen, ohne das Gespräch neu zu starten.

Ansätze kombinieren

Diese Ansätze lassen sich kombinieren. Ein langfristig laufender Agent könnte Werkzeugsuche verwenden, um den Werkzeugsatz schlank zu halten, Prompt-Caching, um die Kosten der verbleibenden Definitionen zu amortisieren, und Kontextbearbeitung, um veraltete Ergebnisse zu trimmen, während das Gespräch wächst. Jeder löst einen anderen Teil des Problems, daher gibt es keinen Konflikt bei der gemeinsamen Verwendung.

Ein vernünftiger Ausgangspunkt für einen Agent mit hohem Volumen:

Aktivieren Sie Prompt-Caching auf Ihren Werkzeugdefinitionen von Anfang an. Cache-Schreibvorgänge tragen einen Aufschlag von 25% über die Basis-Eingabepreise, der sich bei der zweiten Anfrage, die den Cache trifft, amortisiert.

Fügen Sie Werkzeugsuche hinzu, sobald Ihr Werkzeugsatz auf etwa 20 Werkzeuge wächst oder Ihre Baseline-Kontextnutzung merklich wird.

Fügen Sie Kontextbearbeitung hinzu, sobald einzelne Gespräche lange genug laufen, dass frühe Ergebnisse irrelevant werden.

Erwägen Sie programmatisches Werkzeugaufrufen, wenn Sie wiederholte Ketten kleiner Werkzeugaufrufe bemerken, die als einzelner Batch ausgeführt werden könnten.