This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Mit wachsenden Gesprächen werden Sie schließlich die Grenzen des Kontextfensters erreichen. Dieser Leitfaden erklärt, wie Kontextfenster funktionieren, und stellt Strategien zur effektiven Verwaltung vor.
Für lange laufende Gespräche und agentengesteuerte Workflows ist die serverseitige Komprimierung die primäre Strategie für die Kontextverwaltung. Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien wie das Löschen von Werkzeugergebnissen und das Löschen von Denkblöcken.
Das „Kontextfenster" bezieht sich auf den gesamten Text, auf den ein Sprachmodell verweisen kann, wenn es eine Antwort generiert, einschließlich der Antwort selbst. Dies unterscheidet sich vom großen Datensatz, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen „Arbeitsspeicher" für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingabeaufforderungen zu verarbeiten, aber mehr Kontext ist nicht automatisch besser. Mit zunehmender Token-Anzahl verschlechtern sich Genauigkeit und Rückruf, ein Phänomen, das als Kontextverfall bekannt ist. Dies macht die Kuratierung des Kontextinhalts genauso wichtig wie die verfügbare Menge an Speicherplatz.
Claude erreicht modernste Ergebnisse bei Long-Context-Abruf-Benchmarks wie MRCR und GraphWalks, aber diese Verbesserungen hängen davon ab, was sich im Kontext befindet, nicht nur davon, wie viel passt.
Für einen tieferen Einblick, warum lange Kontexte sich verschlechtern und wie man dies umgehen kann, siehe Effektive Kontextgestaltung.
Das folgende Diagramm zeigt das standardmäßige Kontextfenster-Verhalten für API-Anfragen1:
1Für Chat-Schnittstellen, wie z.B. für claude.ai, können Kontextfenster auch auf einem rollierenden „First-In-First-Out"-System eingerichtet werden.
Bei Verwendung von erweitertem Denken zählen alle Ein- und Ausgabe-Token, einschließlich der für das Denken verwendeten Token, zum Limit des Kontextfensters, mit einigen Nuancen in Multi-Turn-Situationen.
Die Denk-Budget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Ausgabe-Token abgerechnet und zählen zu den Ratenlimits. Mit adaptivem Denken entscheidet Claude dynamisch seine Denk-Zuteilung, sodass die tatsächliche Denk-Token-Nutzung pro Anfrage variieren kann.
Allerdings werden vorherige Denkblöcke automatisch von der Claude API aus der Kontextfenster-Berechnung entfernt und sind nicht Teil des Gesprächsverlaufs, den das Modell für nachfolgende Runden „sieht", wodurch Token-Kapazität für tatsächliche Gesprächsinhalte erhalten bleibt.
Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn erweitertes Denken aktiviert ist:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking-Blöcke.Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erhebliche Länge haben können.
Sie können mehr über das Kontextfenster und erweitertes Denken im Leitfaden zum erweiterten Denken lesen.
Das folgende Diagramm zeigt die Kontextfenster-Token-Verwaltung beim Kombinieren von erweitertem Denken mit Werkzeugnutzung:
Architektur der ersten Runde
Werkzeugergebnis-Verarbeitung (Runde 2)
tool_result. Der Denkblock muss mit den entsprechenden Werkzeugergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.user-Nachricht).Dritter Schritt
context_window = input_tokens + current_turn_tokens.Claude 4-Modelle unterstützen verschachteltes Denken, das Claude ermöglicht, zwischen Werkzeugaufrufen zu denken und nach dem Empfang von Werkzeugergebnissen anspruchsvollere Überlegungen anzustellen.
Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Werkzeugaufrufen ohne eine dazwischenliegende user-Runde, die kein tool_result ist.
Weitere Informationen zur Verwendung von Werkzeugen mit erweitertem Denken finden Sie im Leitfaden zum erweiterten Denken.
Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 haben ein Kontextfenster von 1M Token. Andere Claude-Modelle, einschließlich Claude Sonnet 4.5 und Sonnet 4 (veraltet), haben ein Kontextfenster von 200k Token.
Eine einzelne Anfrage kann bis zu 600 Bilder oder PDF-Seiten enthalten (100 für Modelle mit einem 200k-Token-Kontextfenster). Beim Senden vieler Bilder oder großer Dokumente können Sie die Anfragegrößenlimits erreichen, bevor Sie das Token-Limit erreichen.
Claude Sonnet 4.6, Claude Sonnet 4.5 und Claude Haiku 4.5 verfügen über Kontextbewusstsein. Diese Fähigkeit ermöglicht es diesen Modellen, ihr verbleibendes Kontextfenster (d.h. „Token-Budget") während eines Gesprächs zu verfolgen. Dies ermöglicht Claude, Aufgaben auszuführen und den Kontext effektiver zu verwalten, indem es versteht, wie viel Platz es hat. Claude ist darauf trainiert, diesen Kontext präzise zu nutzen und die Aufgabe bis zum Ende durchzuführen, anstatt zu erraten, wie viele Token verbleiben. Für ein Modell ist das Fehlen von Kontextbewusstsein wie das Antreten in einer Kochshow ohne Uhr. Claude 4.5+-Modelle ändern dies, indem sie das Modell explizit über seinen verbleibenden Kontext informieren, damit es die verfügbaren Token maximal nutzen kann.
Wie es funktioniert:
Zu Beginn eines Gesprächs erhält Claude Informationen über sein gesamtes Kontextfenster:
<budget:token_budget>1000000</budget:token_budget>Das Budget ist auf 1M Token eingestellt (200k für Modelle mit einem kleineren Kontextfenster).
Nach jedem Werkzeugaufruf erhält Claude eine Aktualisierung der verbleibenden Kapazität:
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Dieses Bewusstsein hilft Claude zu bestimmen, wie viel Kapazität für die Arbeit verbleibt, und ermöglicht eine effektivere Ausführung bei langfristigen Aufgaben. Bild-Token sind in diesen Budgets enthalten.
Vorteile:
Kontextbewusstsein ist besonders wertvoll für:
Für Agenten, die mehrere Sitzungen umfassen, gestalten Sie Ihre Zustandsartefakte so, dass die Kontextwiederherstellung schnell ist, wenn eine neue Sitzung beginnt. Das Multi-Session-Muster des Memory-Tools zeigt einen konkreten Ansatz. Siehe auch Effektive Harnesses für langfristige Agenten.
Für Hinweise zur Eingabeaufforderung zur Nutzung von Kontextbewusstsein siehe den Leitfaden zu Best Practices bei der Eingabeaufforderung.
Wenn Ihre Gespräche regelmäßig die Grenzen des Kontextfensters erreichen, ist die serverseitige Komprimierung der empfohlene Ansatz. Die Komprimierung bietet serverseitige Zusammenfassung, die automatisch frühere Teile eines Gesprächs verdichtet und lange Gespräche über Kontextlimits hinaus mit minimaler Integrationsarbeit ermöglicht. Sie ist derzeit in der Beta-Phase für Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 verfügbar.
Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien:
Neuere Claude-Modelle (ab Claude Sonnet 3.7) geben einen Validierungsfehler zurück, wenn Eingabe- und Ausgabe-Token das Kontextfenster überschreiten, anstatt stillschweigend zu kürzen. Diese Änderung bietet vorhersehbareres Verhalten, erfordert aber sorgfältigere Token-Verwaltung.
Verwenden Sie die Token-Zähl-API, um die Token-Nutzung vor dem Senden von Nachrichten an Claude zu schätzen. Dies hilft Ihnen, zu planen und innerhalb der Kontextfenster-Limits zu bleiben.
Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen nach Modell.
Die empfohlene Strategie zur Verwaltung des Kontexts in langfristigen Gesprächen.
Feinkörnige Strategien wie Werkzeugergebnis-Löschen und Denkblock-Löschen.
Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen und Ein-/Ausgabe-Token-Preise nach Modell.
Was this page helpful?
UserUser-Runde außerhalb des Werkzeugnutzungs-Zyklus gibt, generiert Claude einen neuen Denkblock und setzt von dort aus fort.Assistant-Runde zählt zum Kontextfenster.Erfahren Sie mehr über die Funktionsweise von erweitertem Denken und wie Sie es zusammen mit anderen Funktionen wie Werkzeugnutzung und Prompt-Caching implementieren.