Mit wachsenden Gesprächen werden Sie sich schließlich den Grenzen des Kontextfensters nähern. Dieser Leitfaden erklärt, wie Kontextfenster funktionieren, und stellt Strategien zur effektiven Verwaltung vor.
Für lange laufende Gespräche und agentengesteuerte Workflows ist die serverseitige Komprimierung die primäre Strategie für die Kontextverwaltung. Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien wie das Löschen von Werkzeugergebnissen und das Löschen von Denkblöcken.
Das "Kontextfenster" bezieht sich auf den gesamten Text, auf den ein Sprachmodell verweisen kann, wenn es eine Antwort generiert, einschließlich der Antwort selbst. Dies unterscheidet sich vom großen Datensatz, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen "Arbeitsspeicher" für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingaben zu verarbeiten. Ein kleineres Kontextfenster kann die Fähigkeit des Modells einschränken, die Kohärenz über längere Gespräche hinweg zu bewahren.
Das folgende Diagramm zeigt das standardmäßige Kontextfensterverhalten für API-Anfragen1:
1Für Chat-Schnittstellen wie claude.ai können Kontextfenster auch auf einem rollierenden "First-In-First-Out"-System eingerichtet werden.
Bei Verwendung von erweitertem Denken zählen alle Input- und Output-Token, einschließlich der Token, die zum Denken verwendet werden, zur Kontextfenstergrenze, mit einigen Nuancen in Multi-Turn-Situationen.
Die Denkbudget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Output-Token abgerechnet und zählen zu den Ratenlimits. Mit adaptivem Denken entscheidet Claude dynamisch seine Denkzuteilung, sodass die tatsächliche Denktoken-Nutzung pro Anfrage variieren kann.
Allerdings werden vorherige Denkblöcke automatisch von der Claude-API aus der Kontextfensterberechnung entfernt und sind nicht Teil des Gesprächsverlaufs, den das Modell für nachfolgende Turns "sieht", wodurch die Token-Kapazität für tatsächliche Gesprächsinhalte erhalten bleibt.
Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn erweitertes Denken aktiviert ist:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking-Blöcke als auch redacted_thinking-Blöcke.Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erhebliche Länge haben können.
Sie können mehr über das Kontextfenster und erweitertes Denken im Leitfaden für erweitertes Denken lesen.
Das folgende Diagramm zeigt die Kontextfenster-Token-Verwaltung beim Kombinieren von erweitertem Denken mit Werkzeugnutzung:
Architektur des ersten Turns
Werkzeugergebnis-Handling (Turn 2)
tool_result. Der Block mit erweitertem Denken muss mit den entsprechenden Werkzeugergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.user-Nachricht).Dritter Schritt
User-Turn hinzufügen würden.User-Turn außerhalb des Werkzeugnutzungs-Zyklus gibt, generiert Claude einen neuen Block mit erweitertem Denken und setzt von dort aus fort.Assistant-Turn zählt zum Kontextfenster.context_window = input_tokens + current_turn_tokens.Claude 4-Modelle unterstützen verschachteltes Denken, das Claude ermöglicht, zwischen Werkzeugaufrufen zu denken und nach Erhalt von Werkzeugergebnissen anspruchsvollere Überlegungen anzustellen.
Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Werkzeugaufrufen ohne einen dazwischenliegenden user-Turn, der kein tool_result ist.
Weitere Informationen zur Verwendung von Werkzeugen mit erweitertem Denken finden Sie im Leitfaden für erweitertes Denken.
Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 und Sonnet 4 unterstützen ein Kontextfenster mit 1 Million Token. Dieses erweiterte Kontextfenster ermöglicht es Ihnen, viel größere Dokumente zu verarbeiten, längere Gespräche zu führen und mit umfangreicheren Codebasen zu arbeiten.
Das 1M Token-Kontextfenster befindet sich derzeit in der Beta-Phase für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M Token-Kontextfenster ist nur für Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 und Sonnet 4 verfügbar.
Um das 1M Token-Kontextfenster zu verwenden, fügen Sie den context-1m-2025-08-07 Beta-Header in Ihre API-Anfragen ein:
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: context-1m-2025-08-07" \
-H "content-type: application/json" \
-d '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "Process this large document..."}
]
}'Wichtige Überlegungen:
Claude Sonnet 4.6, Claude Sonnet 4.5 und Claude Haiku 4.5 verfügen über Kontextbewusstsein. Diese Fähigkeit ermöglicht es diesen Modellen, ihr verbleibendes Kontextfenster (d. h. "Token-Budget") während eines Gesprächs zu verfolgen. Dies ermöglicht Claude, Aufgaben auszuführen und den Kontext effektiver zu verwalten, indem es versteht, wie viel Platz es zur Verfügung hat. Claude ist darauf trainiert, diesen Kontext präzise zu nutzen und die Aufgabe bis zum Ende durchzuhalten, anstatt zu erraten, wie viele Token verbleiben. Für ein Modell ist das Fehlen von Kontextbewusstsein wie das Antreten in einer Kochshow ohne Uhr. Claude 4.5+ Modelle ändern dies, indem sie das Modell explizit über sein verbleibendes Kontextbudget informieren, damit es die verfügbaren Token maximal nutzen kann.
So funktioniert es:
Zu Beginn eines Gesprächs erhält Claude Informationen über sein Gesamtkontextfenster:
<budget:token_budget>200000</budget:token_budget>Das Budget ist auf 200K Token (Standard), 500K Token (claude.ai Enterprise) oder 1M Token (Beta, für berechtigte Organisationen) eingestellt.
Nach jedem Werkzeugaufruf erhält Claude eine Aktualisierung der verbleibenden Kapazität:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Dieses Bewusstsein hilft Claude zu bestimmen, wie viel Kapazität für die Arbeit verbleibt, und ermöglicht eine effektivere Ausführung bei lang laufenden Aufgaben. Image-Token sind in diesen Budgets enthalten.
Vorteile:
Kontextbewusstsein ist besonders wertvoll für:
Für Hinweise zur Eingabeaufforderung zur Nutzung von Kontextbewusstsein siehe den Leitfaden für Best Practices bei der Eingabeaufforderung.
Wenn sich Ihre Gespräche regelmäßig den Kontextfenster-Grenzen nähern, ist die serverseitige Komprimierung der empfohlene Ansatz. Die Komprimierung bietet serverseitige Zusammenfassung, die automatisch frühere Teile eines Gesprächs kondensiert, was lange laufende Gespräche über Kontextgrenzen hinaus mit minimaler Integrationsarbeit ermöglicht. Sie ist derzeit in der Beta-Phase für Claude Opus 4.6 verfügbar.
Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien:
Neuere Claude-Modelle (ab Claude Sonnet 3.7) geben einen Validierungsfehler zurück, wenn Eingabe- und Ausgabe-Token das Kontextfenster überschreiten, anstatt stillschweigend zu kürzen. Diese Änderung bietet vorhersehbareres Verhalten, erfordert aber sorgfältigere Token-Verwaltung.
Verwenden Sie die Token-Counting-API, um die Token-Nutzung vor dem Senden von Nachrichten an Claude zu schätzen. Dies hilft Ihnen, zu planen und innerhalb der Kontextfenster-Grenzen zu bleiben.
Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen nach Modell.
Die empfohlene Strategie zur Verwaltung des Kontexts in lang laufenden Gesprächen.
Feinkörnige Strategien wie Werkzeugergebnis-Löschen und Denkblock-Löschen.
Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen und Input-/Output-Token-Preise nach Modell.
Erfahren Sie mehr darüber, wie erweitertes Denken funktioniert und wie Sie es zusammen mit anderen Funktionen wie Werkzeugnutzung und Prompt-Caching implementieren.
Was this page helpful?