Das „Kontextfenster" bezieht sich auf die Gesamtmenge des Textes, auf den ein Sprachmodell zurückblicken und verweisen kann, wenn es neuen Text generiert, plus den neuen Text, den es generiert. Dies unterscheidet sich vom großen Datenbestand, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen „Arbeitsspeicher" für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingabeaufforderungen zu verstehen und darauf zu reagieren, während ein kleineres Kontextfenster die Fähigkeit des Modells, längere Eingabeaufforderungen zu verarbeiten oder die Kohärenz über längere Konversationen hinweg zu bewahren, einschränken kann.
Das folgende Diagramm zeigt das standardmäßige Kontextfensterverhalten für API-Anfragen1:
1Für Chat-Schnittstellen, wie z. B. für claude.ai, können Kontextfenster auch auf einem rollierenden „First-In-First-Out"-System eingerichtet werden.
Bei Verwendung von erweitertem Denken zählen alle Input- und Output-Token, einschließlich der Token, die zum Denken verwendet werden, zum Kontextfensterlimit, mit einigen Nuancen in Multi-Turn-Situationen.
Die Denk-Budget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Output-Token abgerechnet und zählen zu den Ratenlimits.
Allerdings werden vorherige Denk-Blöcke automatisch von der Claude-API aus der Kontextfensterberechnung entfernt und sind nicht Teil des Konversationsverlaufs, den das Modell für nachfolgende Turns „sieht", wodurch Token-Kapazität für tatsächliche Konversationsinhalte erhalten bleibt.
Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn erweitertes Denken aktiviert ist:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking-Blöcke als auch redacted_thinking-Blöcke.Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denk-Blöcke erhebliche Länge haben können.
Sie können mehr über das Kontextfenster und erweitertes Denken in unserem Leitfaden zum erweiterten Denken lesen.
Das folgende Diagramm zeigt die Kontextfenster-Token-Verwaltung beim Kombinieren von erweitertem Denken mit Tool-Nutzung:
Architektur des ersten Turns
Tool-Ergebnis-Handling (Turn 2)
tool_result. Der Denk-Block mit erweitertem Denken muss mit den entsprechenden Tool-Ergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denk-Blöcke zurückgeben müssen.user-Nachricht).Dritter Schritt
context_window = input_tokens + current_turn_tokens.Claude 4-Modelle unterstützen verschachteltes Denken, das es Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach dem Empfang von Tool-Ergebnissen anspruchsvolleres Denken durchzuführen.
Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Tool-Aufrufen ohne einen nicht-tool_result-User-Turn dazwischen.
Weitere Informationen zur Verwendung von Tools mit erweitertem Denken finden Sie in unserem Leitfaden zum erweiterten Denken.
Claude Sonnet 4 und 4.5 unterstützen ein 1-Million-Token-Kontextfenster. Dieses erweiterte Kontextfenster ermöglicht es Ihnen, viel größere Dokumente zu verarbeiten, längere Konversationen zu führen und mit umfangreicheren Codebasen zu arbeiten.
Das 1M-Token-Kontextfenster befindet sich derzeit in der Beta-Phase für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M-Token-Kontextfenster ist nur für Claude Sonnet 4 und Sonnet 4.5 verfügbar.
Um das 1M-Token-Kontextfenster zu verwenden, fügen Sie den context-1m-2025-08-07 Beta-Header in Ihre API-Anfragen ein:
Wichtige Überlegungen:
Claude Sonnet 4.5 und Claude Haiku 4.5 verfügen über Kontextbewusstsein, das es diesen Modellen ermöglicht, ihr verbleibendes Kontextfenster (d. h. „Token-Budget") während einer Konversation zu verfolgen. Dies ermöglicht es Claude, Aufgaben auszuführen und den Kontext effektiver zu verwalten, indem es versteht, wie viel Platz es zur Verfügung hat. Claude ist nativ darauf trainiert, dieses Kontextbewusstsein genau zu nutzen, um bei der Aufgabe bis zum sehr Ende zu bleiben, anstatt raten zu müssen, wie viele Token verbleiben. Für ein Modell ist das Fehlen von Kontextbewusstsein wie das Antreten in einer Kochshow ohne Uhr. Claude 4.5-Modelle ändern dies, indem sie das Modell explizit über sein verbleibendes Kontextfenster informieren, damit es die verfügbaren Token maximal nutzen kann.
So funktioniert es:
Zu Beginn einer Konversation erhält Claude Informationen über sein Gesamtkontextfenster:
<budget:token_budget>200000</budget:token_budget>Das Budget ist auf 200K Token (Standard), 500K Token (Claude.ai Enterprise) oder 1M Token (Beta, für berechtigte Organisationen) eingestellt.
Nach jedem Tool-Aufruf erhält Claude eine Aktualisierung der verbleibenden Kapazität:
<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>Dieses Bewusstsein hilft Claude zu bestimmen, wie viel Kapazität für die Arbeit verbleibt, und ermöglicht eine effektivere Ausführung bei langfristigen Aufgaben. Bild-Token sind in diesen Budgets enthalten.
Vorteile:
Kontextbewusstsein ist besonders wertvoll für:
Für Eingabeaufforderungs-Leitlinien zur Nutzung von Kontextbewusstsein siehe unseren Claude 4 Best Practices Guide.
Bei neueren Claude-Modellen (ab Claude Sonnet 3.7) gibt das System einen Validierungsfehler zurück, wenn die Summe von Eingabe-Token und Ausgabe-Token das Kontextfenster des Modells überschreitet, anstatt den Kontext stillschweigend zu kürzen. Diese Änderung bietet vorhersagbareres Verhalten, erfordert aber sorgfältigere Token-Verwaltung.
Um Ihre Token-Nutzung zu planen und sicherzustellen, dass Sie innerhalb der Kontextfensterlimits bleiben, können Sie die Token-Counting-API verwenden, um zu schätzen, wie viele Token Ihre Nachrichten verwenden werden, bevor Sie sie an Claude senden.
Siehe unsere Modellvergleich-Tabelle für eine Liste der Kontextfenstergrößen nach Modell.
UserUser-Turn außerhalb des Tool-Nutzungs-Zyklus gibt, generiert Claude einen neuen Denk-Block mit erweitertem Denken und setzt von dort aus fort.Assistant-Turn zählt als Teil des Kontextfensters.from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Process this large document..."}
],
betas=["context-1m-2025-08-07"]
)Erfahren Sie mehr darüber, wie erweitertes Denken funktioniert und wie Sie es zusammen mit anderen Funktionen wie Tool-Nutzung und Prompt-Caching implementieren.