Loading...
    • Erstellen
    • Admin
    • Modelle & Preise
    • Client SDKs
    • API-Referenz
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnellstart
    Mit Claude erstellen
    FunktionsübersichtVerwendung der Messages APIClaude API-FähigkeitStop-Gründe verarbeiten
    Modellmöglichkeiten
    Extended ThinkingAdaptive ThinkingAufwandTask Budgets (Beta)Fast Mode (Beta: Research Preview)Strukturierte AusgabenZitateStreaming MessagesBatch-VerarbeitungSuchergebnisseStreaming-AblehnungenMehrsprachige UnterstützungEmbeddings
    Tools
    ÜbersichtWie Tool-Nutzung funktioniertWeb Search ToolWeb Fetch ToolCode Execution ToolAdvisor ToolMemory ToolBash ToolComputer Use ToolText Editor Tool
    Tool-Infrastruktur
    Tool-ReferenzTool-SucheProgrammgesteuerte Tool-AufrufeFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt CachingToken-Zählung
    Mit Dateien arbeiten
    Files APIPDF-UnterstützungBilder und Vision
    Skills
    ÜbersichtSchnellstartBest PracticesSkills für UnternehmenSkills in der API
    MCP
    Remote MCP ServerMCP Connector
    Prompt Engineering
    ÜbersichtBest Practices für PromptingConsole Prompting Tools
    Testen und evaluieren
    Erfolg definieren und Evaluierungen erstellenVerwendung des Evaluation Tools in ConsoleLatenz reduzieren
    Guardrails verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenPrompt-Leak reduzieren
    Ressourcen
    Glossar
    Versionshinweise
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Kontextverwaltung

    Kontextfenster

    Erfahren Sie, wie Kontextfenster funktionieren und welche Strategien zur effektiven Verwaltung verfügbar sind.

    This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

    Mit wachsenden Gesprächen werden Sie schließlich die Grenzen des Kontextfensters erreichen. Dieser Leitfaden erklärt, wie Kontextfenster funktionieren, und stellt Strategien zur effektiven Verwaltung vor.

    Für lange laufende Gespräche und agentengesteuerte Workflows ist die serverseitige Komprimierung die primäre Strategie für die Kontextverwaltung. Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien wie das Löschen von Werkzeugergebnissen und das Löschen von Denkblöcken.

    Verständnis des Kontextfensters

    Das „Kontextfenster" bezieht sich auf den gesamten Text, auf den ein Sprachmodell verweisen kann, wenn es eine Antwort generiert, einschließlich der Antwort selbst. Dies unterscheidet sich vom großen Datensatz, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen „Arbeitsspeicher" für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingabeaufforderungen zu verarbeiten, aber mehr Kontext ist nicht automatisch besser. Mit zunehmender Token-Anzahl verschlechtern sich Genauigkeit und Rückruf, ein Phänomen, das als Kontextverfall bekannt ist. Dies macht die Kuratierung des Kontextinhalts genauso wichtig wie die verfügbare Menge an Speicherplatz.

    Claude erreicht modernste Ergebnisse bei Long-Context-Abruf-Benchmarks wie MRCR und GraphWalks, aber diese Verbesserungen hängen davon ab, was sich im Kontext befindet, nicht nur davon, wie viel passt.

    Für einen tieferen Einblick, warum lange Kontexte sich verschlechtern und wie man dies umgehen kann, siehe Effektive Kontextgestaltung.

    Das folgende Diagramm zeigt das standardmäßige Kontextfenster-Verhalten für API-Anfragen1:

    Kontextfenster-Diagramm

    1Für Chat-Schnittstellen, wie z.B. für claude.ai, können Kontextfenster auch auf einem rollierenden „First-In-First-Out"-System eingerichtet werden.

    • Progressive Token-Ansammlung: Mit dem Fortschreiten des Gesprächs durch Runden sammeln sich jede Benutzernachricht und jede Assistentenantwort im Kontextfenster an. Vorherige Runden werden vollständig beibehalten.
    • Lineares Wachstumsmuster: Die Kontextnutzung wächst linear mit jeder Runde, wobei vorherige Runden vollständig beibehalten werden.
    • Kontextfenster-Kapazität: Das gesamte verfügbare Kontextfenster (bis zu 1M Token) stellt die maximale Kapazität für die Speicherung von Gesprächsverlauf und die Generierung neuer Ausgaben von Claude dar.
    • Ein-/Ausgabefluss: Jede Runde besteht aus:
      • Eingabephase: Enthält den gesamten vorherigen Gesprächsverlauf plus die aktuelle Benutzernachricht
      • Ausgabephase: Generiert eine Textantwort, die Teil einer zukünftigen Eingabe wird

    Das Kontextfenster mit erweitertem Denken

    Bei Verwendung von erweitertem Denken zählen alle Ein- und Ausgabe-Token, einschließlich der für das Denken verwendeten Token, zum Limit des Kontextfensters, mit einigen Nuancen in Multi-Turn-Situationen.

    Die Denk-Budget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Ausgabe-Token abgerechnet und zählen zu den Ratenlimits. Mit adaptivem Denken entscheidet Claude dynamisch seine Denk-Zuteilung, sodass die tatsächliche Denk-Token-Nutzung pro Anfrage variieren kann.

    Allerdings werden vorherige Denkblöcke automatisch von der Claude API aus der Kontextfenster-Berechnung entfernt und sind nicht Teil des Gesprächsverlaufs, den das Modell für nachfolgende Runden „sieht", wodurch Token-Kapazität für tatsächliche Gesprächsinhalte erhalten bleibt.

    Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn erweitertes Denken aktiviert ist:

    Kontextfenster-Diagramm mit erweitertem Denken

    • Entfernen von erweitertem Denken: Blöcke mit erweitertem Denken (in dunkelgrau dargestellt) werden während der Ausgabephase jeder Runde generiert, werden aber nicht als Eingabe-Token für nachfolgende Runden weitergeleitet. Sie müssen die Denkblöcke nicht selbst entfernen. Die Claude API macht dies automatisch für Sie, wenn Sie sie zurückgeben.
    • Technische Implementierungsdetails:
      • Die API schließt automatisch Denkblöcke aus vorherigen Runden aus, wenn Sie diese als Teil des Gesprächsverlaufs zurückgeben.
      • Token für erweitertes Denken werden nur einmal als Ausgabe-Token abgerechnet, während ihrer Generierung.
      • Die effektive Kontextfenster-Berechnung wird zu: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • Denk-Token umfassen thinking-Blöcke.

    Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erhebliche Länge haben können.

    Sie können mehr über das Kontextfenster und erweitertes Denken im Leitfaden zum erweiterten Denken lesen.

    Das Kontextfenster mit erweitertem Denken und Werkzeugnutzung

    Das folgende Diagramm zeigt die Kontextfenster-Token-Verwaltung beim Kombinieren von erweitertem Denken mit Werkzeugnutzung:

    Kontextfenster-Diagramm mit erweitertem Denken und Werkzeugnutzung

    1. 1

      Architektur der ersten Runde

      • Eingabekomponenten: Werkzeugkonfiguration und Benutzernachricht
      • Ausgabekomponenten: Erweitertes Denken + Textantwort + Werkzeuganforderung
      • Token-Berechnung: Alle Ein- und Ausgabekomponenten zählen zum Kontextfenster, und alle Ausgabekomponenten werden als Ausgabe-Token abgerechnet.
    2. 2

      Werkzeugergebnis-Verarbeitung (Runde 2)

      • Eingabekomponenten: Jeder Block aus der ersten Runde sowie das tool_result. Der Denkblock muss mit den entsprechenden Werkzeugergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.
      • Ausgabekomponenten: Nachdem Werkzeugergebnisse an Claude zurückgegeben wurden, antwortet Claude nur mit Text (kein zusätzliches erweitertes Denken bis zur nächsten user-Nachricht).
      • Token-Berechnung: Alle Ein- und Ausgabekomponenten zählen zum Kontextfenster, und alle Ausgabekomponenten werden als Ausgabe-Token abgerechnet.
    3. 3

      Dritter Schritt

      • Alle Eingaben und die Ausgabe aus der vorherigen Runde werden weitergeleitet, mit Ausnahme des Denkblocks, der jetzt gelöscht werden kann, nachdem Claude den gesamten Werkzeugnutzungs-Zyklus abgeschlossen hat. Die API entfernt den Denkblock automatisch für Sie, wenn Sie ihn zurückgeben, oder Sie können ihn in diesem Stadium selbst löschen. Dies ist auch der Ort, an dem Sie die nächste -Runde hinzufügen würden.
    • Überlegungen zur Werkzeugnutzung mit erweitertem Denken:
      • Beim Posten von Werkzeugergebnissen muss der gesamte unveränderte Denkblock, der diese spezifische Werkzeuganforderung begleitet (einschließlich Signaturteile), enthalten sein.
      • Die effektive Kontextfenster-Berechnung für erweitertes Denken mit Werkzeugnutzung wird zu: context_window = input_tokens + current_turn_tokens.
      • Das System verwendet kryptografische Signaturen, um die Authentizität von Denkblöcken zu überprüfen. Das Nichtbeibehalten von Denkblöcken während der Werkzeugnutzung kann Claudes Denk-Kontinuität unterbrechen. Wenn Sie also Denkblöcke ändern, gibt die API einen Fehler zurück.

    Claude 4-Modelle unterstützen verschachteltes Denken, das Claude ermöglicht, zwischen Werkzeugaufrufen zu denken und nach dem Empfang von Werkzeugergebnissen anspruchsvollere Überlegungen anzustellen.

    Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Werkzeugaufrufen ohne eine dazwischenliegende user-Runde, die kein tool_result ist.

    Weitere Informationen zur Verwendung von Werkzeugen mit erweitertem Denken finden Sie im Leitfaden zum erweiterten Denken.

    Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 haben ein Kontextfenster von 1M Token. Andere Claude-Modelle, einschließlich Claude Sonnet 4.5 und Sonnet 4 (veraltet), haben ein Kontextfenster von 200k Token.

    Eine einzelne Anfrage kann bis zu 600 Bilder oder PDF-Seiten enthalten (100 für Modelle mit einem 200k-Token-Kontextfenster). Beim Senden vieler Bilder oder großer Dokumente können Sie die Anfragegrößenlimits erreichen, bevor Sie das Token-Limit erreichen.

    Kontextbewusstsein in Claude Sonnet 4.6, Sonnet 4.5 und Haiku 4.5

    Claude Sonnet 4.6, Claude Sonnet 4.5 und Claude Haiku 4.5 verfügen über Kontextbewusstsein. Diese Fähigkeit ermöglicht es diesen Modellen, ihr verbleibendes Kontextfenster (d.h. „Token-Budget") während eines Gesprächs zu verfolgen. Dies ermöglicht Claude, Aufgaben auszuführen und den Kontext effektiver zu verwalten, indem es versteht, wie viel Platz es hat. Claude ist darauf trainiert, diesen Kontext präzise zu nutzen und die Aufgabe bis zum Ende durchzuführen, anstatt zu erraten, wie viele Token verbleiben. Für ein Modell ist das Fehlen von Kontextbewusstsein wie das Antreten in einer Kochshow ohne Uhr. Claude 4.5+-Modelle ändern dies, indem sie das Modell explizit über seinen verbleibenden Kontext informieren, damit es die verfügbaren Token maximal nutzen kann.

    Wie es funktioniert:

    Zu Beginn eines Gesprächs erhält Claude Informationen über sein gesamtes Kontextfenster:

    <budget:token_budget>1000000</budget:token_budget>

    Das Budget ist auf 1M Token eingestellt (200k für Modelle mit einem kleineren Kontextfenster).

    Nach jedem Werkzeugaufruf erhält Claude eine Aktualisierung der verbleibenden Kapazität:

    <system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

    Dieses Bewusstsein hilft Claude zu bestimmen, wie viel Kapazität für die Arbeit verbleibt, und ermöglicht eine effektivere Ausführung bei langfristigen Aufgaben. Bild-Token sind in diesen Budgets enthalten.

    Vorteile:

    Kontextbewusstsein ist besonders wertvoll für:

    • Langfristige Agent-Sitzungen, die anhaltende Aufmerksamkeit erfordern
    • Multi-Kontextfenster-Workflows, bei denen Zustandsübergänge wichtig sind
    • Komplexe Aufgaben, die sorgfältige Token-Verwaltung erfordern

    Für Agenten, die mehrere Sitzungen umfassen, gestalten Sie Ihre Zustandsartefakte so, dass die Kontextwiederherstellung schnell ist, wenn eine neue Sitzung beginnt. Das Multi-Session-Muster des Memory-Tools zeigt einen konkreten Ansatz. Siehe auch Effektive Harnesses für langfristige Agenten.

    Für Hinweise zur Eingabeaufforderung zur Nutzung von Kontextbewusstsein siehe den Leitfaden zu Best Practices bei der Eingabeaufforderung.

    Kontextverwaltung mit Komprimierung

    Wenn Ihre Gespräche regelmäßig die Grenzen des Kontextfensters erreichen, ist die serverseitige Komprimierung der empfohlene Ansatz. Die Komprimierung bietet serverseitige Zusammenfassung, die automatisch frühere Teile eines Gesprächs verdichtet und lange Gespräche über Kontextlimits hinaus mit minimaler Integrationsarbeit ermöglicht. Sie ist derzeit in der Beta-Phase für Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 verfügbar.

    Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien:

    • Werkzeugergebnis-Löschen - Löschen Sie alte Werkzeugergebnisse in agentengesteuerten Workflows
    • Denkblock-Löschen - Verwalten Sie Denkblöcke mit erweitertem Denken

    Kontextfenster-Verwaltung mit neueren Claude-Modellen

    Neuere Claude-Modelle (ab Claude Sonnet 3.7) geben einen Validierungsfehler zurück, wenn Eingabe- und Ausgabe-Token das Kontextfenster überschreiten, anstatt stillschweigend zu kürzen. Diese Änderung bietet vorhersehbareres Verhalten, erfordert aber sorgfältigere Token-Verwaltung.

    Verwenden Sie die Token-Zähl-API, um die Token-Nutzung vor dem Senden von Nachrichten an Claude zu schätzen. Dies hilft Ihnen, zu planen und innerhalb der Kontextfenster-Limits zu bleiben.

    Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen nach Modell.

    Nächste Schritte

    Komprimierung

    Die empfohlene Strategie zur Verwaltung des Kontexts in langfristigen Gesprächen.

    Kontextbearbeitung

    Feinkörnige Strategien wie Werkzeugergebnis-Löschen und Denkblock-Löschen.

    Modellvergleichstabelle

    Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen und Ein-/Ausgabe-Token-Preise nach Modell.

    Was this page helpful?

    • Verständnis des Kontextfensters
    • Das Kontextfenster mit erweitertem Denken
    • Das Kontextfenster mit erweitertem Denken und Werkzeugnutzung
    • Kontextbewusstsein in Claude Sonnet 4.6, Sonnet 4.5 und Haiku 4.5
    • Kontextverwaltung mit Komprimierung
    • Kontextfenster-Verwaltung mit neueren Claude-Modellen
    • Nächste Schritte
    Eingabekomponenten:
    User
  1. Ausgabekomponenten: Da es eine neue User-Runde außerhalb des Werkzeugnutzungs-Zyklus gibt, generiert Claude einen neuen Denkblock und setzt von dort aus fort.
  2. Token-Berechnung: Vorherige Denk-Token werden automatisch aus Kontextfenster-Berechnungen entfernt. Alle anderen vorherigen Blöcke zählen weiterhin zum Token-Fenster, und der Denkblock in der aktuellen Assistant-Runde zählt zum Kontextfenster.
  3. Übersicht über erweitertes Denken

    Erfahren Sie mehr über die Funktionsweise von erweitertem Denken und wie Sie es zusammen mit anderen Funktionen wie Werkzeugnutzung und Prompt-Caching implementieren.