Loading...
    • Entwicklerleitfaden
    • API-Referenz
    • MCP
    • Ressourcen
    • Versionshinweise
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnelleinstieg
    Modelle & Preise
    ModellübersichtModell auswählenNeuerungen in Claude 4.6MigrationsleitfadenModellabschreibungenPreise
    Mit Claude entwickeln
    FunktionsübersichtMessages API verwendenStop-Gründe verarbeitenBest Practices für Prompts
    Modellfähigkeiten
    Extended ThinkingAdaptive ThinkingAufwandFast Mode (Research Preview)Strukturierte AusgabenZitateStreaming MessagesBatch-VerarbeitungPDF-UnterstützungSuchergebnisseMehrsprachige UnterstützungEmbeddingsVision
    Tools
    ÜbersichtTool-Nutzung implementierenWeb-Such-ToolWeb-Abruf-ToolCode-Ausführungs-ToolMemory-ToolBash-ToolComputer-Use-ToolText-Editor-Tool
    Tool-Infrastruktur
    Tool-SucheProgrammgesteuerte Tool-AufrufeFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt CachingToken-Zählung
    Dateien & Assets
    Files API
    Agent Skills
    ÜbersichtSchnelleinstiegBest PracticesSkills für UnternehmenSkills mit der API verwenden
    Agent SDK
    ÜbersichtSchnelleinstiegTypeScript SDKTypeScript V2 (Preview)Python SDKMigrationsleitfaden
    MCP in der API
    MCP-ConnectorRemote MCP-Server
    Claude auf Plattformen von Drittanbietern
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt Engineering
    ÜbersichtPrompt-GeneratorPrompt-Vorlagen verwendenPrompt-VerbessererKlar und direkt seinBeispiele verwenden (Multishot Prompting)Claude denken lassen (CoT)XML-Tags verwendenClaude eine Rolle geben (System Prompts)Komplexe Prompts verkettenTipps für lange KontexteTipps für Extended Thinking
    Testen & Evaluieren
    Erfolgskriterien definierenTestfälle entwickelnEvaluierungstool verwendenLatenz reduzieren
    Schutzmaßnahmen verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenStreaming-AblehnungenPrompt-Lecks reduzierenClaude im Charakter halten
    Verwaltung und Überwachung
    Admin API ÜbersichtDatenspeicherortArbeitsbereicheUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Kontextverwaltung

    Kontextfenster

    Erfahren Sie, wie Kontextfenster funktionieren und welche Strategien es für die effektive Verwaltung gibt.

    Mit wachsenden Gesprächen werden Sie sich schließlich den Grenzen des Kontextfensters nähern. Dieser Leitfaden erklärt, wie Kontextfenster funktionieren, und stellt Strategien zur effektiven Verwaltung vor.

    Für lange laufende Gespräche und agentengesteuerte Workflows ist die serverseitige Komprimierung die primäre Strategie für die Kontextverwaltung. Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien wie das Löschen von Werkzeugergebnissen und das Löschen von Denkblöcken.

    Das Kontextfenster verstehen

    Das "Kontextfenster" bezieht sich auf den gesamten Text, auf den ein Sprachmodell verweisen kann, wenn es eine Antwort generiert, einschließlich der Antwort selbst. Dies unterscheidet sich vom großen Datensatz, auf dem das Sprachmodell trainiert wurde, und stellt stattdessen einen "Arbeitsspeicher" für das Modell dar. Ein größeres Kontextfenster ermöglicht es dem Modell, komplexere und längere Eingaben zu verarbeiten. Ein kleineres Kontextfenster kann die Fähigkeit des Modells einschränken, die Kohärenz über längere Gespräche hinweg zu bewahren.

    Das folgende Diagramm zeigt das standardmäßige Kontextfensterverhalten für API-Anfragen1:

    Kontextfenster-Diagramm

    1Für Chat-Schnittstellen wie claude.ai können Kontextfenster auch auf einem rollierenden "First-In-First-Out"-System eingerichtet werden.

    • Progressive Token-Akkumulation: Mit fortschreitender Konversation sammeln sich jede Benutzernachricht und jede Assistentenantwort im Kontextfenster an. Vorherige Turns werden vollständig beibehalten.
    • Lineares Wachstumsmuster: Die Kontextnutzung wächst linear mit jedem Turn, wobei vorherige Turns vollständig beibehalten werden.
    • 200K Token-Kapazität: Das verfügbare Gesamtkontextfenster (200.000 Token) stellt die maximale Kapazität für die Speicherung von Gesprächsverlauf und die Generierung neuer Ausgaben von Claude dar.
    • Input-Output-Fluss: Jeder Turn besteht aus:
      • Input-Phase: Enthält den gesamten vorherigen Gesprächsverlauf plus die aktuelle Benutzernachricht
      • Output-Phase: Generiert eine Textantwort, die Teil einer zukünftigen Eingabe wird

    Das Kontextfenster mit erweitertem Denken

    Bei Verwendung von erweitertem Denken zählen alle Input- und Output-Token, einschließlich der Token, die zum Denken verwendet werden, zur Kontextfenstergrenze, mit einigen Nuancen in Multi-Turn-Situationen.

    Die Denkbudget-Token sind eine Teilmenge Ihres max_tokens-Parameters, werden als Output-Token abgerechnet und zählen zu den Ratenlimits. Mit adaptivem Denken entscheidet Claude dynamisch seine Denkzuteilung, sodass die tatsächliche Denktoken-Nutzung pro Anfrage variieren kann.

    Allerdings werden vorherige Denkblöcke automatisch von der Claude-API aus der Kontextfensterberechnung entfernt und sind nicht Teil des Gesprächsverlaufs, den das Modell für nachfolgende Turns "sieht", wodurch die Token-Kapazität für tatsächliche Gesprächsinhalte erhalten bleibt.

    Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn erweitertes Denken aktiviert ist:

    Kontextfenster-Diagramm mit erweitertem Denken

    • Entfernen von erweitertem Denken: Blöcke mit erweitertem Denken (in dunkelgrau dargestellt) werden während der Output-Phase jedes Turns generiert, werden aber nicht als Input-Token für nachfolgende Turns weitergeleitet. Sie müssen die Denkblöcke nicht selbst entfernen. Die Claude-API macht dies automatisch für Sie, wenn Sie sie zurückgeben.
    • Technische Implementierungsdetails:
      • Die API schließt automatisch Denkblöcke aus vorherigen Turns aus, wenn Sie diese als Teil des Gesprächsverlaufs zurückgeben.
      • Token für erweitertes Denken werden nur einmal als Output-Token abgerechnet, während ihrer Generierung.
      • Die effektive Kontextfensterberechnung wird zu: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • Denktoken umfassen sowohl thinking-Blöcke als auch redacted_thinking-Blöcke.

    Diese Architektur ist Token-effizient und ermöglicht umfangreiches Denken ohne Token-Verschwendung, da Denkblöcke erhebliche Länge haben können.

    Sie können mehr über das Kontextfenster und erweitertes Denken im Leitfaden für erweitertes Denken lesen.

    Das Kontextfenster mit erweitertem Denken und Werkzeugnutzung

    Das folgende Diagramm zeigt die Kontextfenster-Token-Verwaltung beim Kombinieren von erweitertem Denken mit Werkzeugnutzung:

    Kontextfenster-Diagramm mit erweitertem Denken und Werkzeugnutzung

    1. 1

      Architektur des ersten Turns

      • Input-Komponenten: Werkzeugkonfiguration und Benutzernachricht
      • Output-Komponenten: Erweitertes Denken + Textantwort + Werkzeuganforderung
      • Token-Berechnung: Alle Input- und Output-Komponenten zählen zum Kontextfenster, und alle Output-Komponenten werden als Output-Token abgerechnet.
    2. 2

      Werkzeugergebnis-Handling (Turn 2)

      • Input-Komponenten: Jeder Block aus dem ersten Turn sowie das tool_result. Der Block mit erweitertem Denken muss mit den entsprechenden Werkzeugergebnissen zurückgegeben werden. Dies ist der einzige Fall, in dem Sie Denkblöcke zurückgeben müssen.
      • Output-Komponenten: Nachdem Werkzeugergebnisse an Claude zurückgegeben wurden, antwortet Claude nur mit Text (kein zusätzliches erweitertes Denken bis zur nächsten user-Nachricht).
      • Token-Berechnung: Alle Input- und Output-Komponenten zählen zum Kontextfenster, und alle Output-Komponenten werden als Output-Token abgerechnet.
    3. 3

      Dritter Schritt

      • Input-Komponenten: Alle Eingaben und die Ausgabe aus dem vorherigen Turn werden weitergeleitet, mit Ausnahme des Denkblocks, der jetzt gelöscht werden kann, nachdem Claude den gesamten Werkzeugnutzungs-Zyklus abgeschlossen hat. Die API entfernt den Denkblock automatisch für Sie, wenn Sie ihn zurückgeben, oder Sie können ihn in diesem Stadium selbst löschen. Dies ist auch der Ort, an dem Sie den nächsten User-Turn hinzufügen würden.
      • Output-Komponenten: Da es einen neuen User-Turn außerhalb des Werkzeugnutzungs-Zyklus gibt, generiert Claude einen neuen Block mit erweitertem Denken und setzt von dort aus fort.
      • Token-Berechnung: Vorherige Denktoken werden automatisch aus Kontextfensterberechnungen entfernt. Alle anderen vorherigen Blöcke zählen weiterhin zum Token-Fenster, und der Denkblock im aktuellen Assistant-Turn zählt zum Kontextfenster.
    • Überlegungen zur Werkzeugnutzung mit erweitertem Denken:
      • Beim Posten von Werkzeugergebnissen muss der gesamte unveränderte Denkblock, der diese spezifische Werkzeuganforderung begleitet (einschließlich Signatur/geschwärzter Teile), enthalten sein.
      • Die effektive Kontextfensterberechnung für erweitertes Denken mit Werkzeugnutzung wird zu: context_window = input_tokens + current_turn_tokens.
      • Das System verwendet kryptographische Signaturen, um die Authentizität von Denkblöcken zu überprüfen. Das Versäumnis, Denkblöcke während der Werkzeugnutzung zu bewahren, kann Claudes Denkkontinuität unterbrechen. Wenn Sie also Denkblöcke ändern, gibt die API einen Fehler zurück.

    Claude 4-Modelle unterstützen verschachteltes Denken, das Claude ermöglicht, zwischen Werkzeugaufrufen zu denken und nach Erhalt von Werkzeugergebnissen anspruchsvollere Überlegungen anzustellen.

    Claude Sonnet 3.7 unterstützt kein verschachteltes Denken, daher gibt es keine Verschachtelung von erweitertem Denken und Werkzeugaufrufen ohne einen dazwischenliegenden user-Turn, der kein tool_result ist.

    Weitere Informationen zur Verwendung von Werkzeugen mit erweitertem Denken finden Sie im Leitfaden für erweitertes Denken.

    1M Token-Kontextfenster

    Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 und Sonnet 4 unterstützen ein Kontextfenster mit 1 Million Token. Dieses erweiterte Kontextfenster ermöglicht es Ihnen, viel größere Dokumente zu verarbeiten, längere Gespräche zu führen und mit umfangreicheren Codebasen zu arbeiten.

    Das 1M Token-Kontextfenster befindet sich derzeit in der Beta-Phase für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits. Das 1M Token-Kontextfenster ist nur für Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 und Sonnet 4 verfügbar.

    Um das 1M Token-Kontextfenster zu verwenden, fügen Sie den context-1m-2025-08-07 Beta-Header in Ihre API-Anfragen ein:

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: context-1m-2025-08-07" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {"role": "user", "content": "Process this large document..."}
        ]
      }'

    Wichtige Überlegungen:

    • Beta-Status: Dies ist eine Beta-Funktion, die Änderungen unterliegt. Funktionen und Preise können in zukünftigen Versionen geändert oder entfernt werden.
    • Anforderung an Nutzungsstufe: Das 1M Token-Kontextfenster ist für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenlimits verfügbar. Organisationen mit niedrigerer Stufe müssen auf Nutzungsstufe 4 aufsteigen, um auf diese Funktion zuzugreifen.
    • Verfügbarkeit: Das 1M Token-Kontextfenster ist derzeit auf der Claude-API, Microsoft Foundry, Amazon Bedrock und Google Cloud's Vertex AI verfügbar.
    • Preise: Anfragen, die 200K Token überschreiten, werden automatisch mit Premium-Sätzen berechnet (2x Input, 1,5x Output-Preise). Weitere Informationen finden Sie in der Preisdokumentation.
    • Ratenlimits: Long-Context-Anfragen haben dedizierte Ratenlimits. Weitere Informationen finden Sie in der Ratenlimit-Dokumentation.
    • Multimodale Überlegungen: Bei der Verarbeitung großer Mengen von Bildern oder PDFs sollten Sie beachten, dass die Dateien in der Token-Nutzung variieren können. Wenn Sie eine große Eingabe mit einer großen Anzahl von Bildern kombinieren, können Sie auf Anfragegrößenlimits stoßen.

    Kontextbewusstsein in Claude Sonnet 4.6, Sonnet 4.5 und Haiku 4.5

    Claude Sonnet 4.6, Claude Sonnet 4.5 und Claude Haiku 4.5 verfügen über Kontextbewusstsein. Diese Fähigkeit ermöglicht es diesen Modellen, ihr verbleibendes Kontextfenster (d. h. "Token-Budget") während eines Gesprächs zu verfolgen. Dies ermöglicht Claude, Aufgaben auszuführen und den Kontext effektiver zu verwalten, indem es versteht, wie viel Platz es zur Verfügung hat. Claude ist darauf trainiert, diesen Kontext präzise zu nutzen und die Aufgabe bis zum Ende durchzuhalten, anstatt zu erraten, wie viele Token verbleiben. Für ein Modell ist das Fehlen von Kontextbewusstsein wie das Antreten in einer Kochshow ohne Uhr. Claude 4.5+ Modelle ändern dies, indem sie das Modell explizit über sein verbleibendes Kontextbudget informieren, damit es die verfügbaren Token maximal nutzen kann.

    So funktioniert es:

    Zu Beginn eines Gesprächs erhält Claude Informationen über sein Gesamtkontextfenster:

    <budget:token_budget>200000</budget:token_budget>

    Das Budget ist auf 200K Token (Standard), 500K Token (claude.ai Enterprise) oder 1M Token (Beta, für berechtigte Organisationen) eingestellt.

    Nach jedem Werkzeugaufruf erhält Claude eine Aktualisierung der verbleibenden Kapazität:

    <system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

    Dieses Bewusstsein hilft Claude zu bestimmen, wie viel Kapazität für die Arbeit verbleibt, und ermöglicht eine effektivere Ausführung bei lang laufenden Aufgaben. Image-Token sind in diesen Budgets enthalten.

    Vorteile:

    Kontextbewusstsein ist besonders wertvoll für:

    • Lange laufende Agent-Sitzungen, die anhaltende Aufmerksamkeit erfordern
    • Multi-Kontextfenster-Workflows, bei denen Zustandsübergänge wichtig sind
    • Komplexe Aufgaben, die sorgfältige Token-Verwaltung erfordern

    Für Hinweise zur Eingabeaufforderung zur Nutzung von Kontextbewusstsein siehe den Leitfaden für Best Practices bei der Eingabeaufforderung.

    Kontextverwaltung mit Komprimierung

    Wenn sich Ihre Gespräche regelmäßig den Kontextfenster-Grenzen nähern, ist die serverseitige Komprimierung der empfohlene Ansatz. Die Komprimierung bietet serverseitige Zusammenfassung, die automatisch frühere Teile eines Gesprächs kondensiert, was lange laufende Gespräche über Kontextgrenzen hinaus mit minimaler Integrationsarbeit ermöglicht. Sie ist derzeit in der Beta-Phase für Claude Opus 4.6 verfügbar.

    Für spezialisierte Anforderungen bietet die Kontextbearbeitung zusätzliche Strategien:

    • Werkzeugergebnis-Löschen - Löschen Sie alte Werkzeugergebnisse in agentengesteuerten Workflows
    • Denkblock-Löschen - Verwalten Sie Denkblöcke mit erweitertem Denken

    Kontextfenster-Verwaltung mit neueren Claude-Modellen

    Neuere Claude-Modelle (ab Claude Sonnet 3.7) geben einen Validierungsfehler zurück, wenn Eingabe- und Ausgabe-Token das Kontextfenster überschreiten, anstatt stillschweigend zu kürzen. Diese Änderung bietet vorhersehbareres Verhalten, erfordert aber sorgfältigere Token-Verwaltung.

    Verwenden Sie die Token-Counting-API, um die Token-Nutzung vor dem Senden von Nachrichten an Claude zu schätzen. Dies hilft Ihnen, zu planen und innerhalb der Kontextfenster-Grenzen zu bleiben.

    Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen nach Modell.

    Nächste Schritte

    Komprimierung

    Die empfohlene Strategie zur Verwaltung des Kontexts in lang laufenden Gesprächen.

    Kontextbearbeitung

    Feinkörnige Strategien wie Werkzeugergebnis-Löschen und Denkblock-Löschen.

    Modellvergleichstabelle

    Siehe die Modellvergleichstabelle für eine Liste der Kontextfenstergrößen und Input-/Output-Token-Preise nach Modell.

    Übersicht über erweitertes Denken

    Erfahren Sie mehr darüber, wie erweitertes Denken funktioniert und wie Sie es zusammen mit anderen Funktionen wie Werkzeugnutzung und Prompt-Caching implementieren.

    Was this page helpful?

    • Das Kontextfenster verstehen
    • Das Kontextfenster mit erweitertem Denken
    • Das Kontextfenster mit erweitertem Denken und Werkzeugnutzung
    • 1M Token-Kontextfenster
    • Kontextbewusstsein in Claude Sonnet 4.6, Sonnet 4.5 und Haiku 4.5
    • Kontextverwaltung mit Komprimierung
    • Kontextfenster-Verwaltung mit neueren Claude-Modellen
    • Nächste Schritte