Loading...
    • Entwicklerleitfaden
    • API-Referenz
    • MCP
    • Ressourcen
    • Versionshinweise
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnelleinstieg
    Modelle & Preise
    ModellübersichtModell auswählenNeuerungen in Claude 4.6MigrationsleitfadenModellabschreibungenPreise
    Mit Claude entwickeln
    FunktionsübersichtMessages API verwendenStop-Gründe verarbeitenBest Practices für Prompts
    Modellfähigkeiten
    Extended ThinkingAdaptive ThinkingAufwandFast Mode (Research Preview)Strukturierte AusgabenZitateStreaming MessagesBatch-VerarbeitungPDF-UnterstützungSuchergebnisseMehrsprachige UnterstützungEmbeddingsVision
    Tools
    ÜbersichtTool-Nutzung implementierenWeb-Such-ToolWeb-Abruf-ToolCode-Ausführungs-ToolMemory-ToolBash-ToolComputer-Use-ToolText-Editor-Tool
    Tool-Infrastruktur
    Tool-SucheProgrammgesteuerte Tool-AufrufeFeingranulares Tool-Streaming
    Kontextverwaltung
    KontextfensterKomprimierungKontextbearbeitungPrompt CachingToken-Zählung
    Dateien & Assets
    Files API
    Agent Skills
    ÜbersichtSchnelleinstiegBest PracticesSkills für UnternehmenSkills mit der API verwenden
    Agent SDK
    ÜbersichtSchnelleinstiegTypeScript SDKTypeScript V2 (Preview)Python SDKMigrationsleitfaden
    MCP in der API
    MCP-ConnectorRemote MCP-Server
    Claude auf Plattformen von Drittanbietern
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt Engineering
    ÜbersichtPrompt-GeneratorPrompt-Vorlagen verwendenPrompt-VerbessererKlar und direkt seinBeispiele verwenden (Multishot Prompting)Claude denken lassen (CoT)XML-Tags verwendenClaude eine Rolle geben (System Prompts)Komplexe Prompts verkettenTipps für lange KontexteTipps für Extended Thinking
    Testen & Evaluieren
    Erfolgskriterien definierenTestfälle entwickelnEvaluierungstool verwendenLatenz reduzieren
    Schutzmaßnahmen verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenStreaming-AblehnungenPrompt-Lecks reduzierenClaude im Charakter halten
    Verwaltung und Überwachung
    Admin API ÜbersichtDatenspeicherortArbeitsbereicheUsage and Cost APIClaude Code Analytics APIZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Modellfähigkeiten

    Mit erweitertem Denken bauen

    Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess bietet, bevor es seine endgültige Antwort liefert.

    Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess bietet, bevor es seine endgültige Antwort liefert.

    Für Claude Opus 4.6 empfehlen wir die Verwendung von adaptivem Denken (thinking: {type: "adaptive"}) mit dem Effort-Parameter anstelle des auf dieser Seite beschriebenen manuellen Denkenmodus. Die manuelle Konfiguration thinking: {type: "enabled", budget_tokens: N} ist auf Opus 4.6 veraltet und wird in einer zukünftigen Modellversion entfernt.

    Unterstützte Modelle

    Erweitertes Denken wird in den folgenden Modellen unterstützt:

    • Claude Opus 4.6 (claude-opus-4-6) — adaptives Denken nur; manueller Modus (type: "enabled") ist veraltet
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)
    • Claude Sonnet 4.6 (claude-sonnet-4-6) — unterstützt sowohl manuelles erweitertes Denken mit verschachteltem Modus als auch adaptives Denken
    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (veraltet)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)

    Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.

    Weitere Informationen finden Sie unter Unterschiede beim Denken über Modellversionen hinweg.

    Wie erweitertes Denken funktioniert

    Wenn erweitertes Denken aktiviert ist, erstellt Claude thinking Inhaltsblöcke, in denen es seine interne Überlegung ausgibt. Claude bezieht Erkenntnisse aus dieser Überlegung ein, bevor es eine endgültige Antwort formuliert.

    Die API-Antwort wird thinking Inhaltsblöcke enthalten, gefolgt von text Inhaltsblöcken.

    Hier ist ein Beispiel des Standard-Antwortformats:

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Weitere Informationen zum Antwortformat des erweiterten Denkens finden Sie in der Messages API-Referenz.

    Wie man erweitertes Denken verwendet

    Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:

    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-6",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
            }
        ]
    }'

    Um erweitertes Denken zu aktivieren, fügen Sie ein thinking Objekt hinzu, wobei der type Parameter auf enabled und budget_tokens auf ein angegebenes Token-Budget für erweitertes Denken gesetzt ist. Für Claude Opus 4.6 empfehlen wir stattdessen type: "adaptive" zu verwenden — siehe Adaptives Denken für Details. Während type: "enabled" mit budget_tokens auf Opus 4.6 noch unterstützt wird, ist es veraltet und wird in einer zukünftigen Version entfernt.

    Der budget_tokens Parameter bestimmt die maximale Anzahl von Token, die Claude für seinen internen Denkprozess verwenden darf. In Claude 4 und späteren Modellen gilt diese Grenze für vollständige Denk-Token und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie eine gründlichere Analyse für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget nutzt, besonders bei Bereichen über 32k.

    budget_tokens ist auf Claude Opus 4.6 veraltet und wird in einer zukünftigen Modellversion entfernt. Wir empfehlen die Verwendung von adaptivem Denken mit dem Effort-Parameter, um die Denktiefe zu kontrollieren.

    Claude Opus 4.6 unterstützt bis zu 128K Ausgabe-Token. Frühere Modelle unterstützen bis zu 64K Ausgabe-Token.

    budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Bei Verwendung von verschachteltem Denken mit Tools können Sie diese Grenze jedoch überschreiten, da die Token-Grenze zu Ihrem gesamten Kontextfenster wird (200k Token).

    Zusammengefasstes Denken

    With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse.

    Here are some important considerations for summarized thinking:

    • You're charged for the full thinking tokens generated by the original request, not the summary tokens.
    • The billed output token count will not match the count of tokens you see in the response.
    • The first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes.
    • As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
    • Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience and easy migration from Claude Sonnet 3.7 to Claude 4 and later models.
    • Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

    Claude Sonnet 3.7 continues to return full thinking output.

    In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

    Streaming-Denken

    Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen.

    Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte über thinking_delta Events.

    Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.

    Hier erfahren Sie, wie Sie mit Denken streamen:

    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-6",
        "max_tokens": 16000,
        "stream": true,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "What is the greatest common divisor of 1071 and 462?"
            }
        ]
    }'

    Try in Console

    Beispiel-Streaming-Ausgabe:

    event: message_start
    data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-6", "stop_reason": null, "stop_sequence": null}}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}
    
    // Additional thinking deltas...
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 0}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}
    
    // Additional text deltas...
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 1}
    
    event: message_delta
    data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
    
    event: message_stop
    data: {"type": "message_stop"}

    Wenn Sie Streaming mit aktiviertem Denken verwenden, bemerken Sie möglicherweise, dass Text manchmal in größeren Blöcken ankommt, die sich mit kleineren, Token-für-Token-Lieferungen abwechseln. Dies ist erwartetes Verhalten, besonders für Denkinhalte.

    Das Streaming-System muss Inhalte in Batches für optimale Leistung verarbeiten, was zu diesem „klumpigen" Liefermuster führen kann, mit möglichen Verzögerungen zwischen Streaming-Events. Wir arbeiten kontinuierlich daran, diese Erfahrung zu verbessern, mit zukünftigen Updates, die sich auf ein sanfteres Streaming von Denkinhalten konzentrieren.

    Erweitertes Denken mit Tool-Verwendung

    Erweitertes Denken kann zusammen mit Tool-Verwendung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen zu durchdenken.

    Bei Verwendung von erweitertem Denken mit Tool-Verwendung sollten Sie sich der folgenden Einschränkungen bewusst sein:

    1. Tool-Auswahl-Einschränkung: Tool-Verwendung mit Denken unterstützt nur tool_choice: {"type": "auto"} (Standard) oder tool_choice: {"type": "none"}. Die Verwendung von tool_choice: {"type": "any"} oder tool_choice: {"type": "tool", "name": "..."} führt zu einem Fehler, da diese Optionen die Tool-Verwendung erzwingen, was mit erweitertem Denken nicht kompatibel ist.

    2. Bewahrung von Denk-Blöcken: Während der Tool-Verwendung müssen Sie thinking Blöcke für die letzte Assistenten-Nachricht an die API zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Kontinuität der Überlegung zu bewahren.

    Umschalten von Denk-Modi in Gesprächen

    Sie können das Denken nicht in der Mitte eines Assistenten-Zuges umschalten, einschließlich während Tool-Verwendungsschleifen. Der gesamte Assistenten-Zug sollte in einem einzigen Denk-Modus arbeiten:

    • Wenn Denken aktiviert ist, sollte der letzte Assistenten-Zug mit einem Denk-Block beginnen.
    • Wenn Denken deaktiviert ist, sollte der letzte Assistenten-Zug keine Denk-Blöcke enthalten

    Aus der Perspektive des Modells sind Tool-Verwendungsschleifen Teil des Assistenten-Zuges. Ein Assistenten-Zug ist nicht abgeschlossen, bis Claude seine vollständige Antwort fertiggestellt hat, die mehrere Tool-Aufrufe und Ergebnisse enthalten kann.

    Beispielsweise ist diese Sequenz alles Teil eines einzelnen Assistenten-Zuges:

    User: "What's the weather in Paris?"
    Assistant: [thinking] + [tool_use: get_weather]
    User: [tool_result: "20°C, sunny"]
    Assistant: [text: "The weather in Paris is 20°C and sunny"]

    Obwohl es mehrere API-Nachrichten gibt, ist die Tool-Verwendungsschleife konzeptionell Teil einer kontinuierlichen Assistenten-Antwort.

    Sanfte Denk-Degradation

    Wenn ein Denk-Konflikt in der Mitte des Zuges auftritt (z. B. das Umschalten von Denken an oder aus während einer Tool-Verwendungsschleife), deaktiviert die API automatisch das Denken für diese Anfrage. Um die Modellqualität zu bewahren und auf der Verteilung zu bleiben, kann die API:

    • Denk-Blöcke aus der Konversation entfernen, wenn sie eine ungültige Zugstruktur erstellen würden
    • Denken für die aktuelle Anfrage deaktivieren, wenn die Konversationshistorie mit aktiviertem Denken nicht kompatibel ist

    Dies bedeutet, dass der Versuch, das Denken in der Mitte des Zuges umzuschalten, keinen Fehler verursacht, aber das Denken wird für diese Anfrage stillschweigend deaktiviert. Um zu bestätigen, ob das Denken aktiv war, überprüfen Sie das Vorhandensein von thinking Blöcken in der Antwort.

    Praktische Anleitung

    Best Practice: Planen Sie Ihre Denk-Strategie am Anfang jedes Zuges, anstatt zu versuchen, in der Mitte umzuschalten.

    Beispiel: Umschalten von Denken nach Abschluss eines Zuges

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    Assistant: [text: "It's sunny"]
    User: "What about tomorrow?"
    Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

    Durch Abschluss des Assistenten-Zuges vor dem Umschalten des Denkens stellen Sie sicher, dass das Denken tatsächlich für die neue Anfrage aktiviert ist.

    Das Umschalten von Denk-Modi invalidiert auch Prompt-Caching für Nachrichtenhistorie. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.

    Bewahrung von Denk-Blöcken

    Während der Tool-Verwendung müssen Sie thinking Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells und der Konversationsintegrität.

    Während Sie thinking Blöcke aus vorherigen assistant Rollen-Zügen weglassen können, empfehlen wir, immer alle Denk-Blöcke an die API für jedes mehrteilige Gespräch zurückzugeben. Die API wird:

    • Die bereitgestellten Denk-Blöcke automatisch filtern
    • Die relevanten Denk-Blöcke verwenden, die notwendig sind, um das Denken des Modells zu bewahren
    • Nur die Eingabe-Token für die Blöcke berechnen, die Claude angezeigt werden

    Wenn Sie Denk-Modi während eines Gesprächs umschalten, denken Sie daran, dass der gesamte Assistenten-Zug (einschließlich Tool-Verwendungsschleifen) in einem einzigen Denk-Modus arbeiten muss. Weitere Details finden Sie unter Umschalten von Denk-Modi in Gesprächen.

    Wenn Claude Tools aufruft, pausiert es die Konstruktion einer Antwort, um auf externe Informationen zu warten. Wenn Tool-Ergebnisse zurückgegeben werden, wird Claude die Konstruktion dieser bestehenden Antwort fortsetzen. Dies erfordert die Bewahrung von Denk-Blöcken während der Tool-Verwendung aus ein paar Gründen:

    1. Kontinuität der Überlegung: Die Denk-Blöcke erfassen Claudes schrittweise Überlegung, die zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt das Einschließen der ursprünglichen Überlegung sicher, dass Claude seine Überlegung von dort fortsetzen kann, wo sie aufgehört hat.

    2. Kontextverwaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Überlegungsflusses. Die Bewahrung von Denk-Blöcken bewahrt diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontextverwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.

    Wichtig: Wenn Sie thinking Blöcke bereitstellen, muss die gesamte Sequenz aufeinanderfolgender thinking Blöcke den Ausgaben entsprechen, die das Modell während der ursprünglichen Anfrage generiert hat; Sie können die Sequenz dieser Blöcke nicht umordnen oder ändern.

    Verschachteltes Denken

    Erweitertes Denken mit Tool-Verwendung in Claude 4 Modellen unterstützt verschachteltes Denken, das Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach Erhalt von Tool-Ergebnissen anspruchsvollere Überlegungen anzustellen.

    Mit verschachteltem Denken kann Claude:

    • Über die Ergebnisse eines Tool-Aufrufs nachdenken, bevor es entscheidet, was als nächstes zu tun ist
    • Mehrere Tool-Aufrufe mit Denkschritten dazwischen verketten
    • Nuanciertere Entscheidungen basierend auf Zwischenergebnissen treffen

    Modellunterstützung:

    • Claude Opus 4.6: Verschachteltes Denken ist automatisch aktiviert, wenn adaptives Denken verwendet wird — kein Beta-Header ist erforderlich. Der Beta-Header interleaved-thinking-2025-05-14 ist veraltet auf Opus 4.6 und wird sicher ignoriert, wenn er enthalten ist.
    • Claude Sonnet 4.6: Unterstützt den Beta-Header interleaved-thinking-2025-05-14 mit manuellem erweitertem Denken (thinking: {type: "enabled"}). Sie können auch adaptives Denken verwenden, das automatisch verschachteltes Denken aktiviert.
    • Andere Claude 4 Modelle (Opus 4.5, Opus 4.1, Opus 4, Sonnet 4.5, Sonnet 4): Fügen Sie den Beta-Header interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu, um verschachteltes Denken zu aktivieren.

    Hier sind einige wichtige Überlegungen für verschachteltes Denken:

    • Mit verschachteltem Denken kann budget_tokens den max_tokens Parameter überschreiten, da es das Gesamtbudget über alle Denk-Blöcke innerhalb eines Assistenten-Zuges darstellt.
    • Verschachteltes Denken wird nur für Tools unterstützt, die über die Messages API verwendet werden.
    • Direkte Aufrufe der Claude API ermöglichen es Ihnen, interleaved-thinking-2025-05-14 in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen (außer Opus 4.6, wo es veraltet ist und sicher ignoriert wird).
    • Auf Plattformen von Drittanbietern (z. B. Amazon Bedrock und Vertex AI), wenn Sie interleaved-thinking-2025-05-14 an ein anderes Modell als Claude Sonnet 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, Sonnet 4.5 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.

    Erweitertes Denken mit Prompt-Caching

    Prompt-Caching mit Denken hat mehrere wichtige Überlegungen:

    Aufgaben mit erweitertem Denken dauern oft länger als 5 Minuten. Erwägen Sie die Verwendung der 1-Stunden-Cache-Dauer, um Cache-Treffer über längere Denksitzungen und mehrstufige Workflows hinweg zu bewahren.

    Entfernung von Denk-Block-Kontext

    • Denk-Blöcke aus vorherigen Zügen werden aus dem Kontext entfernt, was Cache-Breakpoints beeinflussen kann
    • Bei Fortsetzung von Gesprächen mit Tool-Verwendung werden Denk-Blöcke zwischengespeichert und zählen als Eingabe-Token, wenn sie aus dem Cache gelesen werden
    • Dies schafft einen Kompromiss: Während Denk-Blöcke visuell keinen Kontextfensterplatz verbrauchen, zählen sie dennoch zu Ihrer Eingabe-Token-Nutzung, wenn sie zwischengespeichert werden
    • Wenn Denken deaktiviert wird und Sie Denkinhalte im aktuellen Tool-Verwendungs-Zug übergeben, werden die Denkinhalte entfernt und Denken bleibt für diese Anfrage deaktiviert

    Cache-Invalidierungsmuster

    • Änderungen an Denk-Parametern (aktiviert/deaktiviert oder Budget-Zuweisung) invalidieren Message-Cache-Breakpoints
    • Verschachteltes Denken verstärkt Cache-Invalidierung, da Denk-Blöcke zwischen mehreren Tool-Aufrufen auftreten können
    • System-Prompts und Tools bleiben trotz Denk-Parameter-Änderungen oder Block-Entfernung zwischengespeichert

    Während Denk-Blöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei Fortsetzung von Gesprächen mit Tool-Verwendung, besonders mit verschachteltem Denken, bewahrt werden.

    Verständnis des Caching-Verhaltens von Thinking Blocks

    Bei Verwendung von Extended Thinking mit Tool Use zeigen Thinking Blocks ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst:

    Funktionsweise:

    1. Caching erfolgt nur, wenn Sie eine nachfolgende Anfrage stellen, die Tool-Ergebnisse enthält
    2. Wenn die nachfolgende Anfrage gestellt wird, kann die vorherige Konversationshistorie (einschließlich Thinking Blocks) zwischengespeichert werden
    3. Diese zwischengespeicherten Thinking Blocks werden als Input-Token in Ihren Nutzungsmetriken gezählt, wenn sie aus dem Cache gelesen werden
    4. Wenn ein Non-Tool-Result-User-Block enthalten ist, werden alle vorherigen Thinking Blocks ignoriert und aus dem Kontext entfernt

    Detailliertes Beispielablauf:

    Anfrage 1:

    User: "What's the weather in Paris?"

    Antwort 1:

    [thinking_block_1] + [tool_use block 1]

    Anfrage 2:

    User: ["What's the weather in Paris?"],
    Assistant: [thinking_block_1] + [tool_use block 1],
    User: [tool_result_1, cache=True]

    Antwort 2:

    [thinking_block_2] + [text block 2]

    Anfrage 2 schreibt einen Cache des Anfrageinhalts (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Thinking Block, den Tool-Use-Block und das Tool-Ergebnis.

    Anfrage 3:

    User: ["What's the weather in Paris?"],
    Assistant: [thinking_block_1] + [tool_use block 1],
    User: [tool_result_1, cache=True],
    Assistant: [thinking_block_2] + [text block 2],
    User: [Text response, cache=True]

    Für Claude Opus 4.5 und später (einschließlich Claude Opus 4.6) werden alle vorherigen Thinking Blocks standardmäßig beibehalten. Bei älteren Modellen werden alle vorherigen Thinking Blocks ignoriert, da ein Non-Tool-Result-User-Block enthalten war. Diese Anfrage wird genauso verarbeitet wie:

    User: ["What's the weather in Paris?"],
    Assistant: [tool_use block 1],
    User: [tool_result_1, cache=True],
    Assistant: [text block 2],
    User: [Text response, cache=True]

    Wichtige Punkte:

    • Dieses Caching-Verhalten erfolgt automatisch, auch ohne explizite cache_control-Marker
    • Dieses Verhalten ist konsistent, ob Sie reguläres Thinking oder Interleaved Thinking verwenden

    Max Tokens und Kontextfenstergröße mit Extended Thinking

    Bei älteren Claude-Modellen (vor Claude Sonnet 3.7) würde das System automatisch max_tokens anpassen, um in das Kontextfenster zu passen, wenn die Summe von Prompt-Token und max_tokens das Kontextfenster des Modells überschreitet. Dies bedeutete, dass Sie einen großen max_tokens-Wert festlegen konnten und das System ihn bei Bedarf stillschweigend reduzieren würde.

    Bei Claude 3.7 und 4 Modellen wird max_tokens (das Ihr Thinking-Budget einschließt, wenn Thinking aktiviert ist) als strikte Grenze durchgesetzt. Das System gibt nun einen Validierungsfehler zurück, wenn Prompt-Token + max_tokens die Kontextfenstergröße überschreitet.

    Sie können unseren Leitfaden zu Kontextfenstern lesen, um einen tieferen Einblick zu erhalten.

    Das Kontextfenster mit Extended Thinking

    Bei der Berechnung der Kontextfensternutzung mit aktiviertem Thinking gibt es einige Überlegungen zu beachten:

    • Thinking Blocks aus vorherigen Turns werden entfernt und nicht auf Ihr Kontextfenster angerechnet
    • Das aktuelle Turn-Thinking wird auf Ihr max_tokens-Limit für diesen Turn angerechnet

    Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn Extended Thinking aktiviert ist:

    Kontextfenster-Diagramm mit Extended Thinking

    Das effektive Kontextfenster wird berechnet als:

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Wir empfehlen, die Token-Zähl-API zu verwenden, um genaue Token-Zählungen für Ihren spezifischen Anwendungsfall zu erhalten, besonders wenn Sie mit mehrteiligen Konversationen arbeiten, die Thinking enthalten.

    Das Kontextfenster mit Extended Thinking und Tool Use

    Bei Verwendung von Extended Thinking mit Tool Use müssen Thinking Blocks explizit beibehalten und mit den Tool-Ergebnissen zurückgegeben werden.

    Die effektive Kontextfensterberechnung für Extended Thinking mit Tool Use wird zu:

    context window =
      (current input tokens + previous thinking tokens + tool use tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Das folgende Diagramm zeigt die Token-Verwaltung für Extended Thinking mit Tool Use:

    Kontextfenster-Diagramm mit Extended Thinking und Tool Use

    Verwaltung von Tokens mit Extended Thinking

    Angesichts des Kontextfensters und des max_tokens-Verhaltens mit Extended Thinking Claude 3.7 und 4 Modellen müssen Sie möglicherweise:

    • Ihre Token-Nutzung aktiver überwachen und verwalten
    • max_tokens-Werte anpassen, wenn sich Ihre Prompt-Länge ändert
    • Möglicherweise die Token-Zähl-Endpunkte häufiger verwenden
    • Beachten, dass vorherige Thinking Blocks sich nicht in Ihrem Kontextfenster ansammeln

    Diese Änderung wurde vorgenommen, um ein vorhersehbareres und transparenteres Verhalten zu bieten, besonders da die maximalen Token-Limits erheblich gestiegen sind.

    Thinking-Verschlüsselung

    Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

    It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns, or let the API strip them for you if you pass them back.

    If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

    Here are some important considerations on thinking encryption:

    • When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
    • signature values are significantly longer in Claude 4 models than in previous models.
    • The signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.
    • signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

    Thinking-Redaktion

    Occasionally Claude's internal reasoning will be flagged by our safety systems. When this occurs, we encrypt some or all of the thinking block and return it to you as a redacted_thinking block. redacted_thinking blocks are decrypted when passed back to the API, allowing Claude to continue its response without losing context.

    When building customer-facing applications that use extended thinking:

    • Be aware that redacted thinking blocks contain encrypted content that isn't human-readable
    • Consider providing a simple explanation like: "Some of Claude's internal reasoning has been automatically encrypted for safety reasons. This doesn't affect the quality of responses."
    • If showing thinking blocks to users, you can filter out redacted blocks while preserving normal thinking blocks
    • Be transparent that using extended thinking features may occasionally result in some reasoning being encrypted
    • Implement appropriate error handling to gracefully manage redacted thinking without breaking your UI

    Here's an example showing both normal and redacted thinking blocks:

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.

    If you need to test redacted thinking handling in your application, you can use this special test string as your prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    When passing thinking and redacted_thinking blocks back to the API in a multi-turn conversation, you must include the complete unmodified block back to the API for the last assistant turn. This is critical for maintaining the model's reasoning flow. We suggest always passing back all thinking blocks to the API. For more details, see the Preserving thinking blocks section.

    Unterschiede beim Thinking zwischen Modellversionen

    Die Messages API behandelt Thinking unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Bezug auf Redaktions- und Zusammenfassungsverhalten.

    Siehe die folgende Tabelle für einen komprimierten Vergleich:

    FunktionClaude Sonnet 3.7Claude 4 Modelle (vor Opus 4.5)Claude Opus 4.5Claude Sonnet 4.6Claude Opus 4.6 (adaptives Thinking)
    Thinking-AusgabeGibt vollständige Thinking-Ausgabe zurückGibt zusammengefasstes Thinking zurückGibt zusammengefasstes Thinking zurückGibt zusammengefasstes Thinking zurückGibt zusammengefasstes Thinking zurück
    Interleaved ThinkingNicht unterstütztUnterstützt mit interleaved-thinking-2025-05-14 Beta-HeaderUnterstützt mit interleaved-thinking-2025-05-14 Beta-HeaderUnterstützt mit interleaved-thinking-2025-05-14 Beta-Header oder automatisch mit adaptivem ThinkingAutomatisch mit adaptivem Thinking (Beta-Header nicht unterstützt)
    Thinking Block PreservationNicht über Turns hinweg beibehaltenNicht über Turns hinweg beibehaltenStandardmäßig beibehaltenStandardmäßig beibehaltenStandardmäßig beibehalten

    Thinking Block Preservation in Claude Opus 4.5 und später

    Ab Claude Opus 4.5 (und fortgesetzt in Claude Opus 4.6) werden Thinking Blocks aus vorherigen Assistant-Turns standardmäßig im Modellkontext beibehalten. Dies unterscheidet sich von früheren Modellen, die Thinking Blocks aus vorherigen Turns entfernen.

    Vorteile der Thinking Block Preservation:

    • Cache-Optimierung: Bei Verwendung von Tool Use ermöglichen beibehaltene Thinking Blocks Cache-Hits, da sie mit Tool-Ergebnissen zurückgegeben und inkrementell über den Assistant-Turn hinweg zwischengespeichert werden, was zu Token-Einsparungen in mehrstufigen Workflows führt
    • Keine Auswirkung auf Intelligenz: Das Beibehalten von Thinking Blocks hat keine negativen Auswirkungen auf die Modellleistung

    Wichtige Überlegungen:

    • Kontextnutzung: Lange Konversationen verbrauchen mehr Kontextraum, da Thinking Blocks im Kontext beibehalten werden
    • Automatisches Verhalten: Dies ist das Standardverhalten für Claude Opus 4.5 und später Modelle (einschließlich Opus 4.6) – keine Code-Änderungen oder Beta-Header erforderlich
    • Rückwärtskompatibilität: Um diese Funktion zu nutzen, geben Sie weiterhin vollständige, unmodifizierte Thinking Blocks an die API zurück, wie Sie es für Tool Use tun würden

    Bei früheren Modellen (Claude Sonnet 4.5, Opus 4.1, usw.) werden Thinking Blocks aus vorherigen Turns weiterhin aus dem Kontext entfernt. Das bestehende Verhalten, das im Abschnitt Extended Thinking mit Prompt Caching beschrieben ist, gilt für diese Modelle.

    Preisgestaltung

    For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

    The thinking process incurs charges for:

    • Tokens used during thinking (output tokens)
    • Thinking blocks from the last assistant turn included in subsequent requests (input tokens)
    • Standard text output tokens

    When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

    When using summarized thinking:

    • Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
    • Output tokens (billed): The original thinking tokens that Claude generated internally
    • Output tokens (visible): The summarized thinking tokens you see in the response
    • No charge: Tokens used to generate the summary

    The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.

    Best Practices und Überlegungen für Extended Thinking

    Arbeiten mit Thinking Budgets

    • Budget-Optimierung: Das Mindestbudget beträgt 1.024 Token. Wir empfehlen, mit dem Minimum zu beginnen und das Thinking-Budget schrittweise zu erhöhen, um den optimalen Bereich für Ihren Anwendungsfall zu finden. Höhere Token-Zählungen ermöglichen umfassendere Überlegungen, aber mit sinkenden Erträgen je nach Aufgabe. Das Erhöhen des Budgets kann die Antwortqualität auf Kosten erhöhter Latenz verbessern. Testen Sie für kritische Aufgaben verschiedene Einstellungen, um das optimale Gleichgewicht zu finden. Beachten Sie, dass das Thinking-Budget eher ein Ziel als eine strikte Grenze ist – die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.
    • Startpunkte: Beginnen Sie mit größeren Thinking-Budgets (16k+ Token) für komplexe Aufgaben und passen Sie diese nach Bedarf an.
    • Große Budgets: Für Thinking-Budgets über 32k empfehlen wir die Verwendung von Batch-Verarbeitung, um Netzwerkprobleme zu vermeiden. Anfragen, die das Modell dazu bringen, über 32k Token nachzudenken, führen zu lange laufenden Anfragen, die möglicherweise auf System-Timeouts und offene Verbindungsgrenzen stoßen.
    • Token-Nutzungsverfolgung: Überwachen Sie die Thinking-Token-Nutzung, um Kosten und Leistung zu optimieren.

    Leistungsüberlegungen

    • Antwortzeiten: Seien Sie auf potenziell längere Antwortzeiten vorbereitet, die durch die zusätzliche Verarbeitung erforderlich für den Reasoning-Prozess entstehen. Berücksichtigen Sie, dass das Generieren von Thinking Blocks die Gesamtantwortzeit erhöhen kann.
    • Streaming-Anforderungen: Die SDKs erfordern Streaming, wenn max_tokens größer als 21.333 ist, um HTTP-Timeouts bei lange laufenden Anfragen zu vermeiden. Dies ist eine Client-seitige Validierung, keine API-Einschränkung. Wenn Sie Ereignisse nicht inkrementell verarbeiten müssen, verwenden Sie .stream() mit .get_final_message() (Python) oder .finalMessage() (TypeScript), um das vollständige Message-Objekt zu erhalten, ohne einzelne Ereignisse zu verarbeiten – siehe Streaming Messages für Details. Beim Streaming seien Sie bereit, sowohl Thinking- als auch Text-Content-Blöcke zu verarbeiten, wenn sie ankommen.

    Feature-Kompatibilität

    • Thinking ist nicht kompatibel mit temperature- oder top_k-Modifikationen sowie mit erzwungenem Tool Use.
    • Wenn Thinking aktiviert ist, können Sie top_p auf Werte zwischen 1 und 0,95 setzen.
    • Sie können Antworten nicht vorausfüllen, wenn Thinking aktiviert ist.
    • Änderungen am Thinking-Budget machen zwischengespeicherte Prompt-Präfixe ungültig, die Messages enthalten. Zwischengespeicherte System-Prompts und Tool-Definitionen funktionieren jedoch weiterhin, wenn sich Thinking-Parameter ändern.

    Nutzungsrichtlinien

    • Aufgabenauswahl: Verwenden Sie Extended Thinking für besonders komplexe Aufgaben, die von schrittweisem Reasoning profitieren, wie Mathematik, Codierung und Analyse.
    • Kontextbehandlung: Sie müssen vorherige Thinking Blocks nicht selbst entfernen. Die Claude API ignoriert automatisch Thinking Blocks aus vorherigen Turns und sie werden nicht bei der Berechnung der Kontextnutzung berücksichtigt.
    • Prompt Engineering: Lesen Sie unsere Extended Thinking Prompting Tips, wenn Sie Claudes Thinking-Fähigkeiten maximieren möchten.

    Nächste Schritte

    Probieren Sie das Extended Thinking Cookbook

    Erkunden Sie praktische Beispiele von Thinking in unserem Cookbook.

    Extended Thinking Prompting Tips

    Lernen Sie Best Practices für Prompt Engineering mit Extended Thinking.

    Was this page helpful?

    • Unterstützte Modelle
    • Wie erweitertes Denken funktioniert
    • Wie man erweitertes Denken verwendet
    • Zusammengefasstes Denken
    • Streaming-Denken
    • Erweitertes Denken mit Tool-Verwendung
    • Umschalten von Denk-Modi in Gesprächen
    • Bewahrung von Denk-Blöcken
    • Verschachteltes Denken
    • Erweitertes Denken mit Prompt-Caching
    • Verständnis des Caching-Verhaltens von Thinking Blocks
    • Max Tokens und Kontextfenstergröße mit Extended Thinking
    • Das Kontextfenster mit Extended Thinking
    • Das Kontextfenster mit Extended Thinking und Tool Use
    • Verwaltung von Tokens mit Extended Thinking
    • Thinking-Verschlüsselung
    • Thinking-Redaktion
    • Unterschiede beim Thinking zwischen Modellversionen
    • Thinking Block Preservation in Claude Opus 4.5 und später
    • Preisgestaltung
    • Best Practices und Überlegungen für Extended Thinking
    • Arbeiten mit Thinking Budgets
    • Leistungsüberlegungen
    • Feature-Kompatibilität
    • Nutzungsrichtlinien
    • Nächste Schritte