Modellfähigkeiten

Mit erweitertem Denken bauen

Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess bietet, bevor es seine endgültige Antwort liefert.

Für Claude Opus 4.6 empfehlen wir die Verwendung von adaptivem Denken (thinking: {type: "adaptive"}) mit dem Effort-Parameter anstelle des auf dieser Seite beschriebenen manuellen Denkenmodus. Die manuelle Konfiguration thinking: {type: "enabled", budget_tokens: N} ist auf Opus 4.6 veraltet und wird in einer zukünftigen Modellversion entfernt.

Unterstützte Modelle

Erweitertes Denken wird in den folgenden Modellen unterstützt:

Claude Opus 4.6 (claude-opus-4-6) — adaptives Denken nur; manueller Modus (type: "enabled") ist veraltet
Claude Opus 4.5 (claude-opus-4-5-20251101)
Claude Opus 4.1 (claude-opus-4-1-20250805)
Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4.6 (claude-sonnet-4-6) — unterstützt sowohl manuelles erweitertes Denken mit verschachteltem Modus als auch adaptives Denken
Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (veraltet)
Claude Haiku 4.5 (claude-haiku-4-5-20251001)

Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.

Weitere Informationen finden Sie unter Unterschiede beim Denken über Modellversionen hinweg.

Wie erweitertes Denken funktioniert

Wenn erweitertes Denken aktiviert ist, erstellt Claude thinking Inhaltsblöcke, in denen es seine interne Überlegung ausgibt. Claude bezieht Erkenntnisse aus dieser Überlegung ein, bevor es eine endgültige Antwort formuliert.

Die API-Antwort wird thinking Inhaltsblöcke enthalten, gefolgt von text Inhaltsblöcken.

Hier ist ein Beispiel des Standard-Antwortformats:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Weitere Informationen zum Antwortformat des erweiterten Denkens finden Sie in der Messages API-Referenz.

Wie man erweitertes Denken verwendet

Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
        }
    ]
}'

Um erweitertes Denken zu aktivieren, fügen Sie ein thinking Objekt hinzu, wobei der type Parameter auf enabled und budget_tokens auf ein angegebenes Token-Budget für erweitertes Denken gesetzt ist. Für Claude Opus 4.6 empfehlen wir stattdessen type: "adaptive" zu verwenden — siehe Adaptives Denken für Details. Während type: "enabled" mit budget_tokens auf Opus 4.6 noch unterstützt wird, ist es veraltet und wird in einer zukünftigen Version entfernt.

Der budget_tokens Parameter bestimmt die maximale Anzahl von Token, die Claude für seinen internen Denkprozess verwenden darf. In Claude 4 und späteren Modellen gilt diese Grenze für vollständige Denk-Token und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie eine gründlichere Analyse für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget nutzt, besonders bei Bereichen über 32k.

budget_tokens ist auf Claude Opus 4.6 veraltet und wird in einer zukünftigen Modellversion entfernt. Wir empfehlen die Verwendung von adaptivem Denken mit dem Effort-Parameter, um die Denktiefe zu kontrollieren.

Claude Opus 4.6 unterstützt bis zu 128K Ausgabe-Token. Frühere Modelle unterstützen bis zu 64K Ausgabe-Token.

budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Bei Verwendung von verschachteltem Denken mit Tools können Sie diese Grenze jedoch überschreiten, da die Token-Grenze zu Ihrem gesamten Kontextfenster wird (200k Token).

Zusammengefasstes Denken

With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse.

Here are some important considerations for summarized thinking:

You're charged for the full thinking tokens generated by the original request, not the summary tokens.
The billed output token count will not match the count of tokens you see in the response.
The first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes.
As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience and easy migration from Claude Sonnet 3.7 to Claude 4 and later models.
Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

Claude Sonnet 3.7 continues to return full thinking output.

In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

Streaming-Denken

Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen.

Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte über thinking_delta Events.

Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.

Hier erfahren Sie, wie Sie mit Denken streamen:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?"
        }
    ]
}'

Try in Console

Beispiel-Streaming-Ausgabe:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-6", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}

// Additional thinking deltas...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}

// Additional text deltas...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Wenn Sie Streaming mit aktiviertem Denken verwenden, bemerken Sie möglicherweise, dass Text manchmal in größeren Blöcken ankommt, die sich mit kleineren, Token-für-Token-Lieferungen abwechseln. Dies ist erwartetes Verhalten, besonders für Denkinhalte.

Das Streaming-System muss Inhalte in Batches für optimale Leistung verarbeiten, was zu diesem „klumpigen" Liefermuster führen kann, mit möglichen Verzögerungen zwischen Streaming-Events. Wir arbeiten kontinuierlich daran, diese Erfahrung zu verbessern, mit zukünftigen Updates, die sich auf ein sanfteres Streaming von Denkinhalten konzentrieren.

Erweitertes Denken mit Tool-Verwendung

Erweitertes Denken kann zusammen mit Tool-Verwendung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen zu durchdenken.

Bei Verwendung von erweitertem Denken mit Tool-Verwendung sollten Sie sich der folgenden Einschränkungen bewusst sein:

Tool-Auswahl-Einschränkung: Tool-Verwendung mit Denken unterstützt nur tool_choice: {"type": "auto"} (Standard) oder tool_choice: {"type": "none"}. Die Verwendung von tool_choice: {"type": "any"} oder tool_choice: {"type": "tool", "name": "..."} führt zu einem Fehler, da diese Optionen die Tool-Verwendung erzwingen, was mit erweitertem Denken nicht kompatibel ist.
Bewahrung von Denk-Blöcken: Während der Tool-Verwendung müssen Sie thinking Blöcke für die letzte Assistenten-Nachricht an die API zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Kontinuität der Überlegung zu bewahren.

Umschalten von Denk-Modi in Gesprächen

Sie können das Denken nicht in der Mitte eines Assistenten-Zuges umschalten, einschließlich während Tool-Verwendungsschleifen. Der gesamte Assistenten-Zug sollte in einem einzigen Denk-Modus arbeiten:

Wenn Denken aktiviert ist, sollte der letzte Assistenten-Zug mit einem Denk-Block beginnen.
Wenn Denken deaktiviert ist, sollte der letzte Assistenten-Zug keine Denk-Blöcke enthalten

Aus der Perspektive des Modells sind Tool-Verwendungsschleifen Teil des Assistenten-Zuges. Ein Assistenten-Zug ist nicht abgeschlossen, bis Claude seine vollständige Antwort fertiggestellt hat, die mehrere Tool-Aufrufe und Ergebnisse enthalten kann.

Beispielsweise ist diese Sequenz alles Teil eines einzelnen Assistenten-Zuges:

User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]

Obwohl es mehrere API-Nachrichten gibt, ist die Tool-Verwendungsschleife konzeptionell Teil einer kontinuierlichen Assistenten-Antwort.

Sanfte Denk-Degradation

Wenn ein Denk-Konflikt in der Mitte des Zuges auftritt (z. B. das Umschalten von Denken an oder aus während einer Tool-Verwendungsschleife), deaktiviert die API automatisch das Denken für diese Anfrage. Um die Modellqualität zu bewahren und auf der Verteilung zu bleiben, kann die API:

Denk-Blöcke aus der Konversation entfernen, wenn sie eine ungültige Zugstruktur erstellen würden
Denken für die aktuelle Anfrage deaktivieren, wenn die Konversationshistorie mit aktiviertem Denken nicht kompatibel ist

Dies bedeutet, dass der Versuch, das Denken in der Mitte des Zuges umzuschalten, keinen Fehler verursacht, aber das Denken wird für diese Anfrage stillschweigend deaktiviert. Um zu bestätigen, ob das Denken aktiv war, überprüfen Sie das Vorhandensein von thinking Blöcken in der Antwort.

Praktische Anleitung

Best Practice: Planen Sie Ihre Denk-Strategie am Anfang jedes Zuges, anstatt zu versuchen, in der Mitte umzuschalten.

Beispiel: Umschalten von Denken nach Abschluss eines Zuges

User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

Durch Abschluss des Assistenten-Zuges vor dem Umschalten des Denkens stellen Sie sicher, dass das Denken tatsächlich für die neue Anfrage aktiviert ist.

Das Umschalten von Denk-Modi invalidiert auch Prompt-Caching für Nachrichtenhistorie. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.

Bewahrung von Denk-Blöcken

Während der Tool-Verwendung müssen Sie thinking Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells und der Konversationsintegrität.

Während Sie thinking Blöcke aus vorherigen assistant Rollen-Zügen weglassen können, empfehlen wir, immer alle Denk-Blöcke an die API für jedes mehrteilige Gespräch zurückzugeben. Die API wird:

Die bereitgestellten Denk-Blöcke automatisch filtern
Die relevanten Denk-Blöcke verwenden, die notwendig sind, um das Denken des Modells zu bewahren
Nur die Eingabe-Token für die Blöcke berechnen, die Claude angezeigt werden

Wenn Sie Denk-Modi während eines Gesprächs umschalten, denken Sie daran, dass der gesamte Assistenten-Zug (einschließlich Tool-Verwendungsschleifen) in einem einzigen Denk-Modus arbeiten muss. Weitere Details finden Sie unter Umschalten von Denk-Modi in Gesprächen.

Wenn Claude Tools aufruft, pausiert es die Konstruktion einer Antwort, um auf externe Informationen zu warten. Wenn Tool-Ergebnisse zurückgegeben werden, wird Claude die Konstruktion dieser bestehenden Antwort fortsetzen. Dies erfordert die Bewahrung von Denk-Blöcken während der Tool-Verwendung aus ein paar Gründen:

Kontinuität der Überlegung: Die Denk-Blöcke erfassen Claudes schrittweise Überlegung, die zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt das Einschließen der ursprünglichen Überlegung sicher, dass Claude seine Überlegung von dort fortsetzen kann, wo sie aufgehört hat.
Kontextverwaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Überlegungsflusses. Die Bewahrung von Denk-Blöcken bewahrt diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontextverwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.

Wichtig: Wenn Sie thinking Blöcke bereitstellen, muss die gesamte Sequenz aufeinanderfolgender thinking Blöcke den Ausgaben entsprechen, die das Modell während der ursprünglichen Anfrage generiert hat; Sie können die Sequenz dieser Blöcke nicht umordnen oder ändern.

Verschachteltes Denken

Erweitertes Denken mit Tool-Verwendung in Claude 4 Modellen unterstützt verschachteltes Denken, das Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach Erhalt von Tool-Ergebnissen anspruchsvollere Überlegungen anzustellen.

Mit verschachteltem Denken kann Claude:

Über die Ergebnisse eines Tool-Aufrufs nachdenken, bevor es entscheidet, was als nächstes zu tun ist
Mehrere Tool-Aufrufe mit Denkschritten dazwischen verketten
Nuanciertere Entscheidungen basierend auf Zwischenergebnissen treffen

Modellunterstützung:

Claude Opus 4.6: Verschachteltes Denken ist automatisch aktiviert, wenn adaptives Denken verwendet wird — kein Beta-Header ist erforderlich. Der Beta-Header interleaved-thinking-2025-05-14 ist veraltet auf Opus 4.6 und wird sicher ignoriert, wenn er enthalten ist.
Claude Sonnet 4.6: Unterstützt den Beta-Header interleaved-thinking-2025-05-14 mit manuellem erweitertem Denken (thinking: {type: "enabled"}). Sie können auch adaptives Denken verwenden, das automatisch verschachteltes Denken aktiviert.
Andere Claude 4 Modelle (Opus 4.5, Opus 4.1, Opus 4, Sonnet 4.5, Sonnet 4): Fügen Sie den Beta-Header interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu, um verschachteltes Denken zu aktivieren.

Hier sind einige wichtige Überlegungen für verschachteltes Denken:

Mit verschachteltem Denken kann budget_tokens den max_tokens Parameter überschreiten, da es das Gesamtbudget über alle Denk-Blöcke innerhalb eines Assistenten-Zuges darstellt.
Verschachteltes Denken wird nur für Tools unterstützt, die über die Messages API verwendet werden.
Direkte Aufrufe der Claude API ermöglichen es Ihnen, interleaved-thinking-2025-05-14 in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen (außer Opus 4.6, wo es veraltet ist und sicher ignoriert wird).
Auf Plattformen von Drittanbietern (z. B. Amazon Bedrock und Vertex AI), wenn Sie interleaved-thinking-2025-05-14 an ein anderes Modell als Claude Sonnet 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, Sonnet 4.5 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.

Erweitertes Denken mit Prompt-Caching

Prompt-Caching mit Denken hat mehrere wichtige Überlegungen:

Aufgaben mit erweitertem Denken dauern oft länger als 5 Minuten. Erwägen Sie die Verwendung der 1-Stunden-Cache-Dauer, um Cache-Treffer über längere Denksitzungen und mehrstufige Workflows hinweg zu bewahren.

Entfernung von Denk-Block-Kontext

Denk-Blöcke aus vorherigen Zügen werden aus dem Kontext entfernt, was Cache-Breakpoints beeinflussen kann
Bei Fortsetzung von Gesprächen mit Tool-Verwendung werden Denk-Blöcke zwischengespeichert und zählen als Eingabe-Token, wenn sie aus dem Cache gelesen werden
Dies schafft einen Kompromiss: Während Denk-Blöcke visuell keinen Kontextfensterplatz verbrauchen, zählen sie dennoch zu Ihrer Eingabe-Token-Nutzung, wenn sie zwischengespeichert werden
Wenn Denken deaktiviert wird und Sie Denkinhalte im aktuellen Tool-Verwendungs-Zug übergeben, werden die Denkinhalte entfernt und Denken bleibt für diese Anfrage deaktiviert

Cache-Invalidierungsmuster

Änderungen an Denk-Parametern (aktiviert/deaktiviert oder Budget-Zuweisung) invalidieren Message-Cache-Breakpoints
Verschachteltes Denken verstärkt Cache-Invalidierung, da Denk-Blöcke zwischen mehreren Tool-Aufrufen auftreten können
System-Prompts und Tools bleiben trotz Denk-Parameter-Änderungen oder Block-Entfernung zwischengespeichert

Während Denk-Blöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei Fortsetzung von Gesprächen mit Tool-Verwendung, besonders mit verschachteltem Denken, bewahrt werden.

Verständnis des Caching-Verhaltens von Thinking Blocks

Bei Verwendung von Extended Thinking mit Tool Use zeigen Thinking Blocks ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst:

Funktionsweise:

Caching erfolgt nur, wenn Sie eine nachfolgende Anfrage stellen, die Tool-Ergebnisse enthält
Wenn die nachfolgende Anfrage gestellt wird, kann die vorherige Konversationshistorie (einschließlich Thinking Blocks) zwischengespeichert werden
Diese zwischengespeicherten Thinking Blocks werden als Input-Token in Ihren Nutzungsmetriken gezählt, wenn sie aus dem Cache gelesen werden
Wenn ein Non-Tool-Result-User-Block enthalten ist, werden alle vorherigen Thinking Blocks ignoriert und aus dem Kontext entfernt

Detailliertes Beispielablauf:

Anfrage 1:

User: "What's the weather in Paris?"

Antwort 1:

[thinking_block_1] + [tool_use block 1]

Anfrage 2:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]

Antwort 2:

[thinking_block_2] + [text block 2]

Anfrage 2 schreibt einen Cache des Anfrageinhalts (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Thinking Block, den Tool-Use-Block und das Tool-Ergebnis.

Anfrage 3:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]

Für Claude Opus 4.5 und später (einschließlich Claude Opus 4.6) werden alle vorherigen Thinking Blocks standardmäßig beibehalten. Bei älteren Modellen werden alle vorherigen Thinking Blocks ignoriert, da ein Non-Tool-Result-User-Block enthalten war. Diese Anfrage wird genauso verarbeitet wie:

User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]

Wichtige Punkte:

Dieses Caching-Verhalten erfolgt automatisch, auch ohne explizite cache_control-Marker
Dieses Verhalten ist konsistent, ob Sie reguläres Thinking oder Interleaved Thinking verwenden

Max Tokens und Kontextfenstergröße mit Extended Thinking

Bei älteren Claude-Modellen (vor Claude Sonnet 3.7) würde das System automatisch max_tokens anpassen, um in das Kontextfenster zu passen, wenn die Summe von Prompt-Token und max_tokens das Kontextfenster des Modells überschreitet. Dies bedeutete, dass Sie einen großen max_tokens-Wert festlegen konnten und das System ihn bei Bedarf stillschweigend reduzieren würde.

Bei Claude 3.7 und 4 Modellen wird max_tokens (das Ihr Thinking-Budget einschließt, wenn Thinking aktiviert ist) als strikte Grenze durchgesetzt. Das System gibt nun einen Validierungsfehler zurück, wenn Prompt-Token + max_tokens die Kontextfenstergröße überschreitet.

Sie können unseren Leitfaden zu Kontextfenstern lesen, um einen tieferen Einblick zu erhalten.

Das Kontextfenster mit Extended Thinking

Bei der Berechnung der Kontextfensternutzung mit aktiviertem Thinking gibt es einige Überlegungen zu beachten:

Thinking Blocks aus vorherigen Turns werden entfernt und nicht auf Ihr Kontextfenster angerechnet
Das aktuelle Turn-Thinking wird auf Ihr max_tokens-Limit für diesen Turn angerechnet

Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn Extended Thinking aktiviert ist:

Kontextfenster-Diagramm mit Extended Thinking

Das effektive Kontextfenster wird berechnet als:

context window =
  (current input tokens - previous thinking tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Wir empfehlen, die Token-Zähl-API zu verwenden, um genaue Token-Zählungen für Ihren spezifischen Anwendungsfall zu erhalten, besonders wenn Sie mit mehrteiligen Konversationen arbeiten, die Thinking enthalten.

Das Kontextfenster mit Extended Thinking und Tool Use

Bei Verwendung von Extended Thinking mit Tool Use müssen Thinking Blocks explizit beibehalten und mit den Tool-Ergebnissen zurückgegeben werden.

Die effektive Kontextfensterberechnung für Extended Thinking mit Tool Use wird zu:

context window =
  (current input tokens + previous thinking tokens + tool use tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Das folgende Diagramm zeigt die Token-Verwaltung für Extended Thinking mit Tool Use:

Kontextfenster-Diagramm mit Extended Thinking und Tool Use

Verwaltung von Tokens mit Extended Thinking

Angesichts des Kontextfensters und des max_tokens-Verhaltens mit Extended Thinking Claude 3.7 und 4 Modellen müssen Sie möglicherweise:

Ihre Token-Nutzung aktiver überwachen und verwalten
max_tokens-Werte anpassen, wenn sich Ihre Prompt-Länge ändert
Möglicherweise die Token-Zähl-Endpunkte häufiger verwenden
Beachten, dass vorherige Thinking Blocks sich nicht in Ihrem Kontextfenster ansammeln

Diese Änderung wurde vorgenommen, um ein vorhersehbareres und transparenteres Verhalten zu bieten, besonders da die maximalen Token-Limits erheblich gestiegen sind.

Thinking-Verschlüsselung

Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns, or let the API strip them for you if you pass them back.

If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

Here are some important considerations on thinking encryption:

When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
signature values are significantly longer in Claude 4 models than in previous models.
The signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.
signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

Thinking-Redaktion

Occasionally Claude's internal reasoning will be flagged by our safety systems. When this occurs, we encrypt some or all of the thinking block and return it to you as a redacted_thinking block. redacted_thinking blocks are decrypted when passed back to the API, allowing Claude to continue its response without losing context.

When building customer-facing applications that use extended thinking:

Be aware that redacted thinking blocks contain encrypted content that isn't human-readable
Consider providing a simple explanation like: "Some of Claude's internal reasoning has been automatically encrypted for safety reasons. This doesn't affect the quality of responses."
If showing thinking blocks to users, you can filter out redacted blocks while preserving normal thinking blocks
Be transparent that using extended thinking features may occasionally result in some reasoning being encrypted
Implement appropriate error handling to gracefully manage redacted thinking without breaking your UI

Here's an example showing both normal and redacted thinking blocks:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.

If you need to test redacted thinking handling in your application, you can use this special test string as your prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

When passing thinking and redacted_thinking blocks back to the API in a multi-turn conversation, you must include the complete unmodified block back to the API for the last assistant turn. This is critical for maintaining the model's reasoning flow. We suggest always passing back all thinking blocks to the API. For more details, see the Preserving thinking blocks section.

Unterschiede beim Thinking zwischen Modellversionen

Die Messages API behandelt Thinking unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Bezug auf Redaktions- und Zusammenfassungsverhalten.

Siehe die folgende Tabelle für einen komprimierten Vergleich:

Funktion	Claude Sonnet 3.7	Claude 4 Modelle (vor Opus 4.5)	Claude Opus 4.5	Claude Sonnet 4.6	Claude Opus 4.6 (adaptives Thinking)
Thinking-Ausgabe	Gibt vollständige Thinking-Ausgabe zurück	Gibt zusammengefasstes Thinking zurück	Gibt zusammengefasstes Thinking zurück	Gibt zusammengefasstes Thinking zurück	Gibt zusammengefasstes Thinking zurück
Interleaved Thinking	Nicht unterstützt	Unterstützt mit `interleaved-thinking-2025-05-14` Beta-Header	Unterstützt mit `interleaved-thinking-2025-05-14` Beta-Header	Unterstützt mit `interleaved-thinking-2025-05-14` Beta-Header oder automatisch mit adaptivem Thinking	Automatisch mit adaptivem Thinking (Beta-Header nicht unterstützt)
Thinking Block Preservation	Nicht über Turns hinweg beibehalten	Nicht über Turns hinweg beibehalten	Standardmäßig beibehalten	Standardmäßig beibehalten	Standardmäßig beibehalten

Thinking Block Preservation in Claude Opus 4.5 und später

Ab Claude Opus 4.5 (und fortgesetzt in Claude Opus 4.6) werden Thinking Blocks aus vorherigen Assistant-Turns standardmäßig im Modellkontext beibehalten. Dies unterscheidet sich von früheren Modellen, die Thinking Blocks aus vorherigen Turns entfernen.

Vorteile der Thinking Block Preservation:

Cache-Optimierung: Bei Verwendung von Tool Use ermöglichen beibehaltene Thinking Blocks Cache-Hits, da sie mit Tool-Ergebnissen zurückgegeben und inkrementell über den Assistant-Turn hinweg zwischengespeichert werden, was zu Token-Einsparungen in mehrstufigen Workflows führt
Keine Auswirkung auf Intelligenz: Das Beibehalten von Thinking Blocks hat keine negativen Auswirkungen auf die Modellleistung

Wichtige Überlegungen:

Kontextnutzung: Lange Konversationen verbrauchen mehr Kontextraum, da Thinking Blocks im Kontext beibehalten werden
Automatisches Verhalten: Dies ist das Standardverhalten für Claude Opus 4.5 und später Modelle (einschließlich Opus 4.6) – keine Code-Änderungen oder Beta-Header erforderlich
Rückwärtskompatibilität: Um diese Funktion zu nutzen, geben Sie weiterhin vollständige, unmodifizierte Thinking Blocks an die API zurück, wie Sie es für Tool Use tun würden

Bei früheren Modellen (Claude Sonnet 4.5, Opus 4.1, usw.) werden Thinking Blocks aus vorherigen Turns weiterhin aus dem Kontext entfernt. Das bestehende Verhalten, das im Abschnitt Extended Thinking mit Prompt Caching beschrieben ist, gilt für diese Modelle.

Preisgestaltung

For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

The thinking process incurs charges for:

Tokens used during thinking (output tokens)
Thinking blocks from the last assistant turn included in subsequent requests (input tokens)
Standard text output tokens

When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

When using summarized thinking:

Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
Output tokens (billed): The original thinking tokens that Claude generated internally
Output tokens (visible): The summarized thinking tokens you see in the response
No charge: Tokens used to generate the summary

The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.

Best Practices und Überlegungen für Extended Thinking

Arbeiten mit Thinking Budgets

Budget-Optimierung: Das Mindestbudget beträgt 1.024 Token. Wir empfehlen, mit dem Minimum zu beginnen und das Thinking-Budget schrittweise zu erhöhen, um den optimalen Bereich für Ihren Anwendungsfall zu finden. Höhere Token-Zählungen ermöglichen umfassendere Überlegungen, aber mit sinkenden Erträgen je nach Aufgabe. Das Erhöhen des Budgets kann die Antwortqualität auf Kosten erhöhter Latenz verbessern. Testen Sie für kritische Aufgaben verschiedene Einstellungen, um das optimale Gleichgewicht zu finden. Beachten Sie, dass das Thinking-Budget eher ein Ziel als eine strikte Grenze ist – die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.
Startpunkte: Beginnen Sie mit größeren Thinking-Budgets (16k+ Token) für komplexe Aufgaben und passen Sie diese nach Bedarf an.
Große Budgets: Für Thinking-Budgets über 32k empfehlen wir die Verwendung von Batch-Verarbeitung, um Netzwerkprobleme zu vermeiden. Anfragen, die das Modell dazu bringen, über 32k Token nachzudenken, führen zu lange laufenden Anfragen, die möglicherweise auf System-Timeouts und offene Verbindungsgrenzen stoßen.
Token-Nutzungsverfolgung: Überwachen Sie die Thinking-Token-Nutzung, um Kosten und Leistung zu optimieren.

Leistungsüberlegungen

Antwortzeiten: Seien Sie auf potenziell längere Antwortzeiten vorbereitet, die durch die zusätzliche Verarbeitung erforderlich für den Reasoning-Prozess entstehen. Berücksichtigen Sie, dass das Generieren von Thinking Blocks die Gesamtantwortzeit erhöhen kann.
Streaming-Anforderungen: Die SDKs erfordern Streaming, wenn max_tokens größer als 21.333 ist, um HTTP-Timeouts bei lange laufenden Anfragen zu vermeiden. Dies ist eine Client-seitige Validierung, keine API-Einschränkung. Wenn Sie Ereignisse nicht inkrementell verarbeiten müssen, verwenden Sie .stream() mit .get_final_message() (Python) oder .finalMessage() (TypeScript), um das vollständige Message-Objekt zu erhalten, ohne einzelne Ereignisse zu verarbeiten – siehe Streaming Messages für Details. Beim Streaming seien Sie bereit, sowohl Thinking- als auch Text-Content-Blöcke zu verarbeiten, wenn sie ankommen.

Feature-Kompatibilität

Thinking ist nicht kompatibel mit temperature- oder top_k-Modifikationen sowie mit erzwungenem Tool Use.
Wenn Thinking aktiviert ist, können Sie top_p auf Werte zwischen 1 und 0,95 setzen.
Sie können Antworten nicht vorausfüllen, wenn Thinking aktiviert ist.
Änderungen am Thinking-Budget machen zwischengespeicherte Prompt-Präfixe ungültig, die Messages enthalten. Zwischengespeicherte System-Prompts und Tool-Definitionen funktionieren jedoch weiterhin, wenn sich Thinking-Parameter ändern.

Nutzungsrichtlinien

Aufgabenauswahl: Verwenden Sie Extended Thinking für besonders komplexe Aufgaben, die von schrittweisem Reasoning profitieren, wie Mathematik, Codierung und Analyse.
Kontextbehandlung: Sie müssen vorherige Thinking Blocks nicht selbst entfernen. Die Claude API ignoriert automatisch Thinking Blocks aus vorherigen Turns und sie werden nicht bei der Berechnung der Kontextnutzung berücksichtigt.
Prompt Engineering: Lesen Sie unsere Extended Thinking Prompting Tips, wenn Sie Claudes Thinking-Fähigkeiten maximieren möchten.

Nächste Schritte

Probieren Sie das Extended Thinking Cookbook

Erkunden Sie praktische Beispiele von Thinking in unserem Cookbook.

Extended Thinking Prompting Tips

Lernen Sie Best Practices für Prompt Engineering mit Extended Thinking.

Was this page helpful?

Modellfähigkeiten

Mit erweitertem Denken bauen

Unterstützte Modelle

Erweitertes Denken wird in den folgenden Modellen unterstützt:

Claude Opus 4.6 (claude-opus-4-6) — adaptives Denken nur; manueller Modus (type: "enabled") ist veraltet
Claude Opus 4.5 (claude-opus-4-5-20251101)
Claude Opus 4.1 (claude-opus-4-1-20250805)
Claude Opus 4 (claude-opus-4-20250514)
Claude Sonnet 4.6 (claude-sonnet-4-6) — unterstützt sowohl manuelles erweitertes Denken mit verschachteltem Modus als auch adaptives Denken
Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
Claude Sonnet 4 (claude-sonnet-4-20250514)
Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (veraltet)
Claude Haiku 4.5 (claude-haiku-4-5-20251001)

Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.

Weitere Informationen finden Sie unter Unterschiede beim Denken über Modellversionen hinweg.

Wie erweitertes Denken funktioniert

Die API-Antwort wird thinking Inhaltsblöcke enthalten, gefolgt von text Inhaltsblöcken.

Hier ist ein Beispiel des Standard-Antwortformats:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Weitere Informationen zum Antwortformat des erweiterten Denkens finden Sie in der Messages API-Referenz.

Wie man erweitertes Denken verwendet

Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
        }
    ]
}'

Claude Opus 4.6 unterstützt bis zu 128K Ausgabe-Token. Frühere Modelle unterstützen bis zu 64K Ausgabe-Token.

Zusammengefasstes Denken

Here are some important considerations for summarized thinking:

You're charged for the full thinking tokens generated by the original request, not the summary tokens.
The billed output token count will not match the count of tokens you see in the response.
The first few lines of thinking output are more verbose, providing detailed reasoning that's particularly helpful for prompt engineering purposes.
As Anthropic seeks to improve the extended thinking feature, summarization behavior is subject to change.
Summarization preserves the key ideas of Claude's thinking process with minimal added latency, enabling a streamable user experience and easy migration from Claude Sonnet 3.7 to Claude 4 and later models.
Summarization is processed by a different model than the one you target in your requests. The thinking model does not see the summarized output.

Claude Sonnet 3.7 continues to return full thinking output.

In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.

Streaming-Denken

Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen.

Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte über thinking_delta Events.

Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.

Hier erfahren Sie, wie Sie mit Denken streamen:

curl https://api.anthropic.com/v1/messages \
     --header "x-api-key: $ANTHROPIC_API_KEY" \
     --header "anthropic-version: 2023-06-01" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "stream": true,
    "thinking": {
        "type": "enabled",
        "budget_tokens": 10000
    },
    "messages": [
        {
            "role": "user",
            "content": "What is the greatest common divisor of 1071 and 462?"
        }
    ]
}'

Try in Console

Beispiel-Streaming-Ausgabe:

event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-6", "stop_reason": null, "stop_sequence": null}}

event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}

// Additional thinking deltas...

event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}

event: content_block_stop
data: {"type": "content_block_stop", "index": 0}

event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}

event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}

// Additional text deltas...

event: content_block_stop
data: {"type": "content_block_stop", "index": 1}

event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}

event: message_stop
data: {"type": "message_stop"}

Erweitertes Denken mit Tool-Verwendung

Erweitertes Denken kann zusammen mit Tool-Verwendung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen zu durchdenken.

Bei Verwendung von erweitertem Denken mit Tool-Verwendung sollten Sie sich der folgenden Einschränkungen bewusst sein:

Tool-Auswahl-Einschränkung: Tool-Verwendung mit Denken unterstützt nur tool_choice: {"type": "auto"} (Standard) oder tool_choice: {"type": "none"}. Die Verwendung von tool_choice: {"type": "any"} oder tool_choice: {"type": "tool", "name": "..."} führt zu einem Fehler, da diese Optionen die Tool-Verwendung erzwingen, was mit erweitertem Denken nicht kompatibel ist.
Bewahrung von Denk-Blöcken: Während der Tool-Verwendung müssen Sie thinking Blöcke für die letzte Assistenten-Nachricht an die API zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Kontinuität der Überlegung zu bewahren.

Umschalten von Denk-Modi in Gesprächen

Wenn Denken aktiviert ist, sollte der letzte Assistenten-Zug mit einem Denk-Block beginnen.
Wenn Denken deaktiviert ist, sollte der letzte Assistenten-Zug keine Denk-Blöcke enthalten

Beispielsweise ist diese Sequenz alles Teil eines einzelnen Assistenten-Zuges:

User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]

Obwohl es mehrere API-Nachrichten gibt, ist die Tool-Verwendungsschleife konzeptionell Teil einer kontinuierlichen Assistenten-Antwort.

Sanfte Denk-Degradation

Denk-Blöcke aus der Konversation entfernen, wenn sie eine ungültige Zugstruktur erstellen würden
Denken für die aktuelle Anfrage deaktivieren, wenn die Konversationshistorie mit aktiviertem Denken nicht kompatibel ist

Praktische Anleitung

Best Practice: Planen Sie Ihre Denk-Strategie am Anfang jedes Zuges, anstatt zu versuchen, in der Mitte umzuschalten.

Beispiel: Umschalten von Denken nach Abschluss eines Zuges

User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

Durch Abschluss des Assistenten-Zuges vor dem Umschalten des Denkens stellen Sie sicher, dass das Denken tatsächlich für die neue Anfrage aktiviert ist.

Das Umschalten von Denk-Modi invalidiert auch Prompt-Caching für Nachrichtenhistorie. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.

Bewahrung von Denk-Blöcken

Die bereitgestellten Denk-Blöcke automatisch filtern
Die relevanten Denk-Blöcke verwenden, die notwendig sind, um das Denken des Modells zu bewahren
Nur die Eingabe-Token für die Blöcke berechnen, die Claude angezeigt werden

Kontinuität der Überlegung: Die Denk-Blöcke erfassen Claudes schrittweise Überlegung, die zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt das Einschließen der ursprünglichen Überlegung sicher, dass Claude seine Überlegung von dort fortsetzen kann, wo sie aufgehört hat.
Kontextverwaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Überlegungsflusses. Die Bewahrung von Denk-Blöcken bewahrt diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontextverwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.

Verschachteltes Denken

Mit verschachteltem Denken kann Claude:

Über die Ergebnisse eines Tool-Aufrufs nachdenken, bevor es entscheidet, was als nächstes zu tun ist
Mehrere Tool-Aufrufe mit Denkschritten dazwischen verketten
Nuanciertere Entscheidungen basierend auf Zwischenergebnissen treffen

Modellunterstützung:

Claude Opus 4.6: Verschachteltes Denken ist automatisch aktiviert, wenn adaptives Denken verwendet wird — kein Beta-Header ist erforderlich. Der Beta-Header interleaved-thinking-2025-05-14 ist veraltet auf Opus 4.6 und wird sicher ignoriert, wenn er enthalten ist.
Claude Sonnet 4.6: Unterstützt den Beta-Header interleaved-thinking-2025-05-14 mit manuellem erweitertem Denken (thinking: {type: "enabled"}). Sie können auch adaptives Denken verwenden, das automatisch verschachteltes Denken aktiviert.
Andere Claude 4 Modelle (Opus 4.5, Opus 4.1, Opus 4, Sonnet 4.5, Sonnet 4): Fügen Sie den Beta-Header interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu, um verschachteltes Denken zu aktivieren.

Hier sind einige wichtige Überlegungen für verschachteltes Denken:

Mit verschachteltem Denken kann budget_tokens den max_tokens Parameter überschreiten, da es das Gesamtbudget über alle Denk-Blöcke innerhalb eines Assistenten-Zuges darstellt.
Verschachteltes Denken wird nur für Tools unterstützt, die über die Messages API verwendet werden.
Direkte Aufrufe der Claude API ermöglichen es Ihnen, interleaved-thinking-2025-05-14 in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen (außer Opus 4.6, wo es veraltet ist und sicher ignoriert wird).
Auf Plattformen von Drittanbietern (z. B. Amazon Bedrock und Vertex AI), wenn Sie interleaved-thinking-2025-05-14 an ein anderes Modell als Claude Sonnet 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, Sonnet 4.5 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.

Erweitertes Denken mit Prompt-Caching

Prompt-Caching mit Denken hat mehrere wichtige Überlegungen:

Entfernung von Denk-Block-Kontext

Denk-Blöcke aus vorherigen Zügen werden aus dem Kontext entfernt, was Cache-Breakpoints beeinflussen kann
Bei Fortsetzung von Gesprächen mit Tool-Verwendung werden Denk-Blöcke zwischengespeichert und zählen als Eingabe-Token, wenn sie aus dem Cache gelesen werden
Dies schafft einen Kompromiss: Während Denk-Blöcke visuell keinen Kontextfensterplatz verbrauchen, zählen sie dennoch zu Ihrer Eingabe-Token-Nutzung, wenn sie zwischengespeichert werden
Wenn Denken deaktiviert wird und Sie Denkinhalte im aktuellen Tool-Verwendungs-Zug übergeben, werden die Denkinhalte entfernt und Denken bleibt für diese Anfrage deaktiviert

Cache-Invalidierungsmuster

Änderungen an Denk-Parametern (aktiviert/deaktiviert oder Budget-Zuweisung) invalidieren Message-Cache-Breakpoints
Verschachteltes Denken verstärkt Cache-Invalidierung, da Denk-Blöcke zwischen mehreren Tool-Aufrufen auftreten können
System-Prompts und Tools bleiben trotz Denk-Parameter-Änderungen oder Block-Entfernung zwischengespeichert

Während Denk-Blöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei Fortsetzung von Gesprächen mit Tool-Verwendung, besonders mit verschachteltem Denken, bewahrt werden.

Verständnis des Caching-Verhaltens von Thinking Blocks

Bei Verwendung von Extended Thinking mit Tool Use zeigen Thinking Blocks ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst:

Funktionsweise:

Caching erfolgt nur, wenn Sie eine nachfolgende Anfrage stellen, die Tool-Ergebnisse enthält
Wenn die nachfolgende Anfrage gestellt wird, kann die vorherige Konversationshistorie (einschließlich Thinking Blocks) zwischengespeichert werden
Diese zwischengespeicherten Thinking Blocks werden als Input-Token in Ihren Nutzungsmetriken gezählt, wenn sie aus dem Cache gelesen werden
Wenn ein Non-Tool-Result-User-Block enthalten ist, werden alle vorherigen Thinking Blocks ignoriert und aus dem Kontext entfernt

Detailliertes Beispielablauf:

Anfrage 1:

User: "What's the weather in Paris?"

Antwort 1:

[thinking_block_1] + [tool_use block 1]

Anfrage 2:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]

Antwort 2:

[thinking_block_2] + [text block 2]

Anfrage 2 schreibt einen Cache des Anfrageinhalts (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Thinking Block, den Tool-Use-Block und das Tool-Ergebnis.

Anfrage 3:

User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]

User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]

Wichtige Punkte:

Dieses Caching-Verhalten erfolgt automatisch, auch ohne explizite cache_control-Marker
Dieses Verhalten ist konsistent, ob Sie reguläres Thinking oder Interleaved Thinking verwenden

Max Tokens und Kontextfenstergröße mit Extended Thinking

Sie können unseren Leitfaden zu Kontextfenstern lesen, um einen tieferen Einblick zu erhalten.

Das Kontextfenster mit Extended Thinking

Bei der Berechnung der Kontextfensternutzung mit aktiviertem Thinking gibt es einige Überlegungen zu beachten:

Thinking Blocks aus vorherigen Turns werden entfernt und nicht auf Ihr Kontextfenster angerechnet
Das aktuelle Turn-Thinking wird auf Ihr max_tokens-Limit für diesen Turn angerechnet

Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn Extended Thinking aktiviert ist:

Kontextfenster-Diagramm mit Extended Thinking

Das effektive Kontextfenster wird berechnet als:

context window =
  (current input tokens - previous thinking tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Das Kontextfenster mit Extended Thinking und Tool Use

Bei Verwendung von Extended Thinking mit Tool Use müssen Thinking Blocks explizit beibehalten und mit den Tool-Ergebnissen zurückgegeben werden.

Die effektive Kontextfensterberechnung für Extended Thinking mit Tool Use wird zu:

context window =
  (current input tokens + previous thinking tokens + tool use tokens) +
  (thinking tokens + encrypted thinking tokens + text output tokens)

Das folgende Diagramm zeigt die Token-Verwaltung für Extended Thinking mit Tool Use:

Kontextfenster-Diagramm mit Extended Thinking und Tool Use

Verwaltung von Tokens mit Extended Thinking

Angesichts des Kontextfensters und des max_tokens-Verhaltens mit Extended Thinking Claude 3.7 und 4 Modellen müssen Sie möglicherweise:

Ihre Token-Nutzung aktiver überwachen und verwalten
max_tokens-Werte anpassen, wenn sich Ihre Prompt-Länge ändert
Möglicherweise die Token-Zähl-Endpunkte häufiger verwenden
Beachten, dass vorherige Thinking Blocks sich nicht in Ihrem Kontextfenster ansammeln

Diese Änderung wurde vorgenommen, um ein vorhersehbareres und transparenteres Verhalten zu bieten, besonders da die maximalen Token-Limits erheblich gestiegen sind.

Thinking-Verschlüsselung

Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.

If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.

Here are some important considerations on thinking encryption:

When streaming responses, the signature is added via a signature_delta inside a content_block_delta event just before the content_block_stop event.
signature values are significantly longer in Claude 4 models than in previous models.
The signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.
signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.

Thinking-Redaktion

When building customer-facing applications that use extended thinking:

Be aware that redacted thinking blocks contain encrypted content that isn't human-readable
Consider providing a simple explanation like: "Some of Claude's internal reasoning has been automatically encrypted for safety reasons. This doesn't affect the quality of responses."
If showing thinking blocks to users, you can filter out redacted blocks while preserving normal thinking blocks
Be transparent that using extended thinking features may occasionally result in some reasoning being encrypted
Implement appropriate error handling to gracefully manage redacted thinking without breaking your UI

Here's an example showing both normal and redacted thinking blocks:

{
  "content": [
    {
      "type": "thinking",
      "thinking": "Let me analyze this step by step...",
      "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
    },
    {
      "type": "redacted_thinking",
      "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
    },
    {
      "type": "text",
      "text": "Based on my analysis..."
    }
  ]
}

Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.

Unterschiede beim Thinking zwischen Modellversionen

Die Messages API behandelt Thinking unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Bezug auf Redaktions- und Zusammenfassungsverhalten.

Siehe die folgende Tabelle für einen komprimierten Vergleich:

Funktion	Claude Sonnet 3.7	Claude 4 Modelle (vor Opus 4.5)	Claude Opus 4.5	Claude Sonnet 4.6	Claude Opus 4.6 (adaptives Thinking)
Thinking-Ausgabe	Gibt vollständige Thinking-Ausgabe zurück	Gibt zusammengefasstes Thinking zurück	Gibt zusammengefasstes Thinking zurück	Gibt zusammengefasstes Thinking zurück	Gibt zusammengefasstes Thinking zurück
Interleaved Thinking	Nicht unterstützt	Unterstützt mit `interleaved-thinking-2025-05-14` Beta-Header	Unterstützt mit `interleaved-thinking-2025-05-14` Beta-Header	Unterstützt mit `interleaved-thinking-2025-05-14` Beta-Header oder automatisch mit adaptivem Thinking	Automatisch mit adaptivem Thinking (Beta-Header nicht unterstützt)
Thinking Block Preservation	Nicht über Turns hinweg beibehalten	Nicht über Turns hinweg beibehalten	Standardmäßig beibehalten	Standardmäßig beibehalten	Standardmäßig beibehalten

Thinking Block Preservation in Claude Opus 4.5 und später

Vorteile der Thinking Block Preservation:

Cache-Optimierung: Bei Verwendung von Tool Use ermöglichen beibehaltene Thinking Blocks Cache-Hits, da sie mit Tool-Ergebnissen zurückgegeben und inkrementell über den Assistant-Turn hinweg zwischengespeichert werden, was zu Token-Einsparungen in mehrstufigen Workflows führt
Keine Auswirkung auf Intelligenz: Das Beibehalten von Thinking Blocks hat keine negativen Auswirkungen auf die Modellleistung

Wichtige Überlegungen:

Kontextnutzung: Lange Konversationen verbrauchen mehr Kontextraum, da Thinking Blocks im Kontext beibehalten werden
Automatisches Verhalten: Dies ist das Standardverhalten für Claude Opus 4.5 und später Modelle (einschließlich Opus 4.6) – keine Code-Änderungen oder Beta-Header erforderlich
Rückwärtskompatibilität: Um diese Funktion zu nutzen, geben Sie weiterhin vollständige, unmodifizierte Thinking Blocks an die API zurück, wie Sie es für Tool Use tun würden

Preisgestaltung

For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.

The thinking process incurs charges for:

Tokens used during thinking (output tokens)
Thinking blocks from the last assistant turn included in subsequent requests (input tokens)
Standard text output tokens

When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.

When using summarized thinking:

Input tokens: Tokens in your original request (excludes thinking tokens from previous turns)
Output tokens (billed): The original thinking tokens that Claude generated internally
Output tokens (visible): The summarized thinking tokens you see in the response
No charge: Tokens used to generate the summary

The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.

Best Practices und Überlegungen für Extended Thinking

Arbeiten mit Thinking Budgets

Budget-Optimierung: Das Mindestbudget beträgt 1.024 Token. Wir empfehlen, mit dem Minimum zu beginnen und das Thinking-Budget schrittweise zu erhöhen, um den optimalen Bereich für Ihren Anwendungsfall zu finden. Höhere Token-Zählungen ermöglichen umfassendere Überlegungen, aber mit sinkenden Erträgen je nach Aufgabe. Das Erhöhen des Budgets kann die Antwortqualität auf Kosten erhöhter Latenz verbessern. Testen Sie für kritische Aufgaben verschiedene Einstellungen, um das optimale Gleichgewicht zu finden. Beachten Sie, dass das Thinking-Budget eher ein Ziel als eine strikte Grenze ist – die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.
Startpunkte: Beginnen Sie mit größeren Thinking-Budgets (16k+ Token) für komplexe Aufgaben und passen Sie diese nach Bedarf an.
Große Budgets: Für Thinking-Budgets über 32k empfehlen wir die Verwendung von Batch-Verarbeitung, um Netzwerkprobleme zu vermeiden. Anfragen, die das Modell dazu bringen, über 32k Token nachzudenken, führen zu lange laufenden Anfragen, die möglicherweise auf System-Timeouts und offene Verbindungsgrenzen stoßen.
Token-Nutzungsverfolgung: Überwachen Sie die Thinking-Token-Nutzung, um Kosten und Leistung zu optimieren.

Leistungsüberlegungen

Antwortzeiten: Seien Sie auf potenziell längere Antwortzeiten vorbereitet, die durch die zusätzliche Verarbeitung erforderlich für den Reasoning-Prozess entstehen. Berücksichtigen Sie, dass das Generieren von Thinking Blocks die Gesamtantwortzeit erhöhen kann.
Streaming-Anforderungen: Die SDKs erfordern Streaming, wenn max_tokens größer als 21.333 ist, um HTTP-Timeouts bei lange laufenden Anfragen zu vermeiden. Dies ist eine Client-seitige Validierung, keine API-Einschränkung. Wenn Sie Ereignisse nicht inkrementell verarbeiten müssen, verwenden Sie .stream() mit .get_final_message() (Python) oder .finalMessage() (TypeScript), um das vollständige Message-Objekt zu erhalten, ohne einzelne Ereignisse zu verarbeiten – siehe Streaming Messages für Details. Beim Streaming seien Sie bereit, sowohl Thinking- als auch Text-Content-Blöcke zu verarbeiten, wenn sie ankommen.

Feature-Kompatibilität

Thinking ist nicht kompatibel mit temperature- oder top_k-Modifikationen sowie mit erzwungenem Tool Use.
Wenn Thinking aktiviert ist, können Sie top_p auf Werte zwischen 1 und 0,95 setzen.
Sie können Antworten nicht vorausfüllen, wenn Thinking aktiviert ist.
Änderungen am Thinking-Budget machen zwischengespeicherte Prompt-Präfixe ungültig, die Messages enthalten. Zwischengespeicherte System-Prompts und Tool-Definitionen funktionieren jedoch weiterhin, wenn sich Thinking-Parameter ändern.

Nutzungsrichtlinien

Aufgabenauswahl: Verwenden Sie Extended Thinking für besonders komplexe Aufgaben, die von schrittweisem Reasoning profitieren, wie Mathematik, Codierung und Analyse.
Kontextbehandlung: Sie müssen vorherige Thinking Blocks nicht selbst entfernen. Die Claude API ignoriert automatisch Thinking Blocks aus vorherigen Turns und sie werden nicht bei der Berechnung der Kontextnutzung berücksichtigt.
Prompt Engineering: Lesen Sie unsere Extended Thinking Prompting Tips, wenn Sie Claudes Thinking-Fähigkeiten maximieren möchten.

Nächste Schritte

Probieren Sie das Extended Thinking Cookbook

Erkunden Sie praktische Beispiele von Thinking in unserem Cookbook.

Extended Thinking Prompting Tips

Lernen Sie Best Practices für Prompt Engineering mit Extended Thinking.

Was this page helpful?

Unterstützte Modelle

Wie erweitertes Denken funktioniert

Wie man erweitertes Denken verwendet

Zusammengefasstes Denken

Streaming-Denken

Erweitertes Denken mit Tool-Verwendung

Umschalten von Denk-Modi in Gesprächen

Sanfte Denk-Degradation

Praktische Anleitung

Beispiel: Denk-Blöcke mit Tool-Ergebnissen übergeben

Bewahrung von Denk-Blöcken

Verschachteltes Denken

Tool-Verwendung ohne verschachteltes Denken

Tool-Verwendung mit verschachteltem Denken

Erweitertes Denken mit Prompt-Caching

Verständnis des Caching-Verhaltens von Thinking Blocks

System Prompt Caching (beibehalten, wenn sich Thinking ändert)

Messages Caching (ungültig, wenn sich Thinking ändert)

Max Tokens und Kontextfenstergröße mit Extended Thinking

Das Kontextfenster mit Extended Thinking

Das Kontextfenster mit Extended Thinking und Tool Use

Verwaltung von Tokens mit Extended Thinking

Thinking-Verschlüsselung

Thinking-Redaktion

Beispiel: Arbeiten mit redigierten Thinking Blocks

Unterschiede beim Thinking zwischen Modellversionen

Thinking Block Preservation in Claude Opus 4.5 und später

Preisgestaltung

Best Practices und Überlegungen für Extended Thinking

Arbeiten mit Thinking Budgets

Leistungsüberlegungen

Feature-Kompatibilität

Nutzungsrichtlinien

Nächste Schritte

Unterstützte Modelle

Wie erweitertes Denken funktioniert

Wie man erweitertes Denken verwendet

Zusammengefasstes Denken

Streaming-Denken

Erweitertes Denken mit Tool-Verwendung

Umschalten von Denk-Modi in Gesprächen

Sanfte Denk-Degradation

Praktische Anleitung

Beispiel: Denk-Blöcke mit Tool-Ergebnissen übergeben

Bewahrung von Denk-Blöcken

Verschachteltes Denken

Tool-Verwendung ohne verschachteltes Denken

Tool-Verwendung mit verschachteltem Denken

Erweitertes Denken mit Prompt-Caching

Verständnis des Caching-Verhaltens von Thinking Blocks

System Prompt Caching (beibehalten, wenn sich Thinking ändert)

Messages Caching (ungültig, wenn sich Thinking ändert)

Max Tokens und Kontextfenstergröße mit Extended Thinking

Das Kontextfenster mit Extended Thinking

Das Kontextfenster mit Extended Thinking und Tool Use

Verwaltung von Tokens mit Extended Thinking

Thinking-Verschlüsselung

Thinking-Redaktion

Beispiel: Arbeiten mit redigierten Thinking Blocks

Unterschiede beim Thinking zwischen Modellversionen

Thinking Block Preservation in Claude Opus 4.5 und später

Preisgestaltung

Best Practices und Überlegungen für Extended Thinking

Arbeiten mit Thinking Budgets

Leistungsüberlegungen

Feature-Kompatibilität

Nutzungsrichtlinien

Nächste Schritte