Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess bietet, bevor es seine endgültige Antwort liefert.
Für Claude Opus 4.6 empfehlen wir die Verwendung von adaptivem Denken (thinking: {type: "adaptive"}) mit dem Effort-Parameter anstelle des auf dieser Seite beschriebenen manuellen Denkenmodus. Die manuelle Konfiguration thinking: {type: "enabled", budget_tokens: N} ist auf Opus 4.6 veraltet und wird in einer zukünftigen Modellversion entfernt.
Erweitertes Denken wird in den folgenden Modellen unterstützt:
claude-opus-4-6) — adaptives Denken nur; manueller Modus (type: "enabled") ist veraltetclaude-opus-4-5-20251101)claude-opus-4-1-20250805)claude-opus-4-20250514)claude-sonnet-4-6) — unterstützt sowohl manuelles erweitertes Denken mit verschachteltem Modus als auch adaptives Denkenclaude-sonnet-4-5-20250929)claude-sonnet-4-20250514)claude-3-7-sonnet-20250219) (veraltet)claude-haiku-4-5-20251001)Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.
Weitere Informationen finden Sie unter Unterschiede beim Denken über Modellversionen hinweg.
Wenn erweitertes Denken aktiviert ist, erstellt Claude thinking Inhaltsblöcke, in denen es seine interne Überlegung ausgibt. Claude bezieht Erkenntnisse aus dieser Überlegung ein, bevor es eine endgültige Antwort formuliert.
Die API-Antwort wird thinking Inhaltsblöcke enthalten, gefolgt von text Inhaltsblöcken.
Hier ist ein Beispiel des Standard-Antwortformats:
{
"content": [
{
"type": "thinking",
"thinking": "Let me analyze this step by step...",
"signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
},
{
"type": "text",
"text": "Based on my analysis..."
}
]
}Weitere Informationen zum Antwortformat des erweiterten Denkens finden Sie in der Messages API-Referenz.
Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "content-type: application/json" \
--data \
'{
"model": "claude-sonnet-4-6",
"max_tokens": 16000,
"thinking": {
"type": "enabled",
"budget_tokens": 10000
},
"messages": [
{
"role": "user",
"content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
}
]
}'Um erweitertes Denken zu aktivieren, fügen Sie ein thinking Objekt hinzu, wobei der type Parameter auf enabled und budget_tokens auf ein angegebenes Token-Budget für erweitertes Denken gesetzt ist. Für Claude Opus 4.6 empfehlen wir stattdessen type: "adaptive" zu verwenden — siehe Adaptives Denken für Details. Während type: "enabled" mit budget_tokens auf Opus 4.6 noch unterstützt wird, ist es veraltet und wird in einer zukünftigen Version entfernt.
Der budget_tokens Parameter bestimmt die maximale Anzahl von Token, die Claude für seinen internen Denkprozess verwenden darf. In Claude 4 und späteren Modellen gilt diese Grenze für vollständige Denk-Token und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie eine gründlichere Analyse für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget nutzt, besonders bei Bereichen über 32k.
budget_tokens ist auf Claude Opus 4.6 veraltet und wird in einer zukünftigen Modellversion entfernt. Wir empfehlen die Verwendung von adaptivem Denken mit dem Effort-Parameter, um die Denktiefe zu kontrollieren.
Claude Opus 4.6 unterstützt bis zu 128K Ausgabe-Token. Frühere Modelle unterstützen bis zu 64K Ausgabe-Token.
budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Bei Verwendung von verschachteltem Denken mit Tools können Sie diese Grenze jedoch überschreiten, da die Token-Grenze zu Ihrem gesamten Kontextfenster wird (200k Token).
With extended thinking enabled, the Messages API for Claude 4 models returns a summary of Claude's full thinking process. Summarized thinking provides the full intelligence benefits of extended thinking, while preventing misuse.
Here are some important considerations for summarized thinking:
Claude Sonnet 3.7 continues to return full thinking output.
In rare cases where you need access to full thinking output for Claude 4 models, contact our sales team.
Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen.
Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte über thinking_delta Events.
Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.
Hier erfahren Sie, wie Sie mit Denken streamen:
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "content-type: application/json" \
--data \
'{
"model": "claude-sonnet-4-6",
"max_tokens": 16000,
"stream": true,
"thinking": {
"type": "enabled",
"budget_tokens": 10000
},
"messages": [
{
"role": "user",
"content": "What is the greatest common divisor of 1071 and 462?"
}
]
}'Beispiel-Streaming-Ausgabe:
event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-6", "stop_reason": null, "stop_sequence": null}}
event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "I need to find the GCD of 1071 and 462 using the Euclidean algorithm.\n\n1071 = 2 × 462 + 147"}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n462 = 3 × 147 + 21\n147 = 7 × 21 + 0\n\nSo GCD(1071, 462) = 21"}}
// Additional thinking deltas...
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
event: content_block_stop
data: {"type": "content_block_stop", "index": 0}
event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "The greatest common divisor of 1071 and 462 is **21**."}}
// Additional text deltas...
event: content_block_stop
data: {"type": "content_block_stop", "index": 1}
event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
event: message_stop
data: {"type": "message_stop"}Wenn Sie Streaming mit aktiviertem Denken verwenden, bemerken Sie möglicherweise, dass Text manchmal in größeren Blöcken ankommt, die sich mit kleineren, Token-für-Token-Lieferungen abwechseln. Dies ist erwartetes Verhalten, besonders für Denkinhalte.
Das Streaming-System muss Inhalte in Batches für optimale Leistung verarbeiten, was zu diesem „klumpigen" Liefermuster führen kann, mit möglichen Verzögerungen zwischen Streaming-Events. Wir arbeiten kontinuierlich daran, diese Erfahrung zu verbessern, mit zukünftigen Updates, die sich auf ein sanfteres Streaming von Denkinhalten konzentrieren.
Erweitertes Denken kann zusammen mit Tool-Verwendung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen zu durchdenken.
Bei Verwendung von erweitertem Denken mit Tool-Verwendung sollten Sie sich der folgenden Einschränkungen bewusst sein:
Tool-Auswahl-Einschränkung: Tool-Verwendung mit Denken unterstützt nur tool_choice: {"type": "auto"} (Standard) oder tool_choice: {"type": "none"}. Die Verwendung von tool_choice: {"type": "any"} oder tool_choice: {"type": "tool", "name": "..."} führt zu einem Fehler, da diese Optionen die Tool-Verwendung erzwingen, was mit erweitertem Denken nicht kompatibel ist.
Bewahrung von Denk-Blöcken: Während der Tool-Verwendung müssen Sie thinking Blöcke für die letzte Assistenten-Nachricht an die API zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Kontinuität der Überlegung zu bewahren.
Sie können das Denken nicht in der Mitte eines Assistenten-Zuges umschalten, einschließlich während Tool-Verwendungsschleifen. Der gesamte Assistenten-Zug sollte in einem einzigen Denk-Modus arbeiten:
Aus der Perspektive des Modells sind Tool-Verwendungsschleifen Teil des Assistenten-Zuges. Ein Assistenten-Zug ist nicht abgeschlossen, bis Claude seine vollständige Antwort fertiggestellt hat, die mehrere Tool-Aufrufe und Ergebnisse enthalten kann.
Beispielsweise ist diese Sequenz alles Teil eines einzelnen Assistenten-Zuges:
User: "What's the weather in Paris?"
Assistant: [thinking] + [tool_use: get_weather]
User: [tool_result: "20°C, sunny"]
Assistant: [text: "The weather in Paris is 20°C and sunny"]Obwohl es mehrere API-Nachrichten gibt, ist die Tool-Verwendungsschleife konzeptionell Teil einer kontinuierlichen Assistenten-Antwort.
Wenn ein Denk-Konflikt in der Mitte des Zuges auftritt (z. B. das Umschalten von Denken an oder aus während einer Tool-Verwendungsschleife), deaktiviert die API automatisch das Denken für diese Anfrage. Um die Modellqualität zu bewahren und auf der Verteilung zu bleiben, kann die API:
Dies bedeutet, dass der Versuch, das Denken in der Mitte des Zuges umzuschalten, keinen Fehler verursacht, aber das Denken wird für diese Anfrage stillschweigend deaktiviert. Um zu bestätigen, ob das Denken aktiv war, überprüfen Sie das Vorhandensein von thinking Blöcken in der Antwort.
Best Practice: Planen Sie Ihre Denk-Strategie am Anfang jedes Zuges, anstatt zu versuchen, in der Mitte umzuschalten.
Beispiel: Umschalten von Denken nach Abschluss eines Zuges
User: "What's the weather?"
Assistant: [tool_use] (thinking disabled)
User: [tool_result]
Assistant: [text: "It's sunny"]
User: "What about tomorrow?"
Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)Durch Abschluss des Assistenten-Zuges vor dem Umschalten des Denkens stellen Sie sicher, dass das Denken tatsächlich für die neue Anfrage aktiviert ist.
Das Umschalten von Denk-Modi invalidiert auch Prompt-Caching für Nachrichtenhistorie. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.
Während der Tool-Verwendung müssen Sie thinking Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells und der Konversationsintegrität.
Während Sie thinking Blöcke aus vorherigen assistant Rollen-Zügen weglassen können, empfehlen wir, immer alle Denk-Blöcke an die API für jedes mehrteilige Gespräch zurückzugeben. Die API wird:
Wenn Sie Denk-Modi während eines Gesprächs umschalten, denken Sie daran, dass der gesamte Assistenten-Zug (einschließlich Tool-Verwendungsschleifen) in einem einzigen Denk-Modus arbeiten muss. Weitere Details finden Sie unter Umschalten von Denk-Modi in Gesprächen.
Wenn Claude Tools aufruft, pausiert es die Konstruktion einer Antwort, um auf externe Informationen zu warten. Wenn Tool-Ergebnisse zurückgegeben werden, wird Claude die Konstruktion dieser bestehenden Antwort fortsetzen. Dies erfordert die Bewahrung von Denk-Blöcken während der Tool-Verwendung aus ein paar Gründen:
Kontinuität der Überlegung: Die Denk-Blöcke erfassen Claudes schrittweise Überlegung, die zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt das Einschließen der ursprünglichen Überlegung sicher, dass Claude seine Überlegung von dort fortsetzen kann, wo sie aufgehört hat.
Kontextverwaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Überlegungsflusses. Die Bewahrung von Denk-Blöcken bewahrt diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontextverwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.
Wichtig: Wenn Sie thinking Blöcke bereitstellen, muss die gesamte Sequenz aufeinanderfolgender thinking Blöcke den Ausgaben entsprechen, die das Modell während der ursprünglichen Anfrage generiert hat; Sie können die Sequenz dieser Blöcke nicht umordnen oder ändern.
Erweitertes Denken mit Tool-Verwendung in Claude 4 Modellen unterstützt verschachteltes Denken, das Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach Erhalt von Tool-Ergebnissen anspruchsvollere Überlegungen anzustellen.
Mit verschachteltem Denken kann Claude:
Modellunterstützung:
interleaved-thinking-2025-05-14 ist veraltet auf Opus 4.6 und wird sicher ignoriert, wenn er enthalten ist.interleaved-thinking-2025-05-14 mit manuellem erweitertem Denken (thinking: {type: "enabled"}). Sie können auch adaptives Denken verwenden, das automatisch verschachteltes Denken aktiviert.interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu, um verschachteltes Denken zu aktivieren.Hier sind einige wichtige Überlegungen für verschachteltes Denken:
budget_tokens den max_tokens Parameter überschreiten, da es das Gesamtbudget über alle Denk-Blöcke innerhalb eines Assistenten-Zuges darstellt.interleaved-thinking-2025-05-14 in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen (außer Opus 4.6, wo es veraltet ist und sicher ignoriert wird).interleaved-thinking-2025-05-14 an ein anderes Modell als Claude Sonnet 4.6, Claude Opus 4.5, Claude Opus 4.1, Opus 4, Sonnet 4.5 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.Prompt-Caching mit Denken hat mehrere wichtige Überlegungen:
Aufgaben mit erweitertem Denken dauern oft länger als 5 Minuten. Erwägen Sie die Verwendung der 1-Stunden-Cache-Dauer, um Cache-Treffer über längere Denksitzungen und mehrstufige Workflows hinweg zu bewahren.
Entfernung von Denk-Block-Kontext
Cache-Invalidierungsmuster
Während Denk-Blöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei Fortsetzung von Gesprächen mit Tool-Verwendung, besonders mit verschachteltem Denken, bewahrt werden.
Bei Verwendung von Extended Thinking mit Tool Use zeigen Thinking Blocks ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst:
Funktionsweise:
Detailliertes Beispielablauf:
Anfrage 1:
User: "What's the weather in Paris?"Antwort 1:
[thinking_block_1] + [tool_use block 1]Anfrage 2:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]Antwort 2:
[thinking_block_2] + [text block 2]Anfrage 2 schreibt einen Cache des Anfrageinhalts (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Thinking Block, den Tool-Use-Block und das Tool-Ergebnis.
Anfrage 3:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]Für Claude Opus 4.5 und später (einschließlich Claude Opus 4.6) werden alle vorherigen Thinking Blocks standardmäßig beibehalten. Bei älteren Modellen werden alle vorherigen Thinking Blocks ignoriert, da ein Non-Tool-Result-User-Block enthalten war. Diese Anfrage wird genauso verarbeitet wie:
User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]Wichtige Punkte:
cache_control-MarkerBei älteren Claude-Modellen (vor Claude Sonnet 3.7) würde das System automatisch max_tokens anpassen, um in das Kontextfenster zu passen, wenn die Summe von Prompt-Token und max_tokens das Kontextfenster des Modells überschreitet. Dies bedeutete, dass Sie einen großen max_tokens-Wert festlegen konnten und das System ihn bei Bedarf stillschweigend reduzieren würde.
Bei Claude 3.7 und 4 Modellen wird max_tokens (das Ihr Thinking-Budget einschließt, wenn Thinking aktiviert ist) als strikte Grenze durchgesetzt. Das System gibt nun einen Validierungsfehler zurück, wenn Prompt-Token + max_tokens die Kontextfenstergröße überschreitet.
Sie können unseren Leitfaden zu Kontextfenstern lesen, um einen tieferen Einblick zu erhalten.
Bei der Berechnung der Kontextfensternutzung mit aktiviertem Thinking gibt es einige Überlegungen zu beachten:
max_tokens-Limit für diesen Turn angerechnetDas folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn Extended Thinking aktiviert ist:
Das effektive Kontextfenster wird berechnet als:
context window =
(current input tokens - previous thinking tokens) +
(thinking tokens + encrypted thinking tokens + text output tokens)Wir empfehlen, die Token-Zähl-API zu verwenden, um genaue Token-Zählungen für Ihren spezifischen Anwendungsfall zu erhalten, besonders wenn Sie mit mehrteiligen Konversationen arbeiten, die Thinking enthalten.
Bei Verwendung von Extended Thinking mit Tool Use müssen Thinking Blocks explizit beibehalten und mit den Tool-Ergebnissen zurückgegeben werden.
Die effektive Kontextfensterberechnung für Extended Thinking mit Tool Use wird zu:
context window =
(current input tokens + previous thinking tokens + tool use tokens) +
(thinking tokens + encrypted thinking tokens + text output tokens)Das folgende Diagramm zeigt die Token-Verwaltung für Extended Thinking mit Tool Use:
Angesichts des Kontextfensters und des max_tokens-Verhaltens mit Extended Thinking Claude 3.7 und 4 Modellen müssen Sie möglicherweise:
max_tokens-Werte anpassen, wenn sich Ihre Prompt-Länge ändertDiese Änderung wurde vorgenommen, um ein vorhersehbareres und transparenteres Verhalten zu bieten, besonders da die maximalen Token-Limits erheblich gestiegen sind.
Full thinking content is encrypted and returned in the signature field. This field is used to verify that thinking blocks were generated by Claude when passed back to the API.
It is only strictly necessary to send back thinking blocks when using tools with extended thinking. Otherwise you can omit thinking blocks from previous turns, or let the API strip them for you if you pass them back.
If sending back thinking blocks, we recommend passing everything back as you received it for consistency and to avoid potential issues.
Here are some important considerations on thinking encryption:
signature_delta inside a content_block_delta event just before the content_block_stop event.signature values are significantly longer in Claude 4 models than in previous models.signature field is an opaque field and should not be interpreted or parsed - it exists solely for verification purposes.signature values are compatible across platforms (Claude APIs, Amazon Bedrock, and Vertex AI). Values generated on one platform will be compatible with another.Occasionally Claude's internal reasoning will be flagged by our safety systems. When this occurs, we encrypt some or all of the thinking block and return it to you as a redacted_thinking block. redacted_thinking blocks are decrypted when passed back to the API, allowing Claude to continue its response without losing context.
When building customer-facing applications that use extended thinking:
Here's an example showing both normal and redacted thinking blocks:
{
"content": [
{
"type": "thinking",
"thinking": "Let me analyze this step by step...",
"signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
},
{
"type": "redacted_thinking",
"data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
},
{
"type": "text",
"text": "Based on my analysis..."
}
]
}Seeing redacted thinking blocks in your output is expected behavior. The model can still use this redacted reasoning to inform its responses while maintaining safety guardrails.
If you need to test redacted thinking handling in your application, you can use this special test string as your prompt: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
When passing thinking and redacted_thinking blocks back to the API in a multi-turn conversation, you must include the complete unmodified block back to the API for the last assistant turn. This is critical for maintaining the model's reasoning flow. We suggest always passing back all thinking blocks to the API. For more details, see the Preserving thinking blocks section.
Die Messages API behandelt Thinking unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Bezug auf Redaktions- und Zusammenfassungsverhalten.
Siehe die folgende Tabelle für einen komprimierten Vergleich:
| Funktion | Claude Sonnet 3.7 | Claude 4 Modelle (vor Opus 4.5) | Claude Opus 4.5 | Claude Sonnet 4.6 | Claude Opus 4.6 (adaptives Thinking) |
|---|---|---|---|---|---|
| Thinking-Ausgabe | Gibt vollständige Thinking-Ausgabe zurück | Gibt zusammengefasstes Thinking zurück | Gibt zusammengefasstes Thinking zurück | Gibt zusammengefasstes Thinking zurück | Gibt zusammengefasstes Thinking zurück |
| Interleaved Thinking | Nicht unterstützt | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header oder automatisch mit adaptivem Thinking | Automatisch mit adaptivem Thinking (Beta-Header nicht unterstützt) |
| Thinking Block Preservation | Nicht über Turns hinweg beibehalten | Nicht über Turns hinweg beibehalten | Standardmäßig beibehalten | Standardmäßig beibehalten | Standardmäßig beibehalten |
Ab Claude Opus 4.5 (und fortgesetzt in Claude Opus 4.6) werden Thinking Blocks aus vorherigen Assistant-Turns standardmäßig im Modellkontext beibehalten. Dies unterscheidet sich von früheren Modellen, die Thinking Blocks aus vorherigen Turns entfernen.
Vorteile der Thinking Block Preservation:
Wichtige Überlegungen:
Bei früheren Modellen (Claude Sonnet 4.5, Opus 4.1, usw.) werden Thinking Blocks aus vorherigen Turns weiterhin aus dem Kontext entfernt. Das bestehende Verhalten, das im Abschnitt Extended Thinking mit Prompt Caching beschrieben ist, gilt für diese Modelle.
For complete pricing information including base rates, cache writes, cache hits, and output tokens, see the pricing page.
The thinking process incurs charges for:
When extended thinking is enabled, a specialized system prompt is automatically included to support this feature.
When using summarized thinking:
The billed output token count will not match the visible token count in the response. You are billed for the full thinking process, not the summary you see.
max_tokens größer als 21.333 ist, um HTTP-Timeouts bei lange laufenden Anfragen zu vermeiden. Dies ist eine Client-seitige Validierung, keine API-Einschränkung. Wenn Sie Ereignisse nicht inkrementell verarbeiten müssen, verwenden Sie .stream() mit .get_final_message() (Python) oder .finalMessage() (TypeScript), um das vollständige Message-Objekt zu erhalten, ohne einzelne Ereignisse zu verarbeiten – siehe Streaming Messages für Details. Beim Streaming seien Sie bereit, sowohl Thinking- als auch Text-Content-Blöcke zu verarbeiten, wenn sie ankommen.temperature- oder top_k-Modifikationen sowie mit erzwungenem Tool Use.top_p auf Werte zwischen 1 und 0,95 setzen.Erkunden Sie praktische Beispiele von Thinking in unserem Cookbook.
Lernen Sie Best Practices für Prompt Engineering mit Extended Thinking.
Was this page helpful?