Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess vor der endgültigen Antwort bietet.
Erweitertes Denken wird in den folgenden Modellen unterstützt:
claude-sonnet-4-5-20250929)claude-sonnet-4-20250514)claude-3-7-sonnet-20250219) (veraltet)claude-haiku-4-5-20251001)claude-opus-4-5-20251101)claude-opus-4-1-20250805)claude-opus-4-20250514)Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.
Weitere Informationen finden Sie unter Unterschiede beim Denken zwischen Modellversionen.
Wenn erweitertes Denken aktiviert ist, erstellt Claude thinking Inhaltsblöcke, in denen es sein internes Denken ausgibt. Claude bezieht Erkenntnisse aus diesem Denken ein, bevor es eine endgültige Antwort formuliert.
Die API-Antwort enthält thinking Inhaltsblöcke, gefolgt von text Inhaltsblöcken.
Hier ist ein Beispiel des Standard-Antwortformats:
{
"content": [
{
"type": "thinking",
"thinking": "Lassen Sie mich das Schritt für Schritt analysieren...",
"signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
},
{
"type": "text",
"text": "Basierend auf meiner Analyse..."
}
]
}Weitere Informationen zum Antwortformat des erweiterten Denkens finden Sie in der Messages API Referenz.
Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "content-type: application/json" \
--data \
'{
"model": "claude-sonnet-4-5",
"max_tokens": 16000,
"thinking": {
"type": "enabled",
"budget_tokens": 10000
},
"messages": [
{
"role": "user",
"content": "Gibt es unendlich viele Primzahlen, so dass n mod 4 == 3?"
}
]
}'Um erweitertes Denken zu aktivieren, fügen Sie ein thinking Objekt hinzu, wobei der type Parameter auf enabled und budget_tokens auf ein angegebenes Token-Budget für erweitertes Denken gesetzt wird.
Der budget_tokens Parameter bestimmt die maximale Anzahl von Token, die Claude für seinen internen Denkprozess verwenden darf. Bei Claude 4 Modellen gilt diese Grenze für vollständige Denk-Token und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie eine gründlichere Analyse für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget nutzt, besonders bei Bereichen über 32k.
budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Bei Verwendung von verschachteltem Denken mit Tools können Sie diese Grenze jedoch überschreiten, da die Token-Grenze zu Ihrem gesamten Kontextfenster wird (200k Token).
Mit aktiviertem erweitertem Denken gibt die Messages API für Claude 4 Modelle eine Zusammenfassung von Claudes vollständigem Denkprozess zurück. Zusammengefasstes Denken bietet die vollständigen Intelligenzvorteile des erweiterten Denkens, während es Missbrauch verhindert.
Hier sind einige wichtige Überlegungen für zusammengefasstes Denken:
Claude Sonnet 3.7 gibt weiterhin vollständige Denkausgabe zurück.
In seltenen Fällen, in denen Sie Zugriff auf vollständige Denkausgabe für Claude 4 Modelle benötigen, kontaktieren Sie unser Verkaufsteam.
Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen.
Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte über thinking_delta Events.
Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.
Hier ist, wie man Streaming mit Denken handhabt:
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "content-type: application/json" \
--data \
'{
"model": "claude-sonnet-4-5",
"max_tokens": 16000,
"stream": true,
"thinking": {
"type": "enabled",
"budget_tokens": 10000
},
"messages": [
{
"role": "user",
"content": "Was ist 27 * 453?"
}
]
}'Beispiel-Streaming-Ausgabe:
event: message_start
data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}
event: content_block_start
data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Lassen Sie mich das Schritt für Schritt lösen:\n\n1. Zuerst 27 * 453 aufteilen"}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}
// Zusätzliche Denk-Deltas...
event: content_block_delta
data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
event: content_block_stop
data: {"type": "content_block_stop", "index": 0}
event: content_block_start
data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
event: content_block_delta
data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12.231"}}
// Zusätzliche Text-Deltas...
event: content_block_stop
data: {"type": "content_block_stop", "index": 1}
event: message_delta
data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
event: message_stop
data: {"type": "message_stop"}Wenn Sie Streaming mit aktiviertem Denken verwenden, können Sie bemerken, dass Text manchmal in größeren Blöcken ankommt, die sich mit kleinerer, Token-für-Token-Lieferung abwechseln. Dies ist erwartetes Verhalten, besonders für Denkinhalte.
Das Streaming-System muss Inhalte in Batches für optimale Leistung verarbeiten, was zu diesem "klumpigen" Liefermuster führen kann, mit möglichen Verzögerungen zwischen Streaming-Events. Wir arbeiten kontinuierlich daran, dieses Erlebnis zu verbessern, mit zukünftigen Updates, die sich auf ein sanfteres Streaming von Denkinhalten konzentrieren.
Erweitertes Denken kann zusammen mit Tool-Verwendung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen zu durchdenken.
Bei Verwendung von erweitertem Denken mit Tool-Verwendung sollten Sie sich der folgenden Einschränkungen bewusst sein:
Tool-Auswahl-Einschränkung: Tool-Verwendung mit Denken unterstützt nur tool_choice: {"type": "auto"} (Standard) oder tool_choice: {"type": "none"}. Die Verwendung von tool_choice: {"type": "any"} oder tool_choice: {"type": "tool", "name": "..."} führt zu einem Fehler, da diese Optionen Tool-Verwendung erzwingen, was mit erweitertem Denken nicht kompatibel ist.
Denkblöcke bewahren: Während der Tool-Verwendung müssen Sie thinking Blöcke an die API für die letzte Assistenten-Nachricht zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Denk-Kontinuität zu bewahren.
Sie können das Denken nicht in der Mitte einer Assistenten-Runde umschalten, einschließlich während Tool-Verwendungsschleifen. Die gesamte Assistenten-Runde muss in einem einzigen Denkmodus arbeiten:
Aus der Perspektive des Modells sind Tool-Verwendungsschleifen Teil der Assistenten-Runde. Eine Assistenten-Runde ist nicht abgeschlossen, bis Claude seine vollständige Antwort fertiggestellt hat, die mehrere Tool-Aufrufe und Ergebnisse enthalten kann.
Zum Beispiel ist diese Sequenz alles Teil einer einzelnen Assistenten-Runde:
Benutzer: "Wie ist das Wetter in Paris?"
Assistent: [thinking] + [tool_use: get_weather]
Benutzer: [tool_result: "20°C, sonnig"]
Assistent: [text: "Das Wetter in Paris ist 20°C und sonnig"]Obwohl es mehrere API-Nachrichten gibt, ist die Tool-Verwendungsschleife konzeptionell Teil einer kontinuierlichen Assistenten-Antwort.
Sie könnten auf diesen Fehler stoßen:
Expected `thinking` or `redacted_thinking`, but found `tool_use`.
When `thinking` is enabled, a final `assistant` message must start
with a thinking block (preceding the lastmost set of `tool_use` and
`tool_result` blocks).Dies tritt typischerweise auf, wenn:
✗ Ungültig: Denken unmittelbar nach Tool-Verwendung umschalten
Benutzer: "Wie ist das Wetter?"
Assistent: [tool_use] (Denken deaktiviert)
Benutzer: [tool_result]
// Kann Denken hier nicht aktivieren - immer noch in der gleichen Assistenten-Runde✓ Gültig: Assistenten-Runde zuerst abschließen
Benutzer: "Wie ist das Wetter?"
Assistent: [tool_use] (Denken deaktiviert)
Benutzer: [tool_result]
Assistent: [text: "Es ist sonnig"]
Benutzer: "Wie ist es morgen?" (Denken deaktiviert)
Assistent: [thinking] + [text: "..."] (Denken aktiviert - neue Runde)Best Practice: Planen Sie Ihre Denkstrategie am Anfang jeder Runde, anstatt zu versuchen, sie in der Mitte umzuschalten.
Das Umschalten von Denkmodellen invalidiert auch Prompt-Caching für Nachrichtenverlauf. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.
Während der Tool-Verwendung müssen Sie thinking Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells und der Gesprächsintegrität.
Während Sie thinking Blöcke aus vorherigen assistant Rollen-Runden weglassen können, empfehlen wir, immer alle Denkblöcke an die API für jedes mehrteilige Gespräch zurückzugeben. Die API wird:
Wenn Sie Denkmodelle während eines Gesprächs umschalten, denken Sie daran, dass die gesamte Assistenten-Runde (einschließlich Tool-Verwendungsschleifen) in einem einzigen Denkmodus arbeiten muss. Weitere Details finden Sie unter Denkmodelle in Gesprächen umschalten.
Wenn Claude Tools aufruft, pausiert es die Konstruktion einer Antwort, um auf externe Informationen zu warten. Wenn Tool-Ergebnisse zurückgegeben werden, wird Claude diese bestehende Antwort weiter aufbauen. Dies macht es notwendig, Denkblöcke während der Tool-Verwendung zu bewahren, aus ein paar Gründen:
Denk-Kontinuität: Die Denkblöcke erfassen Claudes schrittweises Denken, das zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt das Einschließen des ursprünglichen Denkens sicher, dass Claude sein Denken von dort fortsetzen kann, wo es aufgehört hat.
Kontext-Erhaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Denkflusses. Das Bewahren von Denkblöcken erhält diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontext-Verwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.
Wichtig: Wenn Sie thinking Blöcke bereitstellen, muss die gesamte Sequenz von aufeinanderfolgenden thinking Blöcken den Ausgaben entsprechen, die das Modell während der ursprünglichen Anfrage generiert hat; Sie können die Sequenz dieser Blöcke nicht neu anordnen oder ändern.
Extended thinking mit Tool-Nutzung in Claude 4 Modellen unterstützt interleaved thinking, das Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach dem Erhalt von Tool-Ergebnissen anspruchsvollere Überlegungen anzustellen.
Mit interleaved thinking kann Claude:
Um interleaved thinking zu aktivieren, fügen Sie den Beta-Header interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu.
Hier sind einige wichtige Überlegungen für interleaved thinking:
budget_tokens den max_tokens Parameter überschreiten, da es das Gesamtbudget über alle Denkblöcke innerhalb einer Assistent-Runde darstellt.interleaved-thinking-2025-05-14.interleaved-thinking-2025-05-14 in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen.interleaved-thinking-2025-05-14 an ein anderes Modell als Claude Opus 4.5, Claude Opus 4.1, Opus 4 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.Prompt Caching mit Thinking hat mehrere wichtige Überlegungen:
Extended Thinking Aufgaben dauern oft länger als 5 Minuten. Erwägen Sie die Verwendung der 1-Stunden-Cache-Dauer, um Cache-Treffer über längere Thinking-Sitzungen und mehrstufige Workflows hinweg zu erhalten.
Entfernung von Denkblock-Kontext
Cache-Invalidierungsmuster
Während Denkblöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei der Fortsetzung von Gesprächen mit Tool-Nutzung erhalten bleiben, besonders mit interleaved thinking.
Bei Verwendung von Extended Thinking mit Tool-Nutzung zeigen Denkblöcke ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst:
Wie es funktioniert:
Detailliertes Beispielablauf:
Anfrage 1:
User: "What's the weather in Paris?"Antwort 1:
[thinking_block_1] + [tool_use block 1]Anfrage 2:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True]Antwort 2:
[thinking_block_2] + [text block 2]Anfrage 2 schreibt einen Cache des Anfrageinhalts (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Denkblock, Tool-Use-Block und das Tool-Ergebnis.
Anfrage 3:
User: ["What's the weather in Paris?"],
Assistant: [thinking_block_1] + [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [thinking_block_2] + [text block 2],
User: [Text response, cache=True]Für Claude Opus 4.5 und später werden alle vorherigen Denkblöcke standardmäßig beibehalten. Für ältere Modelle werden, da ein Non-Tool-Result-User-Block enthalten war, alle vorherigen Denkblöcke ignoriert. Diese Anfrage wird genauso verarbeitet wie:
User: ["What's the weather in Paris?"],
Assistant: [tool_use block 1],
User: [tool_result_1, cache=True],
Assistant: [text block 2],
User: [Text response, cache=True]Wichtige Punkte:
cache_control MarkerIn älteren Claude-Modellen (vor Claude Sonnet 3.7) würde das System automatisch max_tokens anpassen, um in das Kontextfenster zu passen, wenn die Summe von Prompt-Tokens und max_tokens das Kontextfenster des Modells überschreitet. Dies bedeutete, dass Sie einen großen max_tokens Wert setzen konnten und das System ihn nach Bedarf stillschweigend reduzieren würde.
Mit Claude 3.7 und 4 Modellen wird max_tokens (das Ihr Thinking-Budget einschließt, wenn Thinking aktiviert ist) als striktes Limit durchgesetzt. Das System gibt nun einen Validierungsfehler zurück, wenn Prompt-Tokens + max_tokens die Kontextfenstergröße überschreitet.
Sie können unseren Leitfaden zu Kontextfenstern für einen gründlicheren Überblick lesen.
Bei der Berechnung der Kontextfensternutzung mit aktiviertem Thinking gibt es einige Überlegungen zu beachten:
max_tokens Limit für diesen TurnDas folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn Extended Thinking aktiviert ist:
Das effektive Kontextfenster wird berechnet als:
context window =
(current input tokens - previous thinking tokens) +
(thinking tokens + encrypted thinking tokens + text output tokens)Wir empfehlen die Verwendung der Token-Zähl-API, um genaue Token-Zählungen für Ihren spezifischen Anwendungsfall zu erhalten, besonders bei mehrstufigen Gesprächen, die Thinking einschließen.
Bei Verwendung von Extended Thinking mit Tool-Nutzung müssen Denkblöcke explizit erhalten und mit den Tool-Ergebnissen zurückgegeben werden.
Die effektive Kontextfensterberechnung für Extended Thinking mit Tool-Nutzung wird zu:
context window =
(current input tokens + previous thinking tokens + tool use tokens) +
(thinking tokens + encrypted thinking tokens + text output tokens)Das folgende Diagramm zeigt die Token-Verwaltung für Extended Thinking mit Tool-Nutzung:
Angesichts des Kontextfenster- und max_tokens Verhaltens mit Extended Thinking Claude 3.7 und 4 Modellen müssen Sie möglicherweise:
max_tokens Werte anpassen, wenn sich Ihre Prompt-Länge ändertDiese Änderung wurde vorgenommen, um vorhersagbareres und transparenteres Verhalten zu bieten, besonders da die maximalen Token-Limits erheblich gestiegen sind.
Der vollständige Thinking-Inhalt wird verschlüsselt und im signature Feld zurückgegeben. Dieses Feld wird verwendet, um zu überprüfen, dass Denkblöcke von Claude generiert wurden, wenn sie an die API zurückgegeben werden.
Es ist nur streng notwendig, Denkblöcke zurückzusenden, wenn Sie Tools mit Extended Thinking verwenden. Ansonsten können Sie Denkblöcke aus vorherigen Runden weglassen oder die API sie für Sie entfernen lassen, wenn Sie sie zurückgeben.
Wenn Sie Denkblöcke zurückgeben, empfehlen wir, alles so zurückzugeben, wie Sie es erhalten haben, um Konsistenz zu gewährleisten und potenzielle Probleme zu vermeiden.
Hier sind einige wichtige Überlegungen zur Thinking-Verschlüsselung:
signature_delta innerhalb eines content_block_delta Events hinzugefügt, kurz vor dem content_block_stop Event.signature Werte sind in Claude 4 Modellen erheblich länger als in vorherigen Modellen.signature Feld ist ein undurchsichtiges Feld und sollte nicht interpretiert oder analysiert werden - es existiert ausschließlich zu Verifizierungszwecken.signature Werte sind plattformübergreifend kompatibel (Claude APIs, Amazon Bedrock und Vertex AI). Werte, die auf einer Plattform generiert werden, sind mit einer anderen kompatibel.Gelegentlich wird Claudes interne Argumentation von unseren Sicherheitssystemen gekennzeichnet. Wenn dies geschieht, verschlüsseln wir einen Teil oder den gesamten thinking-Block und geben ihn als redacted_thinking-Block an Sie zurück. redacted_thinking-Blöcke werden entschlüsselt, wenn sie an die API zurückgegeben werden, sodass Claude seine Antwort fortsetzen kann, ohne den Kontext zu verlieren.
Beim Erstellen von kundenorientierten Anwendungen, die erweitertes Denken nutzen:
Hier ist ein Beispiel, das sowohl normale als auch redacted-thinking-Blöcke zeigt:
{
"content": [
{
"type": "thinking",
"thinking": "Let me analyze this step by step...",
"signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
},
{
"type": "redacted_thinking",
"data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
},
{
"type": "text",
"text": "Based on my analysis..."
}
]
}Das Sehen von redacted-thinking-Blöcken in Ihrer Ausgabe ist ein erwartetes Verhalten. Das Modell kann diese redacted-Argumentation weiterhin nutzen, um seine Antworten zu informieren und dabei Sicherheitsvorkehrungen zu wahren.
Wenn Sie die Behandlung von redacted-thinking in Ihrer Anwendung testen müssen, können Sie diese spezielle Test-Zeichenkette als Ihre Eingabeaufforderung verwenden: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
Wenn Sie thinking- und redacted_thinking-Blöcke in einem Multi-Turn-Gespräch an die API zurückgeben, müssen Sie den vollständigen unveränderten Block für den letzten Assistant-Turn an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Argumentationsflusses des Modells. Wir empfehlen, alle Thinking-Blöcke an die API zurückzugeben. Weitere Details finden Sie im Abschnitt Thinking-Blöcke beibehalten oben.
Die Messages API verarbeitet das Denken unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Bezug auf Redaktions- und Zusammenfassungsverhalten.
Siehe die folgende Tabelle für einen komprimierten Vergleich:
| Funktion | Claude Sonnet 3.7 | Claude 4 Modelle (vor Opus 4.5) | Claude Opus 4.5 und später |
|---|---|---|---|
| Thinking-Ausgabe | Gibt vollständige Thinking-Ausgabe zurück | Gibt zusammengefasste Thinking-Ausgabe zurück | Gibt zusammengefasste Thinking-Ausgabe zurück |
| Verschachteltes Denken | Nicht unterstützt | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header | Unterstützt mit interleaved-thinking-2025-05-14 Beta-Header |
| Thinking-Block-Beibehaltung | Nicht über Turns hinweg beibehalten | Nicht über Turns hinweg beibehalten | Standardmäßig beibehalten (ermöglicht Cache-Optimierung, Token-Einsparungen) |
Claude Opus 4.5 führt ein neues Standardverhalten ein: Thinking-Blöcke aus vorherigen Assistant-Turns werden standardmäßig im Modellkontext beibehalten. Dies unterscheidet sich von früheren Modellen, die Thinking-Blöcke aus vorherigen Turns entfernen.
Vorteile der Thinking-Block-Beibehaltung:
Wichtige Überlegungen:
Für frühere Modelle (Claude Sonnet 4.5, Opus 4.1 usw.) werden Thinking-Blöcke aus vorherigen Turns weiterhin aus dem Kontext entfernt. Das im Abschnitt Erweitertes Denken mit Prompt-Caching beschriebene vorhandene Verhalten gilt für diese Modelle.
Vollständige Preisinformationen einschließlich Basissätze, Cache-Schreibvorgänge, Cache-Treffer und Ausgabe-Token finden Sie auf der Preisseite.
Der Thinking-Prozess verursacht Gebühren für:
Wenn erweitertes Denken aktiviert ist, wird automatisch eine spezialisierte Systemaufforderung eingebunden, um diese Funktion zu unterstützen.
Bei Verwendung von zusammengefasstem Denken:
Die abgerechnete Ausgabe-Token-Anzahl wird nicht mit der sichtbaren Token-Anzahl in der Antwort übereinstimmen. Sie werden für den vollständigen Thinking-Prozess abgerechnet, nicht für die Zusammenfassung, die Sie sehen.
max_tokens größer als 21.333 ist. Beim Streaming seien Sie darauf vorbereitet, sowohl Thinking- als auch Text-Content-Blöcke bei ihrer Ankunft zu verarbeiten.temperature- oder top_k-Änderungen sowie mit erzwungener Tool-Nutzung.top_p auf Werte zwischen 1 und 0,95 setzen.