Loading...
    • Entwicklerleitfaden
    • API-Referenz
    • MCP
    • Ressourcen
    • Versionshinweise
    Search...
    ⌘K
    Erste Schritte
    Einführung in ClaudeSchnelleinstieg
    Modelle & Preise
    ModellübersichtModell auswählenNeuerungen in Claude 4.5Migration zu Claude 4.5ModellabschreibungenPreise
    Mit Claude erstellen
    FunktionsübersichtMessages API verwendenKontextfensterBest Practices für Prompts
    Fähigkeiten
    Prompt-CachingKontext-BearbeitungErweitertes DenkenAufwandStreaming MessagesBatch-VerarbeitungZitateMehrsprachige UnterstützungToken-ZählungEmbeddingsVisionPDF-UnterstützungFiles APISuchergebnisseStrukturierte Ausgaben
    Tools
    ÜbersichtTool-Nutzung implementierenFeingranulares Tool-StreamingBash-ToolCode-Ausführungs-ToolProgrammatischer Tool-AufrufComputer-Use-ToolText-Editor-ToolWeb-Fetch-ToolWeb-Such-ToolMemory-ToolTool-Such-Tool
    Agent Skills
    ÜbersichtSchnelleinstiegBest PracticesSkills mit der API verwenden
    Agent SDK
    ÜbersichtSchnelleinstiegTypeScript SDKTypeScript V2 (Vorschau)Python SDKMigrationsleitfaden
    MCP in der API
    MCP-ConnectorRemote MCP-Server
    Claude auf Plattformen von Drittanbietern
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt Engineering
    ÜbersichtPrompt-GeneratorPrompt-Vorlagen verwendenPrompt-VerbessererKlar und direkt seinBeispiele verwenden (Multishot-Prompting)Claude denken lassen (CoT)XML-Tags verwendenClaude eine Rolle geben (System-Prompts)Claudes Antwort vorausfüllenKomplexe Prompts verkettenTipps für langen KontextTipps für erweitertes Denken
    Testen & Evaluieren
    Erfolgskriterien definierenTestfälle entwickelnEvaluierungs-Tool verwendenLatenz reduzieren
    Schutzvorrichtungen verstärken
    Halluzinationen reduzierenAusgabekonsistenz erhöhenJailbreaks abschwächenStreaming-AblehnungenPrompt-Lecks reduzierenClaude im Charakter halten
    Verwaltung und Überwachung
    Admin API ÜbersichtNutzungs- und Kosten-APIClaude Code Analytics API
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Fähigkeiten

    Mit erweitertem Denken bauen

    Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess vor der endgültigen Antwort bietet.

    Erweitertes Denken gibt Claude verbesserte Denkfähigkeiten für komplexe Aufgaben, während es unterschiedliche Transparenzstufen in seinen schrittweisen Denkprozess vor der endgültigen Antwort bietet.

    Unterstützte Modelle

    Erweitertes Denken wird in den folgenden Modellen unterstützt:

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (veraltet)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)
    • Unterstützte Modelle
    • Wie erweitertes Denken funktioniert
    • Wie man erweitertes Denken verwendet
    • Zusammengefasstes Denken
    • Streaming-Denken
    • Erweitertes Denken mit Tool-Verwendung
    • Denkmodelle in Gesprächen umschalten
    • Denkblöcke bewahren
    • Interleaved thinking
    • Extended thinking mit Prompt Caching
    • Verständnis des Denkblock-Caching-Verhaltens
    • Max tokens und Kontextfenstergröße mit Extended Thinking
    • Das Kontextfenster mit Extended Thinking
    • Das Kontextfenster mit Extended Thinking und Tool-Nutzung
    • Verwaltung von Tokens mit Extended Thinking
    • Thinking-Verschlüsselung
    • Thinking-Redaktion
    • Unterschiede beim Denken über Modellversionen hinweg
    • Thinking-Block-Beibehaltung in Claude Opus 4.5
    • Preisgestaltung
    • Best Practices und Überlegungen für erweitertes Denken
    • Arbeiten mit Thinking-Budgets
    • Leistungsüberlegungen
    • Funktionskompatibilität
    • Nutzungsrichtlinien
    • Nächste Schritte

    Das API-Verhalten unterscheidet sich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, aber die API-Strukturen bleiben genau gleich.

    Weitere Informationen finden Sie unter Unterschiede beim Denken zwischen Modellversionen.

    Wie erweitertes Denken funktioniert

    Wenn erweitertes Denken aktiviert ist, erstellt Claude thinking Inhaltsblöcke, in denen es sein internes Denken ausgibt. Claude bezieht Erkenntnisse aus diesem Denken ein, bevor es eine endgültige Antwort formuliert.

    Die API-Antwort enthält thinking Inhaltsblöcke, gefolgt von text Inhaltsblöcken.

    Hier ist ein Beispiel des Standard-Antwortformats:

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Lassen Sie mich das Schritt für Schritt analysieren...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Basierend auf meiner Analyse..."
        }
      ]
    }

    Weitere Informationen zum Antwortformat des erweiterten Denkens finden Sie in der Messages API Referenz.

    Wie man erweitertes Denken verwendet

    Hier ist ein Beispiel für die Verwendung von erweitertem Denken in der Messages API:

    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Gibt es unendlich viele Primzahlen, so dass n mod 4 == 3?"
            }
        ]
    }'

    Um erweitertes Denken zu aktivieren, fügen Sie ein thinking Objekt hinzu, wobei der type Parameter auf enabled und budget_tokens auf ein angegebenes Token-Budget für erweitertes Denken gesetzt wird.

    Der budget_tokens Parameter bestimmt die maximale Anzahl von Token, die Claude für seinen internen Denkprozess verwenden darf. Bei Claude 4 Modellen gilt diese Grenze für vollständige Denk-Token und nicht für die zusammengefasste Ausgabe. Größere Budgets können die Antwortqualität verbessern, indem sie eine gründlichere Analyse für komplexe Probleme ermöglichen, obwohl Claude möglicherweise nicht das gesamte zugewiesene Budget nutzt, besonders bei Bereichen über 32k.

    budget_tokens muss auf einen Wert kleiner als max_tokens gesetzt werden. Bei Verwendung von verschachteltem Denken mit Tools können Sie diese Grenze jedoch überschreiten, da die Token-Grenze zu Ihrem gesamten Kontextfenster wird (200k Token).

    Zusammengefasstes Denken

    Mit aktiviertem erweitertem Denken gibt die Messages API für Claude 4 Modelle eine Zusammenfassung von Claudes vollständigem Denkprozess zurück. Zusammengefasstes Denken bietet die vollständigen Intelligenzvorteile des erweiterten Denkens, während es Missbrauch verhindert.

    Hier sind einige wichtige Überlegungen für zusammengefasstes Denken:

    • Sie werden für die vollständigen Denk-Token berechnet, die durch die ursprüngliche Anfrage generiert wurden, nicht für die Zusammenfassungs-Token.
    • Die abgerechnete Ausgabe-Token-Anzahl wird nicht mit der Anzahl der Token übereinstimmen, die Sie in der Antwort sehen.
    • Die ersten Zeilen der Denkausgabe sind ausführlicher und bieten detailliertes Denken, das besonders für Prompt-Engineering-Zwecke hilfreich ist.
    • Während Anthropic versucht, die Funktion des erweiterten Denkens zu verbessern, unterliegt das Zusammenfassungsverhalten Änderungen.
    • Die Zusammenfassung bewahrt die Schlüsselideen von Claudes Denkprozess mit minimaler zusätzlicher Latenz, was ein streambares Benutzererlebnis und eine einfache Migration von Claude Sonnet 3.7 zu Claude 4 Modellen ermöglicht.
    • Die Zusammenfassung wird von einem anderen Modell verarbeitet als dem, das Sie in Ihren Anfragen anvisieren. Das Denkmodell sieht die zusammengefasste Ausgabe nicht.

    Claude Sonnet 3.7 gibt weiterhin vollständige Denkausgabe zurück.

    In seltenen Fällen, in denen Sie Zugriff auf vollständige Denkausgabe für Claude 4 Modelle benötigen, kontaktieren Sie unser Verkaufsteam.

    Streaming-Denken

    Sie können Antworten mit erweitertem Denken mit Server-Sent Events (SSE) streamen.

    Wenn Streaming für erweitertes Denken aktiviert ist, erhalten Sie Denkinhalte über thinking_delta Events.

    Weitere Dokumentation zum Streaming über die Messages API finden Sie unter Streaming Messages.

    Hier ist, wie man Streaming mit Denken handhabt:

    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "stream": true,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Was ist 27 * 453?"
            }
        ]
    }'

    Im Konsole versuchen

    Beispiel-Streaming-Ausgabe:

    event: message_start
    data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Lassen Sie mich das Schritt für Schritt lösen:\n\n1. Zuerst 27 * 453 aufteilen"}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}
    
    // Zusätzliche Denk-Deltas...
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 0}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12.231"}}
    
    // Zusätzliche Text-Deltas...
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 1}
    
    event: message_delta
    data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
    
    event: message_stop
    data: {"type": "message_stop"}

    Wenn Sie Streaming mit aktiviertem Denken verwenden, können Sie bemerken, dass Text manchmal in größeren Blöcken ankommt, die sich mit kleinerer, Token-für-Token-Lieferung abwechseln. Dies ist erwartetes Verhalten, besonders für Denkinhalte.

    Das Streaming-System muss Inhalte in Batches für optimale Leistung verarbeiten, was zu diesem "klumpigen" Liefermuster führen kann, mit möglichen Verzögerungen zwischen Streaming-Events. Wir arbeiten kontinuierlich daran, dieses Erlebnis zu verbessern, mit zukünftigen Updates, die sich auf ein sanfteres Streaming von Denkinhalten konzentrieren.

    Erweitertes Denken mit Tool-Verwendung

    Erweitertes Denken kann zusammen mit Tool-Verwendung verwendet werden, was Claude ermöglicht, die Auswahl von Tools und die Verarbeitung von Ergebnissen zu durchdenken.

    Bei Verwendung von erweitertem Denken mit Tool-Verwendung sollten Sie sich der folgenden Einschränkungen bewusst sein:

    1. Tool-Auswahl-Einschränkung: Tool-Verwendung mit Denken unterstützt nur tool_choice: {"type": "auto"} (Standard) oder tool_choice: {"type": "none"}. Die Verwendung von tool_choice: {"type": "any"} oder tool_choice: {"type": "tool", "name": "..."} führt zu einem Fehler, da diese Optionen Tool-Verwendung erzwingen, was mit erweitertem Denken nicht kompatibel ist.

    2. Denkblöcke bewahren: Während der Tool-Verwendung müssen Sie thinking Blöcke an die API für die letzte Assistenten-Nachricht zurückgeben. Geben Sie den vollständigen unveränderten Block an die API zurück, um die Denk-Kontinuität zu bewahren.

    Denkmodelle in Gesprächen umschalten

    Sie können das Denken nicht in der Mitte einer Assistenten-Runde umschalten, einschließlich während Tool-Verwendungsschleifen. Die gesamte Assistenten-Runde muss in einem einzigen Denkmodus arbeiten:

    • Wenn Denken aktiviert ist, muss die endgültige Assistenten-Runde mit einem Denkblock beginnen.
    • Wenn Denken deaktiviert ist, darf die endgültige Assistenten-Runde keine Denkblöcke enthalten

    Aus der Perspektive des Modells sind Tool-Verwendungsschleifen Teil der Assistenten-Runde. Eine Assistenten-Runde ist nicht abgeschlossen, bis Claude seine vollständige Antwort fertiggestellt hat, die mehrere Tool-Aufrufe und Ergebnisse enthalten kann.

    Zum Beispiel ist diese Sequenz alles Teil einer einzelnen Assistenten-Runde:

    Benutzer: "Wie ist das Wetter in Paris?"
    Assistent: [thinking] + [tool_use: get_weather]
    Benutzer: [tool_result: "20°C, sonnig"]
    Assistent: [text: "Das Wetter in Paris ist 20°C und sonnig"]

    Obwohl es mehrere API-Nachrichten gibt, ist die Tool-Verwendungsschleife konzeptionell Teil einer kontinuierlichen Assistenten-Antwort.

    Häufige Fehlerszenarien

    Sie könnten auf diesen Fehler stoßen:

    Expected `thinking` or `redacted_thinking`, but found `tool_use`.
    When `thinking` is enabled, a final `assistant` message must start
    with a thinking block (preceding the lastmost set of `tool_use` and
    `tool_result` blocks).

    Dies tritt typischerweise auf, wenn:

    1. Sie Denken deaktiviert während einer Tool-Verwendungssequenz hatten
    2. Sie Denken wieder aktivieren möchten
    3. Ihre letzte Assistenten-Nachricht Tool-Verwendungsblöcke enthält, aber keinen Denkblock

    Praktische Anleitung

    ✗ Ungültig: Denken unmittelbar nach Tool-Verwendung umschalten

    Benutzer: "Wie ist das Wetter?"
    Assistent: [tool_use] (Denken deaktiviert)
    Benutzer: [tool_result]
    // Kann Denken hier nicht aktivieren - immer noch in der gleichen Assistenten-Runde

    ✓ Gültig: Assistenten-Runde zuerst abschließen

    Benutzer: "Wie ist das Wetter?"
    Assistent: [tool_use] (Denken deaktiviert)
    Benutzer: [tool_result]
    Assistent: [text: "Es ist sonnig"] 
    Benutzer: "Wie ist es morgen?" (Denken deaktiviert)
    Assistent: [thinking] + [text: "..."] (Denken aktiviert - neue Runde)

    Best Practice: Planen Sie Ihre Denkstrategie am Anfang jeder Runde, anstatt zu versuchen, sie in der Mitte umzuschalten.

    Das Umschalten von Denkmodellen invalidiert auch Prompt-Caching für Nachrichtenverlauf. Weitere Details finden Sie im Abschnitt Erweitertes Denken mit Prompt-Caching.

    Denkblöcke bewahren

    Während der Tool-Verwendung müssen Sie thinking Blöcke an die API zurückgeben, und Sie müssen den vollständigen unveränderten Block an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Denkflusses des Modells und der Gesprächsintegrität.

    Während Sie thinking Blöcke aus vorherigen assistant Rollen-Runden weglassen können, empfehlen wir, immer alle Denkblöcke an die API für jedes mehrteilige Gespräch zurückzugeben. Die API wird:

    • Die bereitgestellten Denkblöcke automatisch filtern
    • Die relevanten Denkblöcke verwenden, die notwendig sind, um das Denken des Modells zu bewahren
    • Nur die Eingabe-Token für die Blöcke berechnen, die Claude angezeigt werden

    Wenn Sie Denkmodelle während eines Gesprächs umschalten, denken Sie daran, dass die gesamte Assistenten-Runde (einschließlich Tool-Verwendungsschleifen) in einem einzigen Denkmodus arbeiten muss. Weitere Details finden Sie unter Denkmodelle in Gesprächen umschalten.

    Wenn Claude Tools aufruft, pausiert es die Konstruktion einer Antwort, um auf externe Informationen zu warten. Wenn Tool-Ergebnisse zurückgegeben werden, wird Claude diese bestehende Antwort weiter aufbauen. Dies macht es notwendig, Denkblöcke während der Tool-Verwendung zu bewahren, aus ein paar Gründen:

    1. Denk-Kontinuität: Die Denkblöcke erfassen Claudes schrittweises Denken, das zu Tool-Anfragen führte. Wenn Sie Tool-Ergebnisse posten, stellt das Einschließen des ursprünglichen Denkens sicher, dass Claude sein Denken von dort fortsetzen kann, wo es aufgehört hat.

    2. Kontext-Erhaltung: Während Tool-Ergebnisse als Benutzer-Nachrichten in der API-Struktur erscheinen, sind sie Teil eines kontinuierlichen Denkflusses. Das Bewahren von Denkblöcken erhält diesen konzeptionellen Fluss über mehrere API-Aufrufe hinweg. Weitere Informationen zur Kontext-Verwaltung finden Sie in unserem Leitfaden zu Kontextfenstern.

    Wichtig: Wenn Sie thinking Blöcke bereitstellen, muss die gesamte Sequenz von aufeinanderfolgenden thinking Blöcken den Ausgaben entsprechen, die das Modell während der ursprünglichen Anfrage generiert hat; Sie können die Sequenz dieser Blöcke nicht neu anordnen oder ändern.

    Interleaved thinking

    Extended thinking mit Tool-Nutzung in Claude 4 Modellen unterstützt interleaved thinking, das Claude ermöglicht, zwischen Tool-Aufrufen zu denken und nach dem Erhalt von Tool-Ergebnissen anspruchsvollere Überlegungen anzustellen.

    Mit interleaved thinking kann Claude:

    • Über die Ergebnisse eines Tool-Aufrufs nachdenken, bevor entschieden wird, was als nächstes zu tun ist
    • Mehrere Tool-Aufrufe mit Denkschritten dazwischen verketten
    • Differenziertere Entscheidungen basierend auf Zwischenergebnissen treffen

    Um interleaved thinking zu aktivieren, fügen Sie den Beta-Header interleaved-thinking-2025-05-14 zu Ihrer API-Anfrage hinzu.

    Hier sind einige wichtige Überlegungen für interleaved thinking:

    • Mit interleaved thinking kann budget_tokens den max_tokens Parameter überschreiten, da es das Gesamtbudget über alle Denkblöcke innerhalb einer Assistent-Runde darstellt.
    • Interleaved thinking wird nur für Tools unterstützt, die über die Messages API verwendet werden.
    • Interleaved thinking wird nur für Claude 4 Modelle unterstützt, mit dem Beta-Header interleaved-thinking-2025-05-14.
    • Direkte Aufrufe der Claude API ermöglichen es Ihnen, interleaved-thinking-2025-05-14 in Anfragen an jedes Modell zu übergeben, ohne Auswirkungen.
    • Auf Plattformen von Drittanbietern (z. B. Amazon Bedrock und Vertex AI), wenn Sie interleaved-thinking-2025-05-14 an ein anderes Modell als Claude Opus 4.5, Claude Opus 4.1, Opus 4 oder Sonnet 4 übergeben, schlägt Ihre Anfrage fehl.

    Extended thinking mit Prompt Caching

    Prompt Caching mit Thinking hat mehrere wichtige Überlegungen:

    Extended Thinking Aufgaben dauern oft länger als 5 Minuten. Erwägen Sie die Verwendung der 1-Stunden-Cache-Dauer, um Cache-Treffer über längere Thinking-Sitzungen und mehrstufige Workflows hinweg zu erhalten.

    Entfernung von Denkblock-Kontext

    • Denkblöcke aus vorherigen Runden werden aus dem Kontext entfernt, was Cache-Breakpoints beeinflussen kann
    • Bei der Fortsetzung von Gesprächen mit Tool-Nutzung werden Denkblöcke zwischengespeichert und zählen als Eingabe-Token, wenn sie aus dem Cache gelesen werden
    • Dies erzeugt einen Kompromiss: Während Denkblöcke visuell keinen Kontextfensterplatz verbrauchen, zählen sie dennoch zu Ihrer Eingabe-Token-Nutzung, wenn sie zwischengespeichert sind
    • Wenn Thinking deaktiviert wird, schlagen Anfragen fehl, wenn Sie Thinking-Inhalte im aktuellen Tool-Use-Turn übergeben. In anderen Kontexten wird Thinking-Inhalt, der an die API übergeben wird, einfach ignoriert

    Cache-Invalidierungsmuster

    • Änderungen an Thinking-Parametern (aktiviert/deaktiviert oder Budgetverteilung) invalidieren Message-Cache-Breakpoints
    • Interleaved thinking verstärkt Cache-Invalidierung, da Denkblöcke zwischen mehreren Tool-Aufrufen auftreten können
    • System-Prompts und Tools bleiben zwischengespeichert, trotz Änderungen an Thinking-Parametern oder Block-Entfernung

    Während Denkblöcke für Caching und Kontextberechnungen entfernt werden, müssen sie bei der Fortsetzung von Gesprächen mit Tool-Nutzung erhalten bleiben, besonders mit interleaved thinking.

    Verständnis des Denkblock-Caching-Verhaltens

    Bei Verwendung von Extended Thinking mit Tool-Nutzung zeigen Denkblöcke ein spezifisches Caching-Verhalten, das die Token-Zählung beeinflusst:

    Wie es funktioniert:

    1. Caching tritt nur auf, wenn Sie eine nachfolgende Anfrage stellen, die Tool-Ergebnisse enthält
    2. Wenn die nachfolgende Anfrage gestellt wird, kann die vorherige Gesprächshistorie (einschließlich Denkblöcke) zwischengespeichert werden
    3. Diese zwischengespeicherten Denkblöcke zählen als Eingabe-Token in Ihren Nutzungsmetriken, wenn sie aus dem Cache gelesen werden
    4. Wenn ein Non-Tool-Result-User-Block enthalten ist, werden alle vorherigen Denkblöcke ignoriert und aus dem Kontext entfernt

    Detailliertes Beispielablauf:

    Anfrage 1:

    User: "What's the weather in Paris?"

    Antwort 1:

    [thinking_block_1] + [tool_use block 1]

    Anfrage 2:

    User: ["What's the weather in Paris?"], 
    Assistant: [thinking_block_1] + [tool_use block 1], 
    User: [tool_result_1, cache=True]

    Antwort 2:

    [thinking_block_2] + [text block 2]

    Anfrage 2 schreibt einen Cache des Anfrageinhalts (nicht der Antwort). Der Cache enthält die ursprüngliche Benutzernachricht, den ersten Denkblock, Tool-Use-Block und das Tool-Ergebnis.

    Anfrage 3:

    User: ["What's the weather in Paris?"],
    Assistant: [thinking_block_1] + [tool_use block 1],
    User: [tool_result_1, cache=True],
    Assistant: [thinking_block_2] + [text block 2],
    User: [Text response, cache=True]

    Für Claude Opus 4.5 und später werden alle vorherigen Denkblöcke standardmäßig beibehalten. Für ältere Modelle werden, da ein Non-Tool-Result-User-Block enthalten war, alle vorherigen Denkblöcke ignoriert. Diese Anfrage wird genauso verarbeitet wie:

    User: ["What's the weather in Paris?"],
    Assistant: [tool_use block 1],
    User: [tool_result_1, cache=True],
    Assistant: [text block 2],
    User: [Text response, cache=True]

    Wichtige Punkte:

    • Dieses Caching-Verhalten geschieht automatisch, auch ohne explizite cache_control Marker
    • Dieses Verhalten ist konsistent, ob Sie reguläres Thinking oder interleaved thinking verwenden

    Max tokens und Kontextfenstergröße mit Extended Thinking

    In älteren Claude-Modellen (vor Claude Sonnet 3.7) würde das System automatisch max_tokens anpassen, um in das Kontextfenster zu passen, wenn die Summe von Prompt-Tokens und max_tokens das Kontextfenster des Modells überschreitet. Dies bedeutete, dass Sie einen großen max_tokens Wert setzen konnten und das System ihn nach Bedarf stillschweigend reduzieren würde.

    Mit Claude 3.7 und 4 Modellen wird max_tokens (das Ihr Thinking-Budget einschließt, wenn Thinking aktiviert ist) als striktes Limit durchgesetzt. Das System gibt nun einen Validierungsfehler zurück, wenn Prompt-Tokens + max_tokens die Kontextfenstergröße überschreitet.

    Sie können unseren Leitfaden zu Kontextfenstern für einen gründlicheren Überblick lesen.

    Das Kontextfenster mit Extended Thinking

    Bei der Berechnung der Kontextfensternutzung mit aktiviertem Thinking gibt es einige Überlegungen zu beachten:

    • Denkblöcke aus vorherigen Runden werden entfernt und nicht auf Ihr Kontextfenster angerechnet
    • Aktuelles Turn-Thinking zählt zu Ihrem max_tokens Limit für diesen Turn

    Das folgende Diagramm zeigt die spezialisierte Token-Verwaltung, wenn Extended Thinking aktiviert ist:

    Kontextfenster-Diagramm mit Extended Thinking

    Das effektive Kontextfenster wird berechnet als:

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Wir empfehlen die Verwendung der Token-Zähl-API, um genaue Token-Zählungen für Ihren spezifischen Anwendungsfall zu erhalten, besonders bei mehrstufigen Gesprächen, die Thinking einschließen.

    Das Kontextfenster mit Extended Thinking und Tool-Nutzung

    Bei Verwendung von Extended Thinking mit Tool-Nutzung müssen Denkblöcke explizit erhalten und mit den Tool-Ergebnissen zurückgegeben werden.

    Die effektive Kontextfensterberechnung für Extended Thinking mit Tool-Nutzung wird zu:

    context window =
      (current input tokens + previous thinking tokens + tool use tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Das folgende Diagramm zeigt die Token-Verwaltung für Extended Thinking mit Tool-Nutzung:

    Kontextfenster-Diagramm mit Extended Thinking und Tool-Nutzung

    Verwaltung von Tokens mit Extended Thinking

    Angesichts des Kontextfenster- und max_tokens Verhaltens mit Extended Thinking Claude 3.7 und 4 Modellen müssen Sie möglicherweise:

    • Ihre Token-Nutzung aktiver überwachen und verwalten
    • max_tokens Werte anpassen, wenn sich Ihre Prompt-Länge ändert
    • Möglicherweise die Token-Zähl-Endpunkte häufiger verwenden
    • Beachten, dass vorherige Denkblöcke sich nicht in Ihrem Kontextfenster ansammeln

    Diese Änderung wurde vorgenommen, um vorhersagbareres und transparenteres Verhalten zu bieten, besonders da die maximalen Token-Limits erheblich gestiegen sind.

    Thinking-Verschlüsselung

    Der vollständige Thinking-Inhalt wird verschlüsselt und im signature Feld zurückgegeben. Dieses Feld wird verwendet, um zu überprüfen, dass Denkblöcke von Claude generiert wurden, wenn sie an die API zurückgegeben werden.

    Es ist nur streng notwendig, Denkblöcke zurückzusenden, wenn Sie Tools mit Extended Thinking verwenden. Ansonsten können Sie Denkblöcke aus vorherigen Runden weglassen oder die API sie für Sie entfernen lassen, wenn Sie sie zurückgeben.

    Wenn Sie Denkblöcke zurückgeben, empfehlen wir, alles so zurückzugeben, wie Sie es erhalten haben, um Konsistenz zu gewährleisten und potenzielle Probleme zu vermeiden.

    Hier sind einige wichtige Überlegungen zur Thinking-Verschlüsselung:

    • Beim Streaming von Antworten wird die Signatur über ein signature_delta innerhalb eines content_block_delta Events hinzugefügt, kurz vor dem content_block_stop Event.
    • signature Werte sind in Claude 4 Modellen erheblich länger als in vorherigen Modellen.
    • Das signature Feld ist ein undurchsichtiges Feld und sollte nicht interpretiert oder analysiert werden - es existiert ausschließlich zu Verifizierungszwecken.
    • signature Werte sind plattformübergreifend kompatibel (Claude APIs, Amazon Bedrock und Vertex AI). Werte, die auf einer Plattform generiert werden, sind mit einer anderen kompatibel.

    Thinking-Redaktion

    Gelegentlich wird Claudes interne Argumentation von unseren Sicherheitssystemen gekennzeichnet. Wenn dies geschieht, verschlüsseln wir einen Teil oder den gesamten thinking-Block und geben ihn als redacted_thinking-Block an Sie zurück. redacted_thinking-Blöcke werden entschlüsselt, wenn sie an die API zurückgegeben werden, sodass Claude seine Antwort fortsetzen kann, ohne den Kontext zu verlieren.

    Beim Erstellen von kundenorientierten Anwendungen, die erweitertes Denken nutzen:

    • Beachten Sie, dass redacted-thinking-Blöcke verschlüsselte Inhalte enthalten, die nicht für Menschen lesbar sind
    • Erwägen Sie, eine einfache Erklärung wie diese bereitzustellen: „Einige von Claudes interner Argumentation wurden automatisch aus Sicherheitsgründen verschlüsselt. Dies beeinträchtigt nicht die Qualität der Antworten."
    • Wenn Sie Thinking-Blöcke Benutzern zeigen, können Sie redacted-Blöcke filtern und dabei normale Thinking-Blöcke beibehalten
    • Seien Sie transparent, dass die Verwendung von erweiterten Thinking-Funktionen gelegentlich dazu führen kann, dass einige Überlegungen verschlüsselt werden
    • Implementieren Sie angemessene Fehlerbehandlung, um redacted-thinking ohne Beeinträchtigung Ihrer Benutzeroberfläche elegant zu verwalten

    Hier ist ein Beispiel, das sowohl normale als auch redacted-thinking-Blöcke zeigt:

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Das Sehen von redacted-thinking-Blöcken in Ihrer Ausgabe ist ein erwartetes Verhalten. Das Modell kann diese redacted-Argumentation weiterhin nutzen, um seine Antworten zu informieren und dabei Sicherheitsvorkehrungen zu wahren.

    Wenn Sie die Behandlung von redacted-thinking in Ihrer Anwendung testen müssen, können Sie diese spezielle Test-Zeichenkette als Ihre Eingabeaufforderung verwenden: ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    Wenn Sie thinking- und redacted_thinking-Blöcke in einem Multi-Turn-Gespräch an die API zurückgeben, müssen Sie den vollständigen unveränderten Block für den letzten Assistant-Turn an die API zurückgeben. Dies ist entscheidend für die Aufrechterhaltung des Argumentationsflusses des Modells. Wir empfehlen, alle Thinking-Blöcke an die API zurückzugeben. Weitere Details finden Sie im Abschnitt Thinking-Blöcke beibehalten oben.

    Unterschiede beim Denken über Modellversionen hinweg

    Die Messages API verarbeitet das Denken unterschiedlich zwischen Claude Sonnet 3.7 und Claude 4 Modellen, hauptsächlich in Bezug auf Redaktions- und Zusammenfassungsverhalten.

    Siehe die folgende Tabelle für einen komprimierten Vergleich:

    FunktionClaude Sonnet 3.7Claude 4 Modelle (vor Opus 4.5)Claude Opus 4.5 und später
    Thinking-AusgabeGibt vollständige Thinking-Ausgabe zurückGibt zusammengefasste Thinking-Ausgabe zurückGibt zusammengefasste Thinking-Ausgabe zurück
    Verschachteltes DenkenNicht unterstütztUnterstützt mit interleaved-thinking-2025-05-14 Beta-HeaderUnterstützt mit interleaved-thinking-2025-05-14 Beta-Header
    Thinking-Block-BeibehaltungNicht über Turns hinweg beibehaltenNicht über Turns hinweg beibehaltenStandardmäßig beibehalten (ermöglicht Cache-Optimierung, Token-Einsparungen)

    Thinking-Block-Beibehaltung in Claude Opus 4.5

    Claude Opus 4.5 führt ein neues Standardverhalten ein: Thinking-Blöcke aus vorherigen Assistant-Turns werden standardmäßig im Modellkontext beibehalten. Dies unterscheidet sich von früheren Modellen, die Thinking-Blöcke aus vorherigen Turns entfernen.

    Vorteile der Thinking-Block-Beibehaltung:

    • Cache-Optimierung: Bei Verwendung von Tool-Use ermöglichen beibehaltene Thinking-Blöcke Cache-Treffer, da sie mit Tool-Ergebnissen zurückgegeben und inkrementell über den Assistant-Turn hinweg zwischengespeichert werden, was zu Token-Einsparungen in mehrstufigen Workflows führt
    • Keine Auswirkung auf die Intelligenz: Die Beibehaltung von Thinking-Blöcken hat keine negativen Auswirkungen auf die Modellleistung

    Wichtige Überlegungen:

    • Kontextnutzung: Lange Gespräche verbrauchen mehr Kontextraum, da Thinking-Blöcke im Kontext beibehalten werden
    • Automatisches Verhalten: Dies ist das Standardverhalten für Claude Opus 4.5 – keine Codeänderungen oder Beta-Header erforderlich
    • Rückwärtskompatibilität: Um diese Funktion zu nutzen, geben Sie weiterhin vollständige, unveränderte Thinking-Blöcke an die API zurück, wie Sie es für Tool-Use tun würden

    Für frühere Modelle (Claude Sonnet 4.5, Opus 4.1 usw.) werden Thinking-Blöcke aus vorherigen Turns weiterhin aus dem Kontext entfernt. Das im Abschnitt Erweitertes Denken mit Prompt-Caching beschriebene vorhandene Verhalten gilt für diese Modelle.

    Preisgestaltung

    Vollständige Preisinformationen einschließlich Basissätze, Cache-Schreibvorgänge, Cache-Treffer und Ausgabe-Token finden Sie auf der Preisseite.

    Der Thinking-Prozess verursacht Gebühren für:

    • Während des Denkens verwendete Token (Ausgabe-Token)
    • Thinking-Blöcke aus dem letzten Assistant-Turn, die in nachfolgenden Anfragen enthalten sind (Eingabe-Token)
    • Standard-Text-Ausgabe-Token

    Wenn erweitertes Denken aktiviert ist, wird automatisch eine spezialisierte Systemaufforderung eingebunden, um diese Funktion zu unterstützen.

    Bei Verwendung von zusammengefasstem Denken:

    • Eingabe-Token: Token in Ihrer ursprünglichen Anfrage (schließt Thinking-Token aus vorherigen Turns aus)
    • Ausgabe-Token (abgerechnet): Die ursprünglichen Thinking-Token, die Claude intern generiert hat
    • Ausgabe-Token (sichtbar): Die zusammengefassten Thinking-Token, die Sie in der Antwort sehen
    • Keine Gebühr: Token, die zur Generierung der Zusammenfassung verwendet werden

    Die abgerechnete Ausgabe-Token-Anzahl wird nicht mit der sichtbaren Token-Anzahl in der Antwort übereinstimmen. Sie werden für den vollständigen Thinking-Prozess abgerechnet, nicht für die Zusammenfassung, die Sie sehen.

    Best Practices und Überlegungen für erweitertes Denken

    Arbeiten mit Thinking-Budgets

    • Budget-Optimierung: Das Mindestbudget beträgt 1.024 Token. Wir empfehlen, mit dem Minimum zu beginnen und das Thinking-Budget schrittweise zu erhöhen, um den optimalen Bereich für Ihren Anwendungsfall zu finden. Höhere Token-Anzahlen ermöglichen umfassendere Überlegungen, aber mit sinkenden Erträgen je nach Aufgabe. Eine Erhöhung des Budgets kann die Antwortqualität verbessern, allerdings auf Kosten erhöhter Latenz. Für kritische Aufgaben testen Sie verschiedene Einstellungen, um das optimale Gleichgewicht zu finden. Beachten Sie, dass das Thinking-Budget ein Ziel und keine strikte Grenze ist – die tatsächliche Token-Nutzung kann je nach Aufgabe variieren.
    • Startpunkte: Beginnen Sie mit größeren Thinking-Budgets (16k+ Token) für komplexe Aufgaben und passen Sie diese nach Bedarf an.
    • Große Budgets: Für Thinking-Budgets über 32k empfehlen wir die Verwendung von Batch-Verarbeitung, um Netzwerkprobleme zu vermeiden. Anfragen, die das Modell dazu bringen, über 32k Token nachzudenken, führen zu lange laufenden Anfragen, die möglicherweise gegen Systemzeitüberschreitungen und Limits für offene Verbindungen verstoßen.
    • Token-Nutzungsverfolgung: Überwachen Sie die Thinking-Token-Nutzung, um Kosten und Leistung zu optimieren.

    Leistungsüberlegungen

    • Antwortzeiten: Seien Sie auf möglicherweise längere Antwortzeiten vorbereitet, da zusätzliche Verarbeitung für den Reasoning-Prozess erforderlich ist. Berücksichtigen Sie, dass die Generierung von Thinking-Blöcken die Gesamtantwortzeit erhöhen kann.
    • Streaming-Anforderungen: Streaming ist erforderlich, wenn max_tokens größer als 21.333 ist. Beim Streaming seien Sie darauf vorbereitet, sowohl Thinking- als auch Text-Content-Blöcke bei ihrer Ankunft zu verarbeiten.

    Funktionskompatibilität

    • Denken ist nicht kompatibel mit temperature- oder top_k-Änderungen sowie mit erzwungener Tool-Nutzung.
    • Wenn Denken aktiviert ist, können Sie top_p auf Werte zwischen 1 und 0,95 setzen.
    • Sie können Antworten nicht vorausfüllen, wenn Denken aktiviert ist.
    • Änderungen am Thinking-Budget machen zwischengespeicherte Prompt-Präfixe ungültig, die Nachrichten enthalten. Zwischengespeicherte Systemaufforderungen und Tool-Definitionen funktionieren jedoch weiterhin, wenn sich Thinking-Parameter ändern.

    Nutzungsrichtlinien

    • Aufgabenauswahl: Verwenden Sie erweitertes Denken für besonders komplexe Aufgaben, die von schrittweiser Argumentation profitieren, wie Mathematik, Codierung und Analyse.
    • Kontextbehandlung: Sie müssen vorherige Thinking-Blöcke nicht selbst entfernen. Die Claude API ignoriert automatisch Thinking-Blöcke aus vorherigen Turns und sie werden nicht bei der Berechnung der Kontextnutzung berücksichtigt.
    • Prompt-Engineering: Lesen Sie unsere Tipps zum Prompt-Engineering für erweitertes Denken, wenn Sie Claudes Thinking-Fähigkeiten maximieren möchten.

    Nächste Schritte

    Probieren Sie das Extended-Thinking-Cookbook aus

    Erkunden Sie praktische Beispiele des Denkens in unserem Cookbook.

    Tipps zum Prompt-Engineering für erweitertes Denken

    Lernen Sie Best Practices für Prompt-Engineering beim erweiterten Denken.