Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.5Migration vers Claude 4.5Dépréciations de modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesFenêtres de contexteBonnes pratiques de prompting
    Capacités
    Mise en cache des promptsÉdition de contexteRéflexion étendueEffortStreaming de messagesTraitement par lotsCitationsSupport multilingueComptage de tokensEmbeddingsVisionSupport PDFAPI FilesRésultats de rechercheSorties structuréesComplément Google Sheets
    Outils
    AperçuComment implémenter l'utilisation d'outilsUtilisation d'outils efficace en tokensStreaming d'outils granulaireOutil BashOutil d'exécution de codeAppel d'outils programmatiqueOutil Computer useOutil Éditeur de texteOutil Web fetchOutil Recherche webOutil MémoireOutil Recherche d'outils
    Compétences d'agent
    AperçuDémarrage rapideBonnes pratiquesUtiliser les compétences avec l'API
    SDK Agent
    AperçuSDK TypeScriptSDK PythonGuide de migration
    Guides
    Streaming d'entréeGestion des permissionsGestion de sessionSorties structurées dans le SDKHébergement du SDK AgentModification des prompts systèmeMCP dans le SDKOutils personnalisésSous-agents dans le SDKCommandes slash dans le SDKCompétences d'agent dans le SDKSuivi des coûts et de l'utilisationListes de tâchesPlugins dans le SDK
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur des plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-shots)Laisser Claude réfléchir (CoT)Utiliser des balises XMLDonner un rôle à Claude (prompts système)Pré-remplir la réponse de ClaudeChaîner des prompts complexesConseils pour le contexte longConseils pour la réflexion étendue
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminAPI Utilisation et coûtsAPI Claude Code Analytics
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Capacités

    Construire avec la réflexion étendue

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.
    • Modèles supportés
    • Modèles supportés
    • Comment fonctionne la réflexion étendue
    • Modèles supportés
    • Comment fonctionne la réflexion étendue
    • Comment utiliser la réflexion étendue
    • Modèles supportés
    • Comment fonctionne la réflexion étendue
    • Comment utiliser la réflexion étendue
    • Réflexion résumée
    • Modèles supportés
    • Comment fonctionne la réflexion étendue
    • Comment utiliser la réflexion étendue
    • Réflexion résumée
    • Réflexion en continu
    • Modèles supportés
    • Comment fonctionne la pensée étendue
    • Comment utiliser la pensée étendue
    • Pensée résumée
    • Pensée en continu
    • Pensée étendue avec utilisation d'outils
    • Basculer les modes de pensée dans les conversations
    • Basculer les modes de réflexion dans les conversations
    • Préserver les blocs de réflexion
    • Pensée entrelacée
    • Pensée étendue avec mise en cache des invites
    • Extended thinking avec prompt caching
    • Comprendre le comportement de mise en cache des blocs de thinking
    • Max tokens et taille de la fenêtre de contexte avec extended thinking
    • Max tokens et taille de la fenêtre de contexte avec extended thinking
    • La fenêtre de contexte avec extended thinking
    • Max tokens et taille de la fenêtre de contexte avec extended thinking
    • La fenêtre de contexte avec extended thinking
    • La fenêtre de contexte avec extended thinking et utilisation d'outils
    • Max tokens et taille de la fenêtre de contexte avec extended thinking
    • La fenêtre de contexte avec extended thinking
    • La fenêtre de contexte avec extended thinking et utilisation d'outils
    • Gestion des jetons avec extended thinking
    • Jetons max et taille de la fenêtre de contexte avec la réflexion étendue
    • La fenêtre de contexte avec la réflexion étendue
    • La fenêtre de contexte avec la réflexion étendue et l'utilisation d'outils
    • Gestion des jetons avec la réflexion étendue
    • Chiffrement de la réflexion
    • Rédaction de la réflexion
    • Rédaction de la réflexion
    • Différences de réflexion entre les versions de modèles
    • Rédaction de la réflexion
    • Différences de réflexion entre les versions de modèles
    • Préservation des blocs de réflexion dans Claude Opus 4.5
    • Rédaction de la réflexion
    • Différences de réflexion entre les versions de modèle
    • Préservation du bloc de réflexion dans Claude Opus 4.5
    • Tarification
    • Meilleures pratiques et considérations pour la réflexion étendue
    • Meilleures pratiques et considérations pour la réflexion étendue
    • Travailler avec les budgets de réflexion
    • Meilleures pratiques et considérations pour la réflexion étendue
    • Travailler avec les budgets de réflexion
    • Considérations de performance
    • Meilleures pratiques et considérations pour la réflexion étendue
    • Travailler avec les budgets de réflexion
    • Compatibilité des fonctionnalités
    • Meilleures pratiques et considérations pour la réflexion étendue
    • Travailler avec les budgets de réflexion
    • Considérations de performance
    • Compatibilité des fonctionnalités
    • Directives d'utilisation
    • Meilleures pratiques et considérations pour la réflexion étendue
    • Travailler avec les budgets de réflexion
    • Considérations de performance
    • Compatibilité des fonctionnalités
    • Directives d'utilisation
    • Étapes suivantes

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    Modèles supportés

    La réflexion étendue est supportée dans les modèles suivants :

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (déprécié)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    Le comportement de l'API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes d'API restent exactement les mêmes.

    Pour plus d'informations, voir Différences de réflexion entre les versions de modèles.

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    Modèles supportés

    La réflexion étendue est supportée dans les modèles suivants :

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (déprécié)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    Le comportement de l'API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes d'API restent exactement les mêmes.

    Pour plus d'informations, voir Différences de réflexion entre les versions de modèles.

    Comment fonctionne la réflexion étendue

    Lorsque la réflexion étendue est activée, Claude crée des blocs de contenu thinking où il produit son raisonnement interne. Claude intègre les idées de ce raisonnement avant de formuler une réponse finale.

    La réponse de l'API inclura des blocs de contenu thinking, suivis de blocs de contenu text.

    Voici un exemple du format de réponse par défaut :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Pour plus d'informations sur le format de réponse de la réflexion étendue, voir la Référence de l'API Messages.

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    Modèles supportés

    La réflexion étendue est supportée dans les modèles suivants :

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (déprécié)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    Le comportement de l'API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes d'API restent exactement les mêmes.

    Pour plus d'informations, voir Différences de réflexion entre les versions de modèles.

    Comment fonctionne la réflexion étendue

    Lorsque la réflexion étendue est activée, Claude crée des blocs de contenu thinking où il produit son raisonnement interne. Claude intègre les idées de ce raisonnement avant de formuler une réponse finale.

    La réponse de l'API inclura des blocs de contenu thinking, suivis de blocs de contenu text.

    Voici un exemple du format de réponse par défaut :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Pour plus d'informations sur le format de réponse de la réflexion étendue, voir la Référence de l'API Messages.

    Comment utiliser la réflexion étendue

    Voici un exemple d'utilisation de la réflexion étendue dans l'API Messages :

    Pour activer la réflexion étendue, ajoutez un objet thinking, avec le paramètre type défini sur enabled et budget_tokens défini sur un budget de jetons spécifié pour la réflexion étendue.

    Le paramètre budget_tokens détermine le nombre maximum de jetons que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s'applique aux jetons de réflexion complète, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité des réponses en permettant une analyse plus approfondie pour les problèmes complexes, bien que Claude ne puisse pas utiliser l'intégralité du budget alloué, en particulier pour les plages supérieures à 32k.

    budget_tokens doit être défini sur une valeur inférieure à max_tokens. Cependant, lors de l'utilisation de la réflexion entrelacée avec des outils, vous pouvez dépasser cette limite car la limite de jetons devient votre fenêtre de contexte entière (200k jetons).

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    Modèles supportés

    La réflexion étendue est supportée dans les modèles suivants :

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (déprécié)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    Le comportement de l'API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes d'API restent exactement les mêmes.

    Pour plus d'informations, voir Différences de réflexion entre les versions de modèles.

    Comment fonctionne la réflexion étendue

    Lorsque la réflexion étendue est activée, Claude crée des blocs de contenu thinking où il produit son raisonnement interne. Claude intègre les idées de ce raisonnement avant de formuler une réponse finale.

    La réponse de l'API inclura des blocs de contenu thinking, suivis de blocs de contenu text.

    Voici un exemple du format de réponse par défaut :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Pour plus d'informations sur le format de réponse de la réflexion étendue, voir la Référence de l'API Messages.

    Comment utiliser la réflexion étendue

    Voici un exemple d'utilisation de la réflexion étendue dans l'API Messages :

    Pour activer la réflexion étendue, ajoutez un objet thinking, avec le paramètre type défini sur enabled et budget_tokens défini sur un budget de jetons spécifié pour la réflexion étendue.

    Le paramètre budget_tokens détermine le nombre maximum de jetons que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s'applique aux jetons de réflexion complète, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité des réponses en permettant une analyse plus approfondie pour les problèmes complexes, bien que Claude ne puisse pas utiliser l'intégralité du budget alloué, en particulier pour les plages supérieures à 32k.

    budget_tokens doit être défini sur une valeur inférieure à max_tokens. Cependant, lors de l'utilisation de la réflexion entrelacée avec des outils, vous pouvez dépasser cette limite car la limite de jetons devient votre fenêtre de contexte entière (200k jetons).

    Réflexion résumée

    Avec la réflexion étendue activée, l'API Messages pour les modèles Claude 4 retourne un résumé du processus de réflexion complet de Claude. La réflexion résumée fournit tous les avantages en termes d'intelligence de la réflexion étendue, tout en prévenant les abus.

    Voici quelques considérations importantes pour la réflexion résumée :

    • Vous êtes facturé pour les jetons de réflexion complets générés par la demande originale, et non pour les jetons du résumé.
    • Le nombre de jetons de sortie facturés ne correspondra pas au nombre de jetons que vous voyez dans la réponse.
    • Les premières lignes de la sortie de réflexion sont plus détaillées, fournissant un raisonnement détaillé qui est particulièrement utile à des fins d'ingénierie des invites.
    • Alors qu'Anthropic cherche à améliorer la fonction de réflexion étendue, le comportement de résumé est sujet à changement.
    • La résumé préserve les idées clés du processus de réflexion de Claude avec une latence minimale ajoutée, permettant une expérience utilisateur en continu et une migration facile de Claude Sonnet 3.7 vers les modèles Claude 4.
    • La résumé est traitée par un modèle différent de celui que vous ciblez dans vos demandes. Le modèle de réflexion ne voit pas la sortie résumée.

    Claude Sonnet 3.7 continue de retourner la sortie de réflexion complète.

    Dans les rares cas où vous avez besoin d'accès à la sortie de réflexion complète pour les modèles Claude 4, contactez notre équipe commerciale.

    La réflexion étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    Modèles supportés

    La réflexion étendue est supportée dans les modèles suivants :

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (déprécié)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    Le comportement de l'API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes d'API restent exactement les mêmes.

    Pour plus d'informations, voir Différences de réflexion entre les versions de modèles.

    Comment fonctionne la réflexion étendue

    Lorsque la réflexion étendue est activée, Claude crée des blocs de contenu thinking où il produit son raisonnement interne. Claude intègre les idées de ce raisonnement avant de formuler une réponse finale.

    La réponse de l'API inclura des blocs de contenu thinking, suivis de blocs de contenu text.

    Voici un exemple du format de réponse par défaut :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Pour plus d'informations sur le format de réponse de la réflexion étendue, voir la Référence de l'API Messages.

    Comment utiliser la réflexion étendue

    Voici un exemple d'utilisation de la réflexion étendue dans l'API Messages :

    Pour activer la réflexion étendue, ajoutez un objet thinking, avec le paramètre type défini sur enabled et budget_tokens défini sur un budget de jetons spécifié pour la réflexion étendue.

    Le paramètre budget_tokens détermine le nombre maximum de jetons que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s'applique aux jetons de réflexion complète, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité des réponses en permettant une analyse plus approfondie pour les problèmes complexes, bien que Claude ne puisse pas utiliser l'intégralité du budget alloué, en particulier pour les plages supérieures à 32k.

    budget_tokens doit être défini sur une valeur inférieure à max_tokens. Cependant, lors de l'utilisation de la réflexion entrelacée avec des outils, vous pouvez dépasser cette limite car la limite de jetons devient votre fenêtre de contexte entière (200k jetons).

    Réflexion résumée

    Avec la réflexion étendue activée, l'API Messages pour les modèles Claude 4 retourne un résumé du processus de réflexion complet de Claude. La réflexion résumée fournit tous les avantages en termes d'intelligence de la réflexion étendue, tout en prévenant les abus.

    Voici quelques considérations importantes pour la réflexion résumée :

    • Vous êtes facturé pour les jetons de réflexion complets générés par la demande originale, et non pour les jetons du résumé.
    • Le nombre de jetons de sortie facturés ne correspondra pas au nombre de jetons que vous voyez dans la réponse.
    • Les premières lignes de la sortie de réflexion sont plus détaillées, fournissant un raisonnement détaillé qui est particulièrement utile à des fins d'ingénierie des invites.
    • Alors qu'Anthropic cherche à améliorer la fonction de réflexion étendue, le comportement de résumé est sujet à changement.
    • La résumé préserve les idées clés du processus de réflexion de Claude avec une latence minimale ajoutée, permettant une expérience utilisateur en continu et une migration facile de Claude Sonnet 3.7 vers les modèles Claude 4.
    • La résumé est traitée par un modèle différent de celui que vous ciblez dans vos demandes. Le modèle de réflexion ne voit pas la sortie résumée.

    Claude Sonnet 3.7 continue de retourner la sortie de réflexion complète.

    Dans les rares cas où vous avez besoin d'accès à la sortie de réflexion complète pour les modèles Claude 4, contactez notre équipe commerciale.

    Réflexion en continu

    Vous pouvez diffuser les réponses de réflexion étendue en utilisant les événements envoyés par le serveur (SSE).

    Lorsque la diffusion en continu est activée pour la réflexion étendue, vous recevez le contenu de réflexion via les événements thinking_delta.

    Pour plus de documentation sur la diffusion en continu via l'API Messages, voir Diffusion en continu des Messages.

    Voici comment gérer la diffusion en continu avec la réflexion :

    Essayer dans la console

    Exemple de sortie de diffusion en continu :

    event: message_start
    data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Let me solve this step by step:\n\n1. First break down 27 * 453"}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}
    
    // Additional thinking deltas...
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 0}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12,231"}}
    
    // Additional text deltas...
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 1}
    
    event: message_delta
    data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
    
    event: message_stop
    data: {"type": "message_stop"}

    Lors de l'utilisation de la diffusion en continu avec la réflexion activée, vous pourriez remarquer que le texte arrive parfois en blocs plus importants alternant avec une livraison plus petite, jeton par jeton. C'est un comportement attendu, en particulier pour le contenu de réflexion.

    Le système de diffusion en continu doit traiter le contenu par lots pour des performances optimales, ce qui peut entraîner ce modèle de livraison « fragmenté », avec des délais possibles entre les événements de diffusion en continu. Nous travaillons continuellement à l'amélioration de cette expérience, avec des mises à jour futures axées sur la diffusion en continu plus fluide du contenu de réflexion.

    La pensée étendue donne à Claude des capacités de raisonnement améliorées pour les tâches complexes, tout en fournissant différents niveaux de transparence dans son processus de réflexion étape par étape avant de livrer sa réponse finale.

    Modèles supportés

    La pensée étendue est supportée dans les modèles suivants :

    • Claude Sonnet 4.5 (claude-sonnet-4-5-20250929)
    • Claude Sonnet 4 (claude-sonnet-4-20250514)
    • Claude Sonnet 3.7 (claude-3-7-sonnet-20250219) (déprécié)
    • Claude Haiku 4.5 (claude-haiku-4-5-20251001)
    • Claude Opus 4.5 (claude-opus-4-5-20251101)
    • Claude Opus 4.1 (claude-opus-4-1-20250805)
    • Claude Opus 4 (claude-opus-4-20250514)

    Le comportement de l'API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes d'API restent exactement les mêmes.

    Pour plus d'informations, voir Différences de pensée entre les versions de modèles.

    Comment fonctionne la pensée étendue

    Lorsque la pensée étendue est activée, Claude crée des blocs de contenu thinking où il produit son raisonnement interne. Claude intègre les idées de ce raisonnement avant de formuler une réponse finale.

    La réponse de l'API inclura des blocs de contenu thinking, suivis de blocs de contenu text.

    Voici un exemple du format de réponse par défaut :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Pour plus d'informations sur le format de réponse de la pensée étendue, voir la Référence de l'API Messages.

    Comment utiliser la pensée étendue

    Voici un exemple d'utilisation de la pensée étendue dans l'API Messages :

    Pour activer la pensée étendue, ajoutez un objet thinking, avec le paramètre type défini sur enabled et le budget_tokens défini sur un budget de jetons spécifié pour la pensée étendue.

    Le paramètre budget_tokens détermine le nombre maximum de jetons que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s'applique aux jetons de pensée complète, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité des réponses en permettant une analyse plus approfondie pour les problèmes complexes, bien que Claude ne puisse pas utiliser l'intégralité du budget alloué, en particulier pour les plages supérieures à 32k.

    budget_tokens doit être défini sur une valeur inférieure à max_tokens. Cependant, lors de l'utilisation de la pensée entrelacée avec des outils, vous pouvez dépasser cette limite car la limite de jetons devient votre fenêtre de contexte entière (200k jetons).

    Pensée résumée

    Avec la pensée étendue activée, l'API Messages pour les modèles Claude 4 retourne un résumé du processus de pensée complet de Claude. La pensée résumée fournit tous les avantages en intelligence de la pensée étendue, tout en prévenant les abus.

    Voici quelques considérations importantes pour la pensée résumée :

    • Vous êtes facturé pour les jetons de pensée complets générés par la demande originale, et non pour les jetons de résumé.
    • Le nombre de jetons de sortie facturés ne correspondra pas au nombre de jetons que vous voyez dans la réponse.
    • Les premières lignes de la sortie de pensée sont plus détaillées, fournissant un raisonnement détaillé qui est particulièrement utile à des fins d'ingénierie des invites.
    • Alors qu'Anthropic cherche à améliorer la fonctionnalité de pensée étendue, le comportement de résumé est sujet à changement.
    • La résumé préserve les idées clés du processus de pensée de Claude avec une latence minimale ajoutée, permettant une expérience utilisateur en continu et une migration facile de Claude Sonnet 3.7 vers les modèles Claude 4.
    • La résumé est traitée par un modèle différent de celui que vous ciblez dans vos demandes. Le modèle de pensée ne voit pas la sortie résumée.

    Claude Sonnet 3.7 continue de retourner la sortie de pensée complète.

    Dans les rares cas où vous avez besoin d'accès à la sortie de pensée complète pour les modèles Claude 4, contactez notre équipe commerciale.

    Pensée en continu

    Vous pouvez diffuser les réponses de pensée étendue en utilisant les événements envoyés par le serveur (SSE).

    Lorsque la diffusion en continu est activée pour la pensée étendue, vous recevez le contenu de pensée via les événements thinking_delta.

    Pour plus de documentation sur la diffusion en continu via l'API Messages, voir Diffusion en continu des Messages.

    Voici comment gérer la diffusion en continu avec la pensée :

    Essayer dans la console

    Exemple de sortie de diffusion en continu :

    event: message_start
    data: {"type": "message_start", "message": {"id": "msg_01...", "type": "message", "role": "assistant", "content": [], "model": "claude-sonnet-4-5", "stop_reason": null, "stop_sequence": null}}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 0, "content_block": {"type": "thinking", "thinking": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "Let me solve this step by step:\n\n1. First break down 27 * 453"}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "thinking_delta", "thinking": "\n2. 453 = 400 + 50 + 3"}}
    
    // Additional thinking deltas...
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 0, "delta": {"type": "signature_delta", "signature": "EqQBCgIYAhIM1gbcDa9GJwZA2b3hGgxBdjrkzLoky3dl1pkiMOYds..."}}
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 0}
    
    event: content_block_start
    data: {"type": "content_block_start", "index": 1, "content_block": {"type": "text", "text": ""}}
    
    event: content_block_delta
    data: {"type": "content_block_delta", "index": 1, "delta": {"type": "text_delta", "text": "27 * 453 = 12,231"}}
    
    // Additional text deltas...
    
    event: content_block_stop
    data: {"type": "content_block_stop", "index": 1}
    
    event: message_delta
    data: {"type": "message_delta", "delta": {"stop_reason": "end_turn", "stop_sequence": null}}
    
    event: message_stop
    data: {"type": "message_stop"}

    Lors de l'utilisation de la diffusion en continu avec la pensée activée, vous pourriez remarquer que le texte arrive parfois en plus gros morceaux alternant avec une livraison plus petite, jeton par jeton. C'est un comportement attendu, en particulier pour le contenu de pensée.

    Le système de diffusion en continu doit traiter le contenu par lots pour des performances optimales, ce qui peut entraîner ce modèle de livraison « fragmentée », avec des délais possibles entre les événements de diffusion en continu. Nous travaillons continuellement à l'amélioration de cette expérience, avec des mises à jour futures axées sur la diffusion en continu plus fluide du contenu de pensée.

    Pensée étendue avec utilisation d'outils

    La pensée étendue peut être utilisée aux côtés de l'utilisation d'outils, permettant à Claude de raisonner sur la sélection d'outils et le traitement des résultats.

    Lors de l'utilisation de la pensée étendue avec l'utilisation d'outils, soyez conscient des limitations suivantes :

    1. Limitation du choix d'outil : L'utilisation d'outils avec la pensée ne supporte que tool_choice: {"type": "auto"} (la valeur par défaut) ou tool_choice: {"type": "none"}. L'utilisation de tool_choice: {"type": "any"} ou tool_choice: {"type": "tool", "name": "..."} entraînera une erreur car ces options forcent l'utilisation d'outils, ce qui est incompatible avec la pensée étendue.

    2. Préservation des blocs de pensée : Lors de l'utilisation d'outils, vous devez repasser les blocs thinking à l'API pour le dernier message de l'assistant. Incluez le bloc complet non modifié à l'API pour maintenir la continuité du raisonnement.

    Basculer les modes de pensée dans les conversations

    Vous ne pouvez pas basculer la pensée au milieu d'un tour d'assistant, y compris pendant les boucles d'utilisation d'outils. Le tour d'assistant entier doit fonctionner dans un seul mode de pensée :

    • Si la pensée est activée, le tour d'assistant final doit commencer par un bloc de pensée.
    • Si la pensée est désactivée, le tour d'assistant final ne doit contenir aucun bloc de pensée

    Du point de vue du modèle, les boucles d'utilisation d'outils font partie du tour d'assistant. Un tour d'assistant ne se termine pas jusqu'à ce que Claude termine sa réponse complète, qui peut inclure plusieurs appels d'outils et résultats.

    Par exemple, cette séquence fait partie d'un seul tour d'assistant :

    User: "What's the weather in Paris?"
    Assistant: [thinking] + [tool_use: get_weather]
    User: [tool_result: "20°C, sunny"]
    Assistant: [text: "The weather in Paris is 20°C and sunny"]

    Bien qu'il y ait plusieurs messages d'API, la boucle d'utilisation d'outils fait conceptuellement partie d'une réponse d'assistant continue.

    Scénarios d'erreur courants

    Vous pourriez rencontrer cette erreur :

    Expected `thinking` or `redacted_thinking`, but found `tool_use`.
    When `thinking` is enabled, a final `assistant` message must start
    with a thinking block (preceding the lastmost set of `tool_use` and
    `tool_result` blocks).

    Cela se produit généralement lorsque :

    1. Vous aviez la pensée désactivée pendant une séquence d'utilisation d'outils
    2. Vous voulez activer la pensée à nouveau
    3. Votre dernier message d'assistant contient des blocs d'utilisation d'outils mais aucun bloc de pensée

    Conseils pratiques

    ✗ Invalide : Basculer la pensée immédiatement après l'utilisation d'outils

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    // Cannot enable thinking here - still in the same assistant turn

    ✓ Valide : Terminer d'abord le tour d'assistant

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    Assistant: [text: "It's sunny"] 
    User: "What about tomorrow?" (thinking disabled)
    Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

    Meilleure pratique : Planifiez votre stratégie de pensée au début de chaque tour plutôt que d'essayer de basculer en milieu de tour.

    Le basculement des modes de pensée invalide également la mise en cache des invites pour l'historique des messages. Pour plus de détails, voir la section Pensée étendue avec mise en cache des invites.

    Basculer les modes de réflexion dans les conversations

    Vous ne pouvez pas basculer la réflexion au milieu d'un tour d'assistant, y compris pendant les boucles d'utilisation d'outils. Le tour d'assistant entier doit fonctionner dans un seul mode de réflexion :

    • Si la réflexion est activée, le tour d'assistant final doit commencer par un bloc de réflexion.
    • Si la réflexion est désactivée, le tour d'assistant final ne doit contenir aucun bloc de réflexion

    Du point de vue du modèle, les boucles d'utilisation d'outils font partie du tour d'assistant. Un tour d'assistant ne se termine pas jusqu'à ce que Claude termine sa réponse complète, qui peut inclure plusieurs appels d'outils et résultats.

    Par exemple, cette séquence fait partie d'un seul tour d'assistant :

    User: "What's the weather in Paris?"
    Assistant: [thinking] + [tool_use: get_weather]
    User: [tool_result: "20°C, sunny"]
    Assistant: [text: "The weather in Paris is 20°C and sunny"]

    Bien qu'il y ait plusieurs messages API, la boucle d'utilisation d'outils fait conceptuellement partie d'une seule réponse d'assistant continue.

    Scénarios d'erreur courants

    Vous pourriez rencontrer cette erreur :

    Expected `thinking` or `redacted_thinking`, but found `tool_use`.
    When `thinking` is enabled, a final `assistant` message must start
    with a thinking block (preceding the lastmost set of `tool_use` and
    `tool_result` blocks).

    Cela se produit généralement lorsque :

    1. Vous aviez la réflexion désactivée pendant une séquence d'utilisation d'outils
    2. Vous voulez réactiver la réflexion
    3. Votre dernier message d'assistant contient des blocs d'utilisation d'outils mais aucun bloc de réflexion

    Conseils pratiques

    ✗ Invalide : Basculer la réflexion immédiatement après l'utilisation d'outils

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    // Cannot enable thinking here - still in the same assistant turn

    ✓ Valide : Terminer d'abord le tour d'assistant

    User: "What's the weather?"
    Assistant: [tool_use] (thinking disabled)
    User: [tool_result]
    Assistant: [text: "It's sunny"] 
    User: "What about tomorrow?" (thinking disabled)
    Assistant: [thinking] + [text: "..."] (thinking enabled - new turn)

    Meilleure pratique : Planifiez votre stratégie de réflexion au début de chaque tour plutôt que d'essayer de basculer en milieu de tour.

    Basculer les modes de réflexion invalide également la mise en cache des invites pour l'historique des messages. Pour plus de détails, consultez la section Réflexion étendue avec mise en cache des invites.

    Préserver les blocs de réflexion

    Pendant l'utilisation d'outils, vous devez transmettre les blocs de thinking à l'API, et vous devez inclure le bloc complet non modifié à l'API. Ceci est critique pour maintenir le flux de raisonnement du modèle et l'intégrité de la conversation.

    Bien que vous puissiez omettre les blocs de thinking des tours précédents du rôle assistant, nous suggérons de toujours transmettre tous les blocs de réflexion à l'API pour toute conversation multi-tours. L'API va :

    • Filtrer automatiquement les blocs de réflexion fournis
    • Utiliser les blocs de réflexion pertinents nécessaires pour préserver le raisonnement du modèle
    • Facturer uniquement les jetons d'entrée pour les blocs affichés à Claude

    Lorsque vous basculez les modes de réflexion pendant une conversation, n'oubliez pas que le tour d'assistant entier (y compris les boucles d'utilisation d'outils) doit fonctionner dans un seul mode de réflexion. Pour plus de détails, consultez Basculer les modes de réflexion dans les conversations.

    Lorsque Claude invoque des outils, il met en pause la construction de sa réponse pour attendre des informations externes. Lorsque les résultats des outils sont retournés, Claude continuera à construire cette réponse existante. Cela nécessite de préserver les blocs de réflexion pendant l'utilisation d'outils, pour plusieurs raisons :

    1. Continuité du raisonnement : Les blocs de réflexion capturent le raisonnement étape par étape de Claude qui a conduit aux demandes d'outils. Lorsque vous publiez les résultats des outils, inclure la réflexion originale garantit que Claude peut continuer son raisonnement à partir du point où il s'était arrêté.

    2. Maintenance du contexte : Bien que les résultats des outils apparaissent comme des messages utilisateur dans la structure de l'API, ils font partie d'un flux de raisonnement continu. Préserver les blocs de réflexion maintient ce flux conceptuel à travers plusieurs appels API. Pour plus d'informations sur la gestion du contexte, consultez notre guide sur les fenêtres de contexte.

    Important : Lorsque vous fournissez des blocs de thinking, la séquence entière de blocs de thinking consécutifs doit correspondre aux résultats générés par le modèle lors de la demande originale ; vous ne pouvez pas réorganiser ou modifier la séquence de ces blocs.

    Pensée entrelacée

    La pensée étendue avec utilisation d'outils dans les modèles Claude 4 prend en charge la pensée entrelacée, qui permet à Claude de réfléchir entre les appels d'outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats des outils.

    Avec la pensée entrelacée, Claude peut :

    • Raisonner sur les résultats d'un appel d'outil avant de décider quoi faire ensuite
    • Enchaîner plusieurs appels d'outils avec des étapes de raisonnement entre les deux
    • Prendre des décisions plus nuancées basées sur les résultats intermédiaires

    Pour activer la pensée entrelacée, ajoutez l'en-tête bêta interleaved-thinking-2025-05-14 à votre demande d'API.

    Voici quelques considérations importantes pour la pensée entrelacée :

    • Avec la pensée entrelacée, le budget_tokens peut dépasser le paramètre max_tokens, car il représente le budget total sur tous les blocs de pensée dans un tour d'assistant.
    • La pensée entrelacée n'est prise en charge que pour les outils utilisés via l'API Messages.
    • La pensée entrelacée est prise en charge uniquement pour les modèles Claude 4, avec l'en-tête bêta interleaved-thinking-2025-05-14.
    • Les appels directs à l'API Claude vous permettent de passer interleaved-thinking-2025-05-14 dans les demandes à n'importe quel modèle, sans effet.
    • Sur les plateformes tierces (par exemple, Amazon Bedrock et Vertex AI), si vous passez interleaved-thinking-2025-05-14 à n'importe quel modèle autre que Claude Opus 4.5, Claude Opus 4.1, Opus 4 ou Sonnet 4, votre demande échouera.

    Pensée étendue avec mise en cache des invites

    La mise en cache des invites avec pensée a plusieurs considérations importantes :

    Les tâches de pensée étendue prennent souvent plus de 5 minutes pour se terminer. Envisagez d'utiliser la durée de cache d'une heure pour maintenir les accès au cache sur les sessions de pensée plus longues et les flux de travail multi-étapes.

    Suppression du contexte des blocs de pensée

    • Les blocs de pensée des tours précédents sont supprimés du contexte, ce qui peut affecter les points d'arrêt du cache
    • Lors de la continuation des conversations avec utilisation d'outils, les blocs de pensée sont mis en cache et comptent comme des jetons d'entrée lorsqu'ils sont lus à partir du cache
    • Cela crée un compromis : bien que les blocs de pensée ne consomment pas d'espace de fenêtre de contexte visuellement, ils comptent toujours vers votre utilisation de jetons d'entrée lorsqu'ils sont mis en cache
    • Si la pensée est désactivée, les demandes échoueront si vous transmettez du contenu de pensée dans le tour d'utilisation d'outils actuel. Dans d'autres contextes, le contenu de pensée transmis à l'API est simplement ignoré

    Modèles d'invalidation du cache

    • Les modifications des paramètres de pensée (activé/désactivé ou allocation de budget) invalident les points d'arrêt du cache de messages
    • La pensée entrelacée amplifie l'invalidation du cache, car les blocs de pensée peuvent se produire entre plusieurs appels d'outils
    • Les invites système et les outils restent mis en cache malgré les modifications des paramètres de pensée ou la suppression de blocs

    Bien que les blocs de pensée soient supprimés pour la mise en cache et les calculs de contexte, ils doivent être préservés lors de la continuation des conversations avec utilisation d'outils, en particulier avec pensée entrelacée.

    Extended thinking avec prompt caching

    Prompt caching avec thinking a plusieurs considérations importantes :

    Les tâches extended thinking prennent souvent plus de 5 minutes pour se terminer. Envisagez d'utiliser la durée de cache d'1 heure pour maintenir les accès au cache lors de sessions de thinking plus longues et de workflows multi-étapes.

    Suppression du contexte des blocs de thinking

    • Les blocs de thinking des tours précédents sont supprimés du contexte, ce qui peut affecter les points de rupture du cache
    • Lors de la continuation de conversations avec utilisation d'outils, les blocs de thinking sont mis en cache et comptent comme des jetons d'entrée lorsqu'ils sont lus à partir du cache
    • Cela crée un compromis : bien que les blocs de thinking ne consomment pas d'espace de fenêtre de contexte visuellement, ils comptent toujours vers votre utilisation de jetons d'entrée lorsqu'ils sont mis en cache
    • Si thinking est désactivé, les requêtes échoueront si vous transmettez du contenu thinking dans le tour d'utilisation d'outils actuel. Dans d'autres contextes, le contenu thinking transmis à l'API est simplement ignoré

    Modèles d'invalidation du cache

    • Les modifications des paramètres de thinking (activé/désactivé ou allocation de budget) invalident les points de rupture du cache de messages
    • Interleaved thinking amplifie l'invalidation du cache, car les blocs de thinking peuvent se produire entre plusieurs appels d'outils
    • Les invites système et les outils restent mis en cache malgré les modifications des paramètres de thinking ou la suppression de blocs

    Bien que les blocs de thinking soient supprimés pour la mise en cache et les calculs de contexte, ils doivent être préservés lors de la continuation de conversations avec utilisation d'outils, en particulier avec interleaved thinking.

    Comprendre le comportement de mise en cache des blocs de thinking

    Lors de l'utilisation de extended thinking avec utilisation d'outils, les blocs de thinking présentent un comportement de mise en cache spécifique qui affecte le comptage des jetons :

    Comment cela fonctionne :

    1. La mise en cache ne se produit que lorsque vous effectuez une requête ultérieure qui inclut les résultats des outils
    2. Lorsque la requête ultérieure est effectuée, l'historique de conversation précédent (y compris les blocs de thinking) peut être mis en cache
    3. Ces blocs de thinking mis en cache comptent comme des jetons d'entrée dans vos métriques d'utilisation lorsqu'ils sont lus à partir du cache
    4. Lorsqu'un bloc utilisateur non-résultat d'outil est inclus, tous les blocs de thinking précédents sont ignorés et supprimés du contexte

    Flux d'exemple détaillé :

    Requête 1 :

    User: "What's the weather in Paris?"

    Réponse 1 :

    [thinking_block_1] + [tool_use block 1]

    Requête 2 :

    User: ["What's the weather in Paris?"], 
    Assistant: [thinking_block_1] + [tool_use block 1], 
    User: [tool_result_1, cache=True]

    Réponse 2 :

    [thinking_block_2] + [text block 2]

    La requête 2 écrit un cache du contenu de la requête (pas la réponse). Le cache inclut le message utilisateur original, le premier bloc de thinking, le bloc d'utilisation d'outils et le résultat de l'outil.

    Requête 3 :

    User: ["What's the weather in Paris?"],
    Assistant: [thinking_block_1] + [tool_use block 1],
    User: [tool_result_1, cache=True],
    Assistant: [thinking_block_2] + [text block 2],
    User: [Text response, cache=True]

    Pour Claude Opus 4.5 et versions ultérieures, tous les blocs de thinking précédents sont conservés par défaut. Pour les modèles plus anciens, parce qu'un bloc utilisateur non-résultat d'outil a été inclus, tous les blocs de thinking précédents sont ignorés. Cette requête sera traitée de la même manière que :

    User: ["What's the weather in Paris?"],
    Assistant: [tool_use block 1],
    User: [tool_result_1, cache=True],
    Assistant: [text block 2],
    User: [Text response, cache=True]

    Points clés :

    • Ce comportement de mise en cache se produit automatiquement, même sans marqueurs cache_control explicites
    • Ce comportement est cohérent, que vous utilisiez regular thinking ou interleaved thinking

    Max tokens et taille de la fenêtre de contexte avec extended thinking

    Dans les modèles Claude plus anciens (antérieurs à Claude Sonnet 3.7), si la somme des jetons d'invite et de max_tokens dépassait la fenêtre de contexte du modèle, le système ajusterait automatiquement max_tokens pour s'adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens et le système la réduirait silencieusement selon les besoins.

    Avec les modèles Claude 3.7 et 4, max_tokens (qui inclut votre budget de thinking lorsque thinking est activé) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si les jetons d'invite + max_tokens dépassent la taille de la fenêtre de contexte.

    Vous pouvez consulter notre guide sur les fenêtres de contexte pour une exploration plus approfondie.

    Max tokens et taille de la fenêtre de contexte avec extended thinking

    Dans les modèles Claude plus anciens (antérieurs à Claude Sonnet 3.7), si la somme des jetons d'invite et de max_tokens dépassait la fenêtre de contexte du modèle, le système ajusterait automatiquement max_tokens pour s'adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens et le système la réduirait silencieusement selon les besoins.

    Avec les modèles Claude 3.7 et 4, max_tokens (qui inclut votre budget de thinking lorsque thinking est activé) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si les jetons d'invite + max_tokens dépassent la taille de la fenêtre de contexte.

    Vous pouvez consulter notre guide sur les fenêtres de contexte pour une exploration plus approfondie.

    La fenêtre de contexte avec extended thinking

    Lors du calcul de l'utilisation de la fenêtre de contexte avec thinking activé, il y a quelques considérations à connaître :

    • Les blocs de thinking des tours précédents sont supprimés et ne comptent pas vers votre fenêtre de contexte
    • Le thinking du tour actuel compte vers votre limite max_tokens pour ce tour

    Le diagramme ci-dessous démontre la gestion spécialisée des jetons lorsque extended thinking est activé :

    Diagramme de la fenêtre de contexte avec extended thinking

    La fenêtre de contexte effective est calculée comme :

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Nous recommandons d'utiliser l'API de comptage des jetons pour obtenir des comptages de jetons précis pour votre cas d'usage spécifique, en particulier lorsque vous travaillez avec des conversations multi-tours qui incluent thinking.

    Max tokens et taille de la fenêtre de contexte avec extended thinking

    Dans les modèles Claude plus anciens (antérieurs à Claude Sonnet 3.7), si la somme des jetons d'invite et de max_tokens dépassait la fenêtre de contexte du modèle, le système ajusterait automatiquement max_tokens pour s'adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens et le système la réduirait silencieusement selon les besoins.

    Avec les modèles Claude 3.7 et 4, max_tokens (qui inclut votre budget de thinking lorsque thinking est activé) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si les jetons d'invite + max_tokens dépassent la taille de la fenêtre de contexte.

    Vous pouvez consulter notre guide sur les fenêtres de contexte pour une exploration plus approfondie.

    La fenêtre de contexte avec extended thinking

    Lors du calcul de l'utilisation de la fenêtre de contexte avec thinking activé, il y a quelques considérations à connaître :

    • Les blocs de thinking des tours précédents sont supprimés et ne comptent pas vers votre fenêtre de contexte
    • Le thinking du tour actuel compte vers votre limite max_tokens pour ce tour

    Le diagramme ci-dessous démontre la gestion spécialisée des jetons lorsque extended thinking est activé :

    Diagramme de la fenêtre de contexte avec extended thinking

    La fenêtre de contexte effective est calculée comme :

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Nous recommandons d'utiliser l'API de comptage des jetons pour obtenir des comptages de jetons précis pour votre cas d'usage spécifique, en particulier lorsque vous travaillez avec des conversations multi-tours qui incluent thinking.

    La fenêtre de contexte avec extended thinking et utilisation d'outils

    Lors de l'utilisation de extended thinking avec utilisation d'outils, les blocs de thinking doivent être explicitement préservés et retournés avec les résultats des outils.

    Le calcul de la fenêtre de contexte effective pour extended thinking avec utilisation d'outils devient :

    context window =
      (current input tokens + previous thinking tokens + tool use tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Le diagramme ci-dessous illustre la gestion des jetons pour extended thinking avec utilisation d'outils :

    Diagramme de la fenêtre de contexte avec extended thinking et utilisation d'outils

    Max tokens et taille de la fenêtre de contexte avec extended thinking

    Dans les modèles Claude plus anciens (antérieurs à Claude Sonnet 3.7), si la somme des jetons d'invite et de max_tokens dépassait la fenêtre de contexte du modèle, le système ajusterait automatiquement max_tokens pour s'adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens et le système la réduirait silencieusement selon les besoins.

    Avec les modèles Claude 3.7 et 4, max_tokens (qui inclut votre budget de thinking lorsque thinking est activé) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si les jetons d'invite + max_tokens dépassent la taille de la fenêtre de contexte.

    Vous pouvez consulter notre guide sur les fenêtres de contexte pour une exploration plus approfondie.

    La fenêtre de contexte avec extended thinking

    Lors du calcul de l'utilisation de la fenêtre de contexte avec thinking activé, il y a quelques considérations à connaître :

    • Les blocs de thinking des tours précédents sont supprimés et ne comptent pas vers votre fenêtre de contexte
    • Le thinking du tour actuel compte vers votre limite max_tokens pour ce tour

    Le diagramme ci-dessous démontre la gestion spécialisée des jetons lorsque extended thinking est activé :

    Diagramme de la fenêtre de contexte avec extended thinking

    La fenêtre de contexte effective est calculée comme :

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Nous recommandons d'utiliser l'API de comptage des jetons pour obtenir des comptages de jetons précis pour votre cas d'usage spécifique, en particulier lorsque vous travaillez avec des conversations multi-tours qui incluent thinking.

    La fenêtre de contexte avec extended thinking et utilisation d'outils

    Lors de l'utilisation de extended thinking avec utilisation d'outils, les blocs de thinking doivent être explicitement préservés et retournés avec les résultats des outils.

    Le calcul de la fenêtre de contexte effective pour extended thinking avec utilisation d'outils devient :

    context window =
      (current input tokens + previous thinking tokens + tool use tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Le diagramme ci-dessous illustre la gestion des jetons pour extended thinking avec utilisation d'outils :

    Diagramme de la fenêtre de contexte avec extended thinking et utilisation d'outils

    Gestion des jetons avec extended thinking

    Compte tenu du comportement de la fenêtre de contexte et de max_tokens avec extended thinking pour les modèles Claude 3.7 et 4, vous devrez peut-être :

    • Surveiller et gérer plus activement votre utilisation des jetons
    • Ajuster les valeurs max_tokens à mesure que la longueur de votre invite change
    • Potentiellement utiliser les points de terminaison de comptage des jetons plus fréquemment
    • Être conscient que les blocs de thinking précédents ne s'accumulent pas dans votre fenêtre de contexte

    Ce changement a été apporté pour fournir un comportement plus prévisible et transparent, en particulier à mesure que les limites de jetons maximaux ont augmenté de manière significative.

    Jetons max et taille de la fenêtre de contexte avec la réflexion étendue

    Dans les anciens modèles Claude (antérieurs à Claude Sonnet 3.7), si la somme des jetons d'invite et de max_tokens dépassait la fenêtre de contexte du modèle, le système ajustait automatiquement max_tokens pour s'adapter à la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens et le système la réduirait silencieusement selon les besoins.

    Avec les modèles Claude 3.7 et 4, max_tokens (qui inclut votre budget de réflexion lorsque la réflexion est activée) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si les jetons d'invite + max_tokens dépasse la taille de la fenêtre de contexte.

    Vous pouvez consulter notre guide sur les fenêtres de contexte pour une plongée plus approfondie.

    La fenêtre de contexte avec la réflexion étendue

    Lors du calcul de l'utilisation de la fenêtre de contexte avec la réflexion activée, il y a quelques considérations à connaître :

    • Les blocs de réflexion des tours précédents sont supprimés et ne sont pas comptabilisés dans votre fenêtre de contexte
    • La réflexion du tour actuel compte vers votre limite max_tokens pour ce tour

    Le diagramme ci-dessous illustre la gestion spécialisée des jetons lorsque la réflexion étendue est activée :

    Diagramme de la fenêtre de contexte avec réflexion étendue

    La fenêtre de contexte effective est calculée comme suit :

    context window =
      (current input tokens - previous thinking tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Nous recommandons d'utiliser l'API de comptage des jetons pour obtenir des comptages de jetons précis pour votre cas d'usage spécifique, en particulier lorsque vous travaillez avec des conversations multi-tours qui incluent la réflexion.

    La fenêtre de contexte avec la réflexion étendue et l'utilisation d'outils

    Lors de l'utilisation de la réflexion étendue avec l'utilisation d'outils, les blocs de réflexion doivent être explicitement préservés et retournés avec les résultats des outils.

    Le calcul de la fenêtre de contexte effective pour la réflexion étendue avec utilisation d'outils devient :

    context window =
      (current input tokens + previous thinking tokens + tool use tokens) +
      (thinking tokens + encrypted thinking tokens + text output tokens)

    Le diagramme ci-dessous illustre la gestion des jetons pour la réflexion étendue avec utilisation d'outils :

    Diagramme de la fenêtre de contexte avec réflexion étendue et utilisation d'outils

    Gestion des jetons avec la réflexion étendue

    Compte tenu du comportement de la fenêtre de contexte et de max_tokens avec la réflexion étendue pour les modèles Claude 3.7 et 4, vous devrez peut-être :

    • Surveiller et gérer plus activement votre utilisation des jetons
    • Ajuster les valeurs max_tokens à mesure que la longueur de votre invite change
    • Potentiellement utiliser les points de terminaison de comptage des jetons plus fréquemment
    • Être conscient que les blocs de réflexion précédents ne s'accumulent pas dans votre fenêtre de contexte

    Ce changement a été apporté pour fournir un comportement plus prévisible et transparent, en particulier à mesure que les limites de jetons maximaux ont augmenté considérablement.

    Chiffrement de la réflexion

    Le contenu complet de la réflexion est chiffré et retourné dans le champ signature. Ce champ est utilisé pour vérifier que les blocs de réflexion ont été générés par Claude lorsqu'ils sont renvoyés à l'API.

    Il n'est strictement nécessaire de renvoyer les blocs de réflexion que lors de l'utilisation d'outils avec réflexion étendue. Sinon, vous pouvez omettre les blocs de réflexion des tours précédents, ou laisser l'API les supprimer pour vous si vous les renvoyez.

    Si vous renvoyez des blocs de réflexion, nous recommandons de renvoyer tout tel que vous l'avez reçu pour la cohérence et pour éviter les problèmes potentiels.

    Voici quelques considérations importantes sur le chiffrement de la réflexion :

    • Lors du streaming des réponses, la signature est ajoutée via un signature_delta à l'intérieur d'un événement content_block_delta juste avant l'événement content_block_stop.
    • Les valeurs signature sont considérablement plus longues dans les modèles Claude 4 que dans les modèles précédents.
    • Le champ signature est un champ opaque et ne doit pas être interprété ou analysé - il existe uniquement à des fins de vérification.
    • Les valeurs signature sont compatibles entre les plates-formes (APIs Claude, Amazon Bedrock, et Vertex AI). Les valeurs générées sur une plate-forme seront compatibles avec une autre.

    Rédaction de la réflexion

    Occasionnellement, le raisonnement interne de Claude sera signalé par nos systèmes de sécurité. Lorsque cela se produit, nous chiffrons une partie ou la totalité du bloc thinking et le retournons sous la forme d'un bloc redacted_thinking. Les blocs redacted_thinking sont déchiffrés lorsqu'ils sont renvoyés à l'API, permettant à Claude de continuer sa réponse sans perdre le contexte.

    Lors de la création d'applications orientées client qui utilisent la réflexion étendue :

    • Soyez conscient que les blocs de réflexion rédactés contiennent du contenu chiffré qui n'est pas lisible par l'homme
    • Envisagez de fournir une explication simple comme : « Une partie du raisonnement interne de Claude a été automatiquement chiffrée pour des raisons de sécurité. Cela n'affecte pas la qualité des réponses. »
    • Si vous montrez les blocs de réflexion aux utilisateurs, vous pouvez filtrer les blocs rédactés tout en préservant les blocs de réflexion normaux
    • Soyez transparent sur le fait que l'utilisation des fonctionnalités de réflexion étendue peut occasionnellement entraîner le chiffrement d'une partie du raisonnement
    • Implémentez une gestion d'erreur appropriée pour gérer gracieusement la réflexion rédactée sans casser votre interface utilisateur

    Voici un exemple montrant à la fois les blocs de réflexion normaux et rédactés :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Voir des blocs de réflexion rédactés dans votre sortie est un comportement attendu. Le modèle peut toujours utiliser ce raisonnement rédacté pour informer ses réponses tout en maintenant les garde-fous de sécurité.

    Si vous devez tester la gestion de la réflexion rédactée dans votre application, vous pouvez utiliser cette chaîne de test spéciale comme invite : ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    Lors du passage des blocs thinking et redacted_thinking à l'API dans une conversation multi-tours, vous devez inclure le bloc complet non modifié à l'API pour le dernier tour d'assistant. Ceci est critique pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours renvoyer tous les blocs de réflexion à l'API. Pour plus de détails, consultez la section Préservation des blocs de réflexion ci-dessus.

    Rédaction de la réflexion

    Occasionnellement, le raisonnement interne de Claude sera signalé par nos systèmes de sécurité. Lorsque cela se produit, nous chiffrons une partie ou la totalité du bloc thinking et le retournons sous la forme d'un bloc redacted_thinking. Les blocs redacted_thinking sont déchiffrés lorsqu'ils sont renvoyés à l'API, permettant à Claude de continuer sa réponse sans perdre le contexte.

    Lors de la création d'applications orientées client qui utilisent la réflexion étendue :

    • Soyez conscient que les blocs de réflexion rédactés contiennent du contenu chiffré qui n'est pas lisible par l'homme
    • Envisagez de fournir une explication simple comme : « Une partie du raisonnement interne de Claude a été automatiquement chiffrée pour des raisons de sécurité. Cela n'affecte pas la qualité des réponses. »
    • Si vous montrez les blocs de réflexion aux utilisateurs, vous pouvez filtrer les blocs rédactés tout en préservant les blocs de réflexion normaux
    • Soyez transparent sur le fait que l'utilisation des fonctionnalités de réflexion étendue peut occasionnellement entraîner le chiffrement d'une partie du raisonnement
    • Implémentez une gestion d'erreur appropriée pour gérer gracieusement la réflexion rédactée sans casser votre interface utilisateur

    Voici un exemple montrant à la fois les blocs de réflexion normaux et rédactés :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Voir des blocs de réflexion rédactés dans votre sortie est un comportement attendu. Le modèle peut toujours utiliser ce raisonnement rédacté pour informer ses réponses tout en maintenant les garde-fous de sécurité.

    Si vous devez tester la gestion de la réflexion rédactée dans votre application, vous pouvez utiliser cette chaîne de test spéciale comme invite : ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    Lors du passage des blocs thinking et redacted_thinking à l'API dans une conversation multi-tours, vous devez inclure le bloc complet non modifié à l'API pour le dernier tour d'assistant. Ceci est critique pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours renvoyer tous les blocs de réflexion à l'API. Pour plus de détails, consultez la section Préservation des blocs de réflexion ci-dessus.

    Différences de réflexion entre les versions de modèles

    L'API Messages gère la réflexion différemment selon les modèles Claude Sonnet 3.7 et Claude 4, principalement dans le comportement de rédaction et de résumé.

    Consultez le tableau ci-dessous pour une comparaison condensée :

    FonctionnalitéClaude Sonnet 3.7Modèles Claude 4 (pré-Opus 4.5)Claude Opus 4.5 et versions ultérieures
    Sortie de réflexionRetourne la sortie de réflexion complèteRetourne la réflexion résuméeRetourne la réflexion résumée
    Réflexion entrelacéeNon supportéeSupportée avec l'en-tête bêta interleaved-thinking-2025-05-14Supportée avec l'en-tête bêta interleaved-thinking-2025-05-14
    Préservation des blocs de réflexionNon préservée entre les toursNon préservée entre les toursPréservée par défaut (active l'optimisation du cache, les économies de jetons)

    Rédaction de la réflexion

    Occasionnellement, le raisonnement interne de Claude sera signalé par nos systèmes de sécurité. Lorsque cela se produit, nous chiffrons une partie ou la totalité du bloc thinking et le retournons sous la forme d'un bloc redacted_thinking. Les blocs redacted_thinking sont déchiffrés lorsqu'ils sont renvoyés à l'API, permettant à Claude de continuer sa réponse sans perdre le contexte.

    Lors de la création d'applications orientées client qui utilisent la réflexion étendue :

    • Soyez conscient que les blocs de réflexion rédactés contiennent du contenu chiffré qui n'est pas lisible par l'homme
    • Envisagez de fournir une explication simple comme : « Une partie du raisonnement interne de Claude a été automatiquement chiffrée pour des raisons de sécurité. Cela n'affecte pas la qualité des réponses. »
    • Si vous montrez les blocs de réflexion aux utilisateurs, vous pouvez filtrer les blocs rédactés tout en préservant les blocs de réflexion normaux
    • Soyez transparent sur le fait que l'utilisation des fonctionnalités de réflexion étendue peut occasionnellement entraîner le chiffrement d'une partie du raisonnement
    • Implémentez une gestion d'erreur appropriée pour gérer gracieusement la réflexion rédactée sans casser votre interface utilisateur

    Voici un exemple montrant à la fois les blocs de réflexion normaux et rédactés :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Voir des blocs de réflexion rédactés dans votre sortie est un comportement attendu. Le modèle peut toujours utiliser ce raisonnement rédacté pour informer ses réponses tout en maintenant les garde-fous de sécurité.

    Si vous devez tester la gestion de la réflexion rédactée dans votre application, vous pouvez utiliser cette chaîne de test spéciale comme invite : ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    Lors du passage des blocs thinking et redacted_thinking à l'API dans une conversation multi-tours, vous devez inclure le bloc complet non modifié à l'API pour le dernier tour d'assistant. Ceci est critique pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours renvoyer tous les blocs de réflexion à l'API. Pour plus de détails, consultez la section Préservation des blocs de réflexion ci-dessus.

    Différences de réflexion entre les versions de modèles

    L'API Messages gère la réflexion différemment selon les modèles Claude Sonnet 3.7 et Claude 4, principalement dans le comportement de rédaction et de résumé.

    Consultez le tableau ci-dessous pour une comparaison condensée :

    FonctionnalitéClaude Sonnet 3.7Modèles Claude 4 (pré-Opus 4.5)Claude Opus 4.5 et versions ultérieures
    Sortie de réflexionRetourne la sortie de réflexion complèteRetourne la réflexion résuméeRetourne la réflexion résumée
    Réflexion entrelacéeNon supportéeSupportée avec l'en-tête bêta interleaved-thinking-2025-05-14Supportée avec l'en-tête bêta interleaved-thinking-2025-05-14
    Préservation des blocs de réflexionNon préservée entre les toursNon préservée entre les toursPréservée par défaut (active l'optimisation du cache, les économies de jetons)

    Préservation des blocs de réflexion dans Claude Opus 4.5

    Claude Opus 4.5 introduit un nouveau comportement par défaut : les blocs de réflexion des tours d'assistant précédents sont préservés dans le contexte du modèle par défaut. Cela diffère des modèles antérieurs, qui supprimaient les blocs de réflexion des tours précédents.

    Avantages de la préservation des blocs de réflexion :

    • Optimisation du cache : Lors de l'utilisation d'outils, les blocs de réflexion préservés permettent les accès au cache car ils sont renvoyés avec les résultats des outils et mis en cache de manière incrémentale dans le tour d'assistant, ce qui entraîne des économies de jetons dans les flux de travail multi-étapes
    • Aucun impact sur l'intelligence : La préservation des blocs de réflexion n'a aucun effet négatif sur les performances du modèle

    Considérations importantes :

    • Utilisation du contexte : Les conversations longues consommeront plus d'espace de contexte puisque les blocs de réflexion sont conservés dans le contexte
    • Comportement automatique : C'est le comportement par défaut pour Claude Opus 4.5 - aucune modification de code ou en-têtes bêta requis
    • Compatibilité rétroactive : Pour tirer parti de cette fonctionnalité, continuez à renvoyer les blocs de réflexion complets et non modifiés à l'API comme vous le feriez pour l'utilisation d'outils

    Pour les modèles antérieurs (Claude Sonnet 4.5, Opus 4.1, etc.), les blocs de réflexion des tours précédents continuent à être supprimés du contexte. Le comportement existant décrit dans la section Réflexion étendue avec mise en cache des invites s'applique à ces modèles.

    Rédaction de la réflexion

    Occasionnellement, le raisonnement interne de Claude sera signalé par nos systèmes de sécurité. Lorsque cela se produit, nous chiffrons une partie ou la totalité du bloc thinking et le renvoyons sous la forme d'un bloc redacted_thinking. Les blocs redacted_thinking sont déchiffrés lorsqu'ils sont renvoyés à l'API, permettant à Claude de continuer sa réponse sans perdre le contexte.

    Lors de la création d'applications orientées client qui utilisent la réflexion étendue :

    • Soyez conscient que les blocs de réflexion rédactés contiennent du contenu chiffré qui n'est pas lisible par l'homme
    • Envisagez de fournir une explication simple comme : « Une partie du raisonnement interne de Claude a été automatiquement chiffrée pour des raisons de sécurité. Cela n'affecte pas la qualité des réponses. »
    • Si vous montrez les blocs de réflexion aux utilisateurs, vous pouvez filtrer les blocs rédactés tout en préservant les blocs de réflexion normaux
    • Soyez transparent sur le fait que l'utilisation des fonctionnalités de réflexion étendue peut occasionnellement entraîner le chiffrement d'une partie du raisonnement
    • Implémentez une gestion des erreurs appropriée pour gérer gracieusement la réflexion rédactée sans casser votre interface utilisateur

    Voici un exemple montrant à la fois les blocs de réflexion normaux et rédactés :

    {
      "content": [
        {
          "type": "thinking",
          "thinking": "Let me analyze this step by step...",
          "signature": "WaUjzkypQ2mUEVM36O2TxuC06KN8xyfbJwyem2dw3URve/op91XWHOEBLLqIOMfFG/UvLEczmEsUjavL...."
        },
        {
          "type": "redacted_thinking",
          "data": "EmwKAhgBEgy3va3pzix/LafPsn4aDFIT2Xlxh0L5L8rLVyIwxtE3rAFBa8cr3qpPkNRj2YfWXGmKDxH4mPnZ5sQ7vB9URj2pLmN3kF8/dW5hR7xJ0aP1oLs9yTcMnKVf2wRpEGjH9XZaBt4UvDcPrQ..."
        },
        {
          "type": "text",
          "text": "Based on my analysis..."
        }
      ]
    }

    Voir des blocs de réflexion rédactés dans votre sortie est un comportement attendu. Le modèle peut toujours utiliser ce raisonnement rédacté pour éclairer ses réponses tout en maintenant les garde-fous de sécurité.

    Si vous devez tester la gestion de la réflexion rédactée dans votre application, vous pouvez utiliser cette chaîne de test spéciale comme invite : ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB

    Lors du passage des blocs thinking et redacted_thinking à l'API dans une conversation multi-tours, vous devez inclure le bloc complet et non modifié à l'API pour le dernier tour d'assistant. Ceci est critique pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours renvoyer tous les blocs de réflexion à l'API. Pour plus de détails, consultez la section Préservation des blocs de réflexion ci-dessus.

    Différences de réflexion entre les versions de modèle

    L'API Messages gère la réflexion différemment selon les modèles Claude Sonnet 3.7 et Claude 4, principalement dans le comportement de rédaction et de résumé.

    Consultez le tableau ci-dessous pour une comparaison condensée :

    FonctionnalitéClaude Sonnet 3.7Modèles Claude 4 (pré-Opus 4.5)Claude Opus 4.5 et versions ultérieures
    Sortie de réflexionRetourne la sortie de réflexion complèteRetourne la réflexion résuméeRetourne la réflexion résumée
    Réflexion entrelacéeNon pris en chargePris en charge avec l'en-tête bêta interleaved-thinking-2025-05-14Pris en charge avec l'en-tête bêta interleaved-thinking-2025-05-14
    Préservation du bloc de réflexionNon préservé entre les toursNon préservé entre les toursPréservé par défaut (active l'optimisation du cache, économies de jetons)

    Préservation du bloc de réflexion dans Claude Opus 4.5

    Claude Opus 4.5 introduit un nouveau comportement par défaut : les blocs de réflexion des tours d'assistant précédents sont préservés dans le contexte du modèle par défaut. Cela diffère des modèles antérieurs, qui suppriment les blocs de réflexion des tours précédents.

    Avantages de la préservation des blocs de réflexion :

    • Optimisation du cache : Lors de l'utilisation de l'utilisation d'outils, les blocs de réflexion préservés permettent les accès au cache car ils sont renvoyés avec les résultats des outils et mis en cache de manière incrémentale dans le tour d'assistant, ce qui entraîne des économies de jetons dans les flux de travail multi-étapes
    • Aucun impact sur l'intelligence : La préservation des blocs de réflexion n'a aucun effet négatif sur les performances du modèle

    Considérations importantes :

    • Utilisation du contexte : Les conversations longues consommeront plus d'espace de contexte puisque les blocs de réflexion sont conservés dans le contexte
    • Comportement automatique : C'est le comportement par défaut pour Claude Opus 4.5 — aucune modification de code ou en-tête bêta requis
    • Compatibilité rétroactive : Pour exploiter cette fonctionnalité, continuez à renvoyer les blocs de réflexion complets et non modifiés à l'API comme vous le feriez pour l'utilisation d'outils

    Pour les modèles antérieurs (Claude Sonnet 4.5, Opus 4.1, etc.), les blocs de réflexion des tours précédents continuent d'être supprimés du contexte. Le comportement existant décrit dans la section Réflexion étendue avec mise en cache des invites s'applique à ces modèles.

    Tarification

    Pour obtenir des informations complètes sur les tarifs, y compris les tarifs de base, les écritures en cache, les accès au cache et les jetons de sortie, consultez la page de tarification.

    Le processus de réflexion entraîne des frais pour :

    • Les jetons utilisés pendant la réflexion (jetons de sortie)
    • Les blocs de réflexion du dernier tour d'assistant inclus dans les demandes ultérieures (jetons d'entrée)
    • Les jetons de sortie de texte standard

    Lorsque la réflexion étendue est activée, une invite système spécialisée est automatiquement incluse pour prendre en charge cette fonctionnalité.

    Lors de l'utilisation de la réflexion résumée :

    • Jetons d'entrée : Jetons dans votre demande d'origine (exclut les jetons de réflexion des tours précédents)
    • Jetons de sortie (facturés) : Les jetons de réflexion d'origine que Claude a générés en interne
    • Jetons de sortie (visibles) : Les jetons de réflexion résumés que vous voyez dans la réponse
    • Aucun frais : Jetons utilisés pour générer le résumé

    Le nombre de jetons de sortie facturés ne correspondra pas au nombre de jetons visibles dans la réponse. Vous êtes facturé pour l'ensemble du processus de réflexion, pas le résumé que vous voyez.

    Meilleures pratiques et considérations pour la réflexion étendue

    Meilleures pratiques et considérations pour la réflexion étendue

    Travailler avec les budgets de réflexion

    • Optimisation du budget : Le budget minimum est de 1 024 jetons. Nous suggérons de commencer par le minimum et d'augmenter le budget de réflexion de manière progressive pour trouver la plage optimale pour votre cas d'usage. Des nombres de jetons plus élevés permettent un raisonnement plus complet mais avec des rendements décroissants selon la tâche. L'augmentation du budget peut améliorer la qualité des réponses au détriment d'une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l'équilibre optimal. Notez que le budget de réflexion est une cible plutôt qu'une limite stricte — l'utilisation réelle des jetons peut varier selon la tâche.
    • Points de départ : Commencez avec des budgets de réflexion plus importants (16k+ jetons) pour les tâches complexes et ajustez en fonction de vos besoins.
    • Budgets importants : Pour les budgets de réflexion supérieurs à 32k, nous recommandons d'utiliser le traitement par lots pour éviter les problèmes de réseau. Les demandes poussant le modèle à réfléchir au-dessus de 32k jetons causent des demandes longues qui pourraient se heurter aux délais d'expiration du système et aux limites de connexion ouverte.
    • Suivi de l'utilisation des jetons : Surveillez l'utilisation des jetons de réflexion pour optimiser les coûts et les performances.

    Meilleures pratiques et considérations pour la réflexion étendue

    Travailler avec les budgets de réflexion

    • Optimisation du budget : Le budget minimum est de 1 024 jetons. Nous suggérons de commencer par le minimum et d'augmenter le budget de réflexion de manière progressive pour trouver la plage optimale pour votre cas d'usage. Des nombres de jetons plus élevés permettent un raisonnement plus complet mais avec des rendements décroissants selon la tâche. L'augmentation du budget peut améliorer la qualité des réponses au détriment d'une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l'équilibre optimal. Notez que le budget de réflexion est une cible plutôt qu'une limite stricte — l'utilisation réelle des jetons peut varier selon la tâche.
    • Points de départ : Commencez avec des budgets de réflexion plus importants (16k+ jetons) pour les tâches complexes et ajustez en fonction de vos besoins.
    • Budgets importants : Pour les budgets de réflexion supérieurs à 32k, nous recommandons d'utiliser le traitement par lots pour éviter les problèmes de réseau. Les demandes poussant le modèle à réfléchir au-dessus de 32k jetons causent des demandes longues qui pourraient se heurter aux délais d'expiration du système et aux limites de connexion ouverte.
    • Suivi de l'utilisation des jetons : Surveillez l'utilisation des jetons de réflexion pour optimiser les coûts et les performances.

    Considérations de performance

    • Temps de réponse : Soyez préparé à des temps de réponse potentiellement plus longs en raison du traitement supplémentaire requis pour le processus de raisonnement. Tenez compte du fait que la génération de blocs de réflexion peut augmenter le temps de réponse global.
    • Exigences de diffusion en continu : La diffusion en continu est requise lorsque max_tokens est supérieur à 21 333. Lors de la diffusion en continu, soyez préparé à gérer à la fois les blocs de contenu de réflexion et de texte à mesure qu'ils arrivent.

    Meilleures pratiques et considérations pour la réflexion étendue

    Travailler avec les budgets de réflexion

    • Optimisation du budget : Le budget minimum est de 1 024 jetons. Nous suggérons de commencer par le minimum et d'augmenter le budget de réflexion de manière progressive pour trouver la plage optimale pour votre cas d'usage. Des nombres de jetons plus élevés permettent un raisonnement plus complet mais avec des rendements décroissants selon la tâche. L'augmentation du budget peut améliorer la qualité des réponses au détriment d'une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l'équilibre optimal. Notez que le budget de réflexion est une cible plutôt qu'une limite stricte — l'utilisation réelle des jetons peut varier selon la tâche.
    • Points de départ : Commencez avec des budgets de réflexion plus importants (16k+ jetons) pour les tâches complexes et ajustez en fonction de vos besoins.
    • Budgets importants : Pour les budgets de réflexion supérieurs à 32k, nous recommandons d'utiliser le traitement par lots pour éviter les problèmes de réseau. Les demandes poussant le modèle à réfléchir au-dessus de 32k jetons causent des demandes longues qui pourraient se heurter aux délais d'expiration du système et aux limites de connexion ouverte.
    • Suivi de l'utilisation des jetons : Surveillez l'utilisation des jetons de réflexion pour optimiser les coûts et les performances.

    Compatibilité des fonctionnalités

    • La réflexion n'est pas compatible avec les modifications temperature ou top_k ainsi qu'avec l'utilisation forcée d'outils.
    • Lorsque la réflexion est activée, vous pouvez définir top_p sur des valeurs entre 1 et 0,95.
    • Vous ne pouvez pas pré-remplir les réponses lorsque la réflexion est activée.
    • Les modifications du budget de réflexion invalident les préfixes d'invite mis en cache qui incluent des messages. Cependant, les invites système mises en cache et les définitions d'outils continueront à fonctionner lorsque les paramètres de réflexion changent.

    Meilleures pratiques et considérations pour la réflexion étendue

    Travailler avec les budgets de réflexion

    • Optimisation du budget : Le budget minimum est de 1 024 jetons. Nous suggérons de commencer par le minimum et d'augmenter le budget de réflexion de manière progressive pour trouver la plage optimale pour votre cas d'usage. Des nombres de jetons plus élevés permettent un raisonnement plus complet mais avec des rendements décroissants selon la tâche. L'augmentation du budget peut améliorer la qualité des réponses au détriment d'une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l'équilibre optimal. Notez que le budget de réflexion est une cible plutôt qu'une limite stricte — l'utilisation réelle des jetons peut varier selon la tâche.
    • Points de départ : Commencez avec des budgets de réflexion plus importants (16k+ jetons) pour les tâches complexes et ajustez en fonction de vos besoins.
    • Budgets importants : Pour les budgets de réflexion supérieurs à 32k, nous recommandons d'utiliser le traitement par lots pour éviter les problèmes de réseau. Les demandes poussant le modèle à réfléchir au-dessus de 32k jetons causent des demandes longues qui pourraient se heurter aux délais d'expiration du système et aux limites de connexion ouverte.
    • Suivi de l'utilisation des jetons : Surveillez l'utilisation des jetons de réflexion pour optimiser les coûts et les performances.

    Considérations de performance

    • Temps de réponse : Soyez préparé à des temps de réponse potentiellement plus longs en raison du traitement supplémentaire requis pour le processus de raisonnement. Tenez compte du fait que la génération de blocs de réflexion peut augmenter le temps de réponse global.
    • Exigences de diffusion en continu : La diffusion en continu est requise lorsque max_tokens est supérieur à 21 333. Lors de la diffusion en continu, soyez préparé à gérer à la fois les blocs de contenu de réflexion et de texte à mesure qu'ils arrivent.

    Compatibilité des fonctionnalités

    • La réflexion n'est pas compatible avec les modifications temperature ou top_k ainsi qu'avec l'utilisation forcée d'outils.
    • Lorsque la réflexion est activée, vous pouvez définir top_p sur des valeurs entre 1 et 0,95.
    • Vous ne pouvez pas pré-remplir les réponses lorsque la réflexion est activée.
    • Les modifications du budget de réflexion invalident les préfixes d'invite mis en cache qui incluent des messages. Cependant, les invites système mises en cache et les définitions d'outils continueront à fonctionner lorsque les paramètres de réflexion changent.

    Directives d'utilisation

    • Sélection des tâches : Utilisez la réflexion étendue pour les tâches particulièrement complexes qui bénéficient d'un raisonnement étape par étape comme les mathématiques, le codage et l'analyse.
    • Gestion du contexte : Vous n'avez pas besoin de supprimer vous-même les blocs de réflexion précédents. L'API Claude ignore automatiquement les blocs de réflexion des tours précédents et ils ne sont pas inclus lors du calcul de l'utilisation du contexte.
    • Ingénierie des invites : Consultez nos conseils d'ingénierie des invites de réflexion étendue si vous souhaitez maximiser les capacités de réflexion de Claude.

    Meilleures pratiques et considérations pour la réflexion étendue

    Travailler avec les budgets de réflexion

    • Optimisation du budget : Le budget minimum est de 1 024 jetons. Nous suggérons de commencer par le minimum et d'augmenter le budget de réflexion de manière progressive pour trouver la plage optimale pour votre cas d'usage. Des nombres de jetons plus élevés permettent un raisonnement plus complet mais avec des rendements décroissants selon la tâche. L'augmentation du budget peut améliorer la qualité des réponses au détriment d'une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l'équilibre optimal. Notez que le budget de réflexion est une cible plutôt qu'une limite stricte — l'utilisation réelle des jetons peut varier selon la tâche.
    • Points de départ : Commencez avec des budgets de réflexion plus importants (16k+ jetons) pour les tâches complexes et ajustez en fonction de vos besoins.
    • Budgets importants : Pour les budgets de réflexion supérieurs à 32k, nous recommandons d'utiliser le traitement par lots pour éviter les problèmes de réseau. Les demandes poussant le modèle à réfléchir au-dessus de 32k jetons causent des demandes longues qui pourraient se heurter aux délais d'expiration du système et aux limites de connexion ouverte.
    • Suivi de l'utilisation des jetons : Surveillez l'utilisation des jetons de réflexion pour optimiser les coûts et les performances.

    Considérations de performance

    • Temps de réponse : Soyez préparé à des temps de réponse potentiellement plus longs en raison du traitement supplémentaire requis pour le processus de raisonnement. Tenez compte du fait que la génération de blocs de réflexion peut augmenter le temps de réponse global.
    • Exigences de diffusion en continu : La diffusion en continu est requise lorsque max_tokens est supérieur à 21 333. Lors de la diffusion en continu, soyez préparé à gérer à la fois les blocs de contenu de réflexion et de texte à mesure qu'ils arrivent.

    Compatibilité des fonctionnalités

    • La réflexion n'est pas compatible avec les modifications temperature ou top_k ainsi qu'avec l'utilisation forcée d'outils.
    • Lorsque la réflexion est activée, vous pouvez définir top_p sur des valeurs entre 1 et 0,95.
    • Vous ne pouvez pas pré-remplir les réponses lorsque la réflexion est activée.
    • Les modifications du budget de réflexion invalident les préfixes d'invite mis en cache qui incluent des messages. Cependant, les invites système mises en cache et les définitions d'outils continueront à fonctionner lorsque les paramètres de réflexion changent.

    Directives d'utilisation

    • Sélection des tâches : Utilisez la réflexion étendue pour les tâches particulièrement complexes qui bénéficient d'un raisonnement étape par étape comme les mathématiques, le codage et l'analyse.
    • Gestion du contexte : Vous n'avez pas besoin de supprimer vous-même les blocs de réflexion précédents. L'API Claude ignore automatiquement les blocs de réflexion des tours précédents et ils ne sont pas inclus lors du calcul de l'utilisation du contexte.
    • Ingénierie des invites : Consultez nos conseils d'ingénierie des invites de réflexion étendue si vous souhaitez maximiser les capacités de réflexion de Claude.

    Étapes suivantes

    Essayer le livre de cuisine de réflexion étendue
    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
            }
        ]
    }'
    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
            }
        ]
    }'
    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
            }
        ]
    }'
    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "stream": true,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "What is 27 * 453?"
            }
        ]
    }'
    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
            }
        ]
    }'
    curl https://api.anthropic.com/v1/messages \
         --header "x-api-key: $ANTHROPIC_API_KEY" \
         --header "anthropic-version: 2023-06-01" \
         --header "content-type: application/json" \
         --data \
    '{
        "model": "claude-sonnet-4-5",
        "max_tokens": 16000,
        "stream": true,
        "thinking": {
            "type": "enabled",
            "budget_tokens": 10000
        },
        "messages": [
            {
                "role": "user",
                "content": "What is 27 * 453?"
            }
        ]
    }'

    Explorez des exemples pratiques de réflexion dans notre livre de cuisine.

    Conseils d'ingénierie des invites de réflexion étendue

    Apprenez les meilleures pratiques d'ingénierie des invites pour la réflexion étendue.