Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.6Guide de migrationDépréciation des modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesGérer les raisons d'arrêtBonnes pratiques de prompting
    Capacités du modèle
    Extended thinkingAdaptive thinkingEffortMode rapide (aperçu de recherche)Sorties structuréesCitationsStreaming de messagesTraitement par lotsSupport PDFRésultats de rechercheSupport multilingueEmbeddingsVision
    Outils
    AperçuComment implémenter l'utilisation d'outilsOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil de mémoireOutil BashOutil Computer useOutil d'éditeur de texte
    Infrastructure d'outils
    Recherche d'outilsAppel d'outils programmatiqueStreaming d'outils à granularité fine
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexteMise en cache des promptsComptage des tokens
    Fichiers et ressources
    API Files
    Agent Skills
    AperçuDémarrage rapideBonnes pratiquesSkills pour l'entrepriseUtiliser Skills avec l'API
    Agent SDK
    AperçuDémarrage rapideSDK TypeScriptTypeScript V2 (aperçu)SDK PythonGuide de migration
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur des plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-shots)Laisser Claude réfléchir (CoT)Utiliser des balises XMLDonner un rôle à Claude (prompts système)Chaîner des prompts complexesConseils pour le contexte longConseils pour extended thinking
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminRésidence des donnéesEspaces de travailAPI d'utilisation et de coûtsAPI Claude Code AnalyticsZéro rétention de données
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Gestion du contexte

    Fenêtres de contexte

    Comprendre et gérer les fenêtres de contexte pour les conversations longues et les flux de travail agentiques.

    À mesure que les conversations s'allongent, vous finirez par approcher les limites de la fenêtre de contexte. Ce guide explique comment fonctionnent les fenêtres de contexte et présente des stratégies pour les gérer efficacement.

    Pour les conversations longues et les flux de travail agentiques, la compaction côté serveur est la stratégie principale de gestion du contexte. Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.

    Comprendre la fenêtre de contexte

    La « fenêtre de contexte » fait référence à tout le texte qu'un modèle de langage peut référencer lors de la génération d'une réponse, y compris la réponse elle-même. Ceci est différent du grand corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une « mémoire de travail » pour le modèle. Une fenêtre de contexte plus grande permet au modèle de gérer des invites plus complexes et plus longues. Une fenêtre de contexte plus petite peut limiter la capacité du modèle à maintenir la cohérence sur des conversations prolongées.

    Le diagramme ci-dessous illustre le comportement standard de la fenêtre de contexte pour les demandes API1 :

    Diagramme de fenêtre de contexte

    1Pour les interfaces de chat, comme pour claude.ai, les fenêtres de contexte peuvent également être configurées sur un système roulant « premier entré, premier sorti ».

    • Accumulation progressive de jetons : À mesure que la conversation progresse à travers les tours, chaque message utilisateur et réponse d'assistant s'accumulent dans la fenêtre de contexte. Les tours précédents sont préservés complètement.
    • Modèle de croissance linéaire : L'utilisation du contexte croît linéairement avec chaque tour, les tours précédents étant préservés complètement.
    • Capacité de 200K jetons : La fenêtre de contexte totale disponible (200 000 jetons) représente la capacité maximale pour stocker l'historique des conversations et générer une nouvelle sortie de Claude.
    • Flux entrée-sortie : Chaque tour se compose de :
      • Phase d'entrée : Contient tout l'historique de conversation précédent plus le message utilisateur actuel
      • Phase de sortie : Génère une réponse textuelle qui devient partie d'une entrée future

    La fenêtre de contexte avec la réflexion étendue

    Lors de l'utilisation de la réflexion étendue, tous les jetons d'entrée et de sortie, y compris les jetons utilisés pour la réflexion, comptent vers la limite de la fenêtre de contexte, avec quelques nuances dans les situations multi-tours.

    Les jetons du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens, sont facturés comme des jetons de sortie et comptent vers les limites de débit. Avec la réflexion adaptative, Claude décide dynamiquement son allocation de réflexion, donc l'utilisation réelle des jetons de réflexion peut varier par demande.

    Cependant, les blocs de réflexion précédents sont automatiquement supprimés du calcul de la fenêtre de contexte par l'API Claude et ne font pas partie de l'historique de conversation que le modèle « voit » pour les tours suivants, préservant la capacité de jetons pour le contenu de conversation réel.

    Le diagramme ci-dessous démontre la gestion spécialisée des jetons lorsque la réflexion étendue est activée :

    Diagramme de fenêtre de contexte avec réflexion étendue

    • Suppression de la réflexion étendue : Les blocs de réflexion étendue (affichés en gris foncé) sont générés pendant la phase de sortie de chaque tour, mais ne sont pas reportés comme jetons d'entrée pour les tours suivants. Vous n'avez pas besoin de supprimer vous-même les blocs de réflexion. L'API Claude le fait automatiquement pour vous si vous les renvoyez.
    • Détails de mise en œuvre technique :
      • L'API exclut automatiquement les blocs de réflexion des tours précédents lorsque vous les renvoyez comme partie de l'historique de conversation.
      • Les jetons de réflexion étendue sont facturés comme des jetons de sortie une seule fois, lors de leur génération.
      • Le calcul effectif de la fenêtre de contexte devient : context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
      • Les jetons de réflexion incluent les blocs thinking.

    Cette architecture est efficace en jetons et permet un raisonnement étendu sans gaspillage de jetons, car les blocs de réflexion peuvent être substantiels en longueur.

    Vous pouvez en savoir plus sur la fenêtre de contexte et la réflexion étendue dans le guide de réflexion étendue.

    La fenêtre de contexte avec la réflexion étendue et l'utilisation d'outils

    Le diagramme ci-dessous illustre la gestion des jetons de la fenêtre de contexte lors de la combinaison de la réflexion étendue avec l'utilisation d'outils :

    Diagramme de fenêtre de contexte avec réflexion étendue et utilisation d'outils

    1. 1

      Architecture du premier tour

      • Composants d'entrée : Configuration des outils et message utilisateur
      • Composants de sortie : Réflexion étendue + réponse textuelle + demande d'utilisation d'outil
      • Calcul des jetons : Tous les composants d'entrée et de sortie comptent vers la fenêtre de contexte, et tous les composants de sortie sont facturés comme des jetons de sortie.
    2. 2

      Gestion des résultats d'outils (tour 2)

      • Composants d'entrée : Chaque bloc du premier tour ainsi que le tool_result. Le bloc de réflexion étendue doit être renvoyé avec les résultats d'outils correspondants. C'est le seul cas où vous devez renvoyer les blocs de réflexion.
      • Composants de sortie : Après que les résultats d'outils aient été renvoyés à Claude, Claude répondra avec seulement du texte (pas de réflexion étendue supplémentaire jusqu'au prochain message user).
      • Calcul des jetons : Tous les composants d'entrée et de sortie comptent vers la fenêtre de contexte, et tous les composants de sortie sont facturés comme des jetons de sortie.
    3. 3

      Troisième étape

      • Composants d'entrée : Toutes les entrées et la sortie du tour précédent sont reportées à l'exception du bloc de réflexion, qui peut être supprimé maintenant que Claude a complété le cycle d'utilisation d'outil entier. L'API supprimera automatiquement le bloc de réflexion pour vous si vous le renvoyez, ou vous pouvez librement le supprimer vous-même à ce stade. C'est aussi là où vous ajouteriez le prochain tour User.
      • Composants de sortie : Puisqu'il y a un nouveau tour User en dehors du cycle d'utilisation d'outil, Claude générera un nouveau bloc de réflexion étendue et continuera à partir de là.
      • Calcul des jetons : Les jetons de réflexion précédents sont automatiquement supprimés des calculs de fenêtre de contexte. Tous les autres blocs précédents comptent toujours comme partie de la fenêtre de jetons, et le bloc de réflexion dans le tour Assistant actuel compte comme partie de la fenêtre de contexte.
    • Considérations pour l'utilisation d'outils avec la réflexion étendue :
      • Lors de la publication des résultats d'outils, le bloc de réflexion inmodifié complet qui accompagne cette demande d'outil spécifique (y compris les portions de signature) doit être inclus.
      • Le calcul effectif de la fenêtre de contexte pour la réflexion étendue avec utilisation d'outils devient : context_window = input_tokens + current_turn_tokens.
      • Le système utilise des signatures cryptographiques pour vérifier l'authenticité du bloc de réflexion. Ne pas préserver les blocs de réflexion lors de l'utilisation d'outils peut briser la continuité du raisonnement de Claude. Ainsi, si vous modifiez les blocs de réflexion, l'API retournera une erreur.

    Les modèles Claude 4 supportent la réflexion entrelacée, qui permet à Claude de réfléchir entre les appels d'outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats d'outils.

    Claude Sonnet 3.7 ne supporte pas la réflexion entrelacée, donc il n'y a pas d'entrelacement de la réflexion étendue et des appels d'outils sans un tour utilisateur non-tool_result entre les deux.

    Pour plus d'informations sur l'utilisation d'outils avec la réflexion étendue, consultez le guide de réflexion étendue.

    Fenêtre de contexte de 1M jetons

    Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 et Sonnet 4 supportent une fenêtre de contexte de 1 million de jetons. Cette fenêtre de contexte étendue vous permet de traiter des documents beaucoup plus volumineux, de maintenir des conversations plus longues et de travailler avec des bases de code plus étendues.

    La fenêtre de contexte de 1M jetons est actuellement en bêta pour les organisations au niveau d'utilisation 4 et les organisations avec des limites de débit personnalisées. La fenêtre de contexte de 1M jetons n'est disponible que pour Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 et Sonnet 4.

    Pour utiliser la fenêtre de contexte de 1M jetons, incluez l'en-tête bêta context-1m-2025-08-07 dans vos demandes API :

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: context-1m-2025-08-07" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {"role": "user", "content": "Process this large document..."}
        ]
      }'

    Considérations importantes :

    • Statut bêta : Ceci est une fonctionnalité bêta sujette à modification. Les fonctionnalités et la tarification peuvent être modifiées ou supprimées dans les versions futures.
    • Exigence de niveau d'utilisation : La fenêtre de contexte de 1M jetons est disponible pour les organisations au niveau d'utilisation 4 et les organisations avec des limites de débit personnalisées. Les organisations de niveau inférieur doivent passer au niveau d'utilisation 4 pour accéder à cette fonctionnalité.
    • Disponibilité : La fenêtre de contexte de 1M jetons est actuellement disponible sur l'API Claude, Microsoft Foundry, Amazon Bedrock et Google Cloud's Vertex AI.
    • Tarification : Les demandes dépassant 200K jetons sont automatiquement facturées à des tarifs premium (2x entrée, 1,5x tarification de sortie). Consultez la documentation de tarification pour plus de détails.
    • Limites de débit : Les demandes de contexte long ont des limites de débit dédiées. Consultez la documentation des limites de débit pour plus de détails.
    • Considérations multimodales : Lors du traitement d'un grand nombre d'images ou de PDF, soyez conscient que les fichiers peuvent varier dans l'utilisation des jetons. Lors de l'appairage d'une grande invite avec un grand nombre d'images, vous pouvez atteindre les limites de taille de demande.

    Conscience du contexte dans Claude Sonnet 4.6, Sonnet 4.5 et Haiku 4.5

    Claude Sonnet 4.6, Claude Sonnet 4.5 et Claude Haiku 4.5 disposent de la conscience du contexte. Cette capacité permet à ces modèles de suivre leur fenêtre de contexte restante (c'est-à-dire leur « budget de jetons ») tout au long d'une conversation. Cela permet à Claude d'exécuter des tâches et de gérer le contexte plus efficacement en comprenant l'espace dont il dispose. Claude est entraîné à utiliser ce contexte avec précision, persévérant dans la tâche jusqu'à la toute fin plutôt que de deviner combien de jetons restent. Pour un modèle, manquer de conscience du contexte, c'est comme participer à un concours culinaire sans horloge. Les modèles Claude 4.5+ changent cela en informant explicitement le modèle sur son contexte restant, afin qu'il puisse tirer le maximum parti des jetons disponibles.

    Comment cela fonctionne :

    Au début d'une conversation, Claude reçoit des informations sur sa fenêtre de contexte totale :

    <budget:token_budget>200000</budget:token_budget>

    Le budget est défini à 200K jetons (standard), 500K jetons (claude.ai Enterprise) ou 1M jetons (bêta, pour les organisations éligibles).

    Après chaque appel d'outil, Claude reçoit une mise à jour sur la capacité restante :

    <system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

    Cette conscience aide Claude à déterminer la capacité restante pour le travail et permet une exécution plus efficace sur les tâches longues. Les jetons d'image sont inclus dans ces budgets.

    Avantages :

    La conscience du contexte est particulièrement précieuse pour :

    • Les sessions d'agent longues qui nécessitent une concentration soutenue
    • Les flux de travail multi-fenêtres de contexte où les transitions d'état sont importantes
    • Les tâches complexes nécessitant une gestion prudente des jetons

    Pour des conseils de suggestion sur l'exploitation de la conscience du contexte, consultez le guide des meilleures pratiques de suggestion.

    Gestion du contexte avec la compaction

    Si vos conversations approchent régulièrement les limites de la fenêtre de contexte, la compaction côté serveur est l'approche recommandée. La compaction fournit une résumé côté serveur qui condense automatiquement les parties antérieures d'une conversation, permettant les conversations longues au-delà des limites de contexte avec un travail d'intégration minimal. Elle est actuellement disponible en bêta pour Claude Opus 4.6.

    Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires :

    • Effacement des résultats d'outils - Effacer les anciens résultats d'outils dans les flux de travail agentiques
    • Effacement des blocs de réflexion - Gérer les blocs de réflexion avec la réflexion étendue

    Gestion de la fenêtre de contexte avec les nouveaux modèles Claude

    Les nouveaux modèles Claude (à partir de Claude Sonnet 3.7) retournent une erreur de validation lorsque les jetons d'invite et de sortie dépassent la fenêtre de contexte, plutôt que de tronquer silencieusement. Ce changement fournit un comportement plus prévisible mais nécessite une gestion des jetons plus prudente.

    Utilisez l'API de comptage des jetons pour estimer l'utilisation des jetons avant d'envoyer des messages à Claude. Cela vous aide à planifier et à rester dans les limites de la fenêtre de contexte.

    Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte par modèle.

    Prochaines étapes

    Compaction

    La stratégie recommandée pour gérer le contexte dans les conversations longues.

    Édition de contexte

    Stratégies granulaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.

    Tableau de comparaison des modèles

    Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte et de la tarification des jetons d'entrée/sortie par modèle.

    Aperçu de la réflexion étendue

    En savoir plus sur le fonctionnement de la réflexion étendue et comment l'implémenter aux côtés d'autres fonctionnalités telles que l'utilisation d'outils et la mise en cache des invites.

    Was this page helpful?

    • Comprendre la fenêtre de contexte
    • La fenêtre de contexte avec la réflexion étendue
    • La fenêtre de contexte avec la réflexion étendue et l'utilisation d'outils
    • Fenêtre de contexte de 1M jetons
    • Conscience du contexte dans Claude Sonnet 4.6, Sonnet 4.5 et Haiku 4.5
    • Gestion du contexte avec la compaction
    • Gestion de la fenêtre de contexte avec les nouveaux modèles Claude
    • Prochaines étapes