Claude Platform Docs
  • Messages
  • Agents gérés
  • Administration

Search...
⌘K
Premiers pas
Introduction à ClaudeDémarrage rapide
Développer avec Claude
Aperçu des fonctionnalitésUtilisation de l'API MessagesRaisons d'arrêt et repliRefus et repliCrédit de repli
Capacités du modèle
Réflexion étendueRéflexion adaptativeEffortBudgets de tâches (bêta)Mode rapide (aperçu de recherche)Sorties structuréesCitationsStreaming des messagesTraitement par lotsRésultats de rechercheStreaming des refusPrise en charge multilingueEmbeddings
Outils
AperçuFonctionnement de l'utilisation d'outilsTutoriel : Créer un agent utilisant des outilsDéfinir des outilsGérer les appels d'outilsUtilisation d'outils en parallèleTool Runner (SDK)Utilisation d'outils stricteUtilisation d'outils avec mise en cache des promptsOutils serveurDépannageOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil conseillerOutil de mémoireOutil BashOutil d'utilisation de l'ordinateurOutil d'éditeur de texte
Infrastructure des outils
Référence des outilsGérer le contexte des outilsCombinaisons d'outilsRecherche d'outilsAppel d'outils programmatiqueStreaming d'outils granulaire
Gestion du contexte
Fenêtres de contexteCompactageÉdition du contexteMise en cache des promptsMessages système en cours de conversationCréer un mode d'orchestrationDiagnostics de cache (bêta)Comptage de tokens
Travailler avec des fichiers
API FilesPrise en charge des PDFImages et vision
Compétences
AperçuDémarrage rapideBonnes pratiquesCompétences pour l'entrepriseCompétences dans l'API
MCP
Serveurs MCP distantsConnecteur MCP
Claude sur les plateformes cloud
Amazon BedrockAmazon Bedrock (ancien)Claude Platform sur AWSMicrosoft FoundryVertex AI

Log in
Fenêtres de contexte
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messages/Gestion du contexte

Fenêtres de contexte



Cette fonctionnalité est éligible à la Zero Data Retention (ZDR). Lorsque votre organisation dispose d'un accord ZDR, les données envoyées via cette fonctionnalité ne sont pas stockées après le retour de la réponse de l'API.

À mesure que les conversations s'allongent, vous finirez par approcher les limites de la fenêtre de contexte. Ce guide explique comment fonctionnent les fenêtres de contexte et présente des stratégies pour les gérer efficacement.

Pour les conversations de longue durée et les workflows agentiques, la compaction côté serveur est la stratégie principale de gestion du contexte. Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.

Comprendre la fenêtre de contexte

La « context window » (fenêtre de contexte) fait référence à l'ensemble du texte qu'un modèle de langage peut consulter lors de la génération d'une réponse, y compris la réponse elle-même. Ceci est différent du grand corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une « mémoire de travail » pour le modèle. Une fenêtre de contexte plus grande permet au modèle de traiter des prompts plus complexes et plus longs, mais plus de contexte n'est pas automatiquement synonyme de meilleurs résultats. À mesure que le nombre de tokens augmente, la précision et le rappel se dégradent, un phénomène connu sous le nom de context rot (dégradation du contexte). Cela rend la sélection de ce qui se trouve dans le contexte tout aussi importante que l'espace disponible.

Claude obtient des résultats de pointe sur les benchmarks de récupération en contexte long comme MRCR et GraphWalks, mais ces gains dépendent de ce qui se trouve dans le contexte, et pas seulement de la quantité qui y tient.



Pour une analyse approfondie des raisons pour lesquelles les contextes longs se dégradent et comment concevoir des solutions pour y remédier, consultez Effective context engineering.

Le diagramme ci-dessous illustre le comportement standard de la fenêtre de contexte pour les requêtes API1 :

Diagramme de la fenêtre de contexte

1Pour les interfaces de chat, comme claude.ai, les fenêtres de contexte peuvent également être configurées selon un système glissant « premier entré, premier sorti ».

  • Accumulation progressive des tokens : À mesure que la conversation progresse au fil des tours, chaque message utilisateur et chaque réponse de l'assistant s'accumulent dans la fenêtre de contexte. Les tours précédents sont conservés intégralement.
  • Schéma de croissance linéaire : L'utilisation du contexte croît linéairement à chaque tour, les tours précédents étant conservés intégralement.
  • Capacité de la fenêtre de contexte : La fenêtre de contexte totale disponible (jusqu'à 1 million de tokens) représente la capacité maximale pour stocker l'historique de conversation et générer une nouvelle sortie de Claude.
  • Flux entrée-sortie : Chaque tour se compose de :
    • Phase d'entrée : Contient tout l'historique de conversation précédent plus le message utilisateur actuel.
    • Phase de sortie : Génère une réponse textuelle qui devient une partie d'une entrée future.

La fenêtre de contexte avec la réflexion étendue

Lors de l'utilisation de la réflexion étendue, tous les tokens d'entrée et de sortie, y compris les tokens utilisés pour la réflexion, comptent dans la limite de la fenêtre de contexte, avec quelques nuances dans les situations multi-tours.

Les tokens du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens, sont facturés comme des tokens de sortie et comptent dans les limites de débit. Avec la réflexion adaptative, Claude décide dynamiquement de son allocation de réflexion, de sorte que l'utilisation réelle des tokens de réflexion peut varier d'une requête à l'autre.

Cependant, les blocs de réflexion précédents sont automatiquement retirés du calcul de la fenêtre de contexte par l'API Claude et ne font pas partie de l'historique de conversation que le modèle « voit » pour les tours suivants, préservant ainsi la capacité en tokens pour le contenu réel de la conversation.

Le diagramme ci-dessous illustre la gestion spécialisée des tokens lorsque la réflexion étendue est activée :

Diagramme de la fenêtre de contexte avec réflexion étendue

  • Suppression de la réflexion étendue : Les blocs de réflexion étendue (affichés en gris foncé) sont générés pendant la phase de sortie de chaque tour, mais ne sont pas reportés comme tokens d'entrée pour les tours suivants. Vous n'avez pas besoin de supprimer les blocs de réflexion vous-même. L'API Claude le fait automatiquement pour vous si vous les renvoyez.
  • Détails d'implémentation technique :
    • L'API exclut automatiquement les blocs de réflexion des tours précédents lorsque vous les renvoyez dans le cadre de l'historique de conversation.
    • Les tokens de réflexion étendue ne sont facturés comme tokens de sortie qu'une seule fois, lors de leur génération.
    • Le calcul effectif de la fenêtre de contexte devient : context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
    • Les tokens de réflexion incluent les blocs thinking.

Cette architecture est efficace en termes de tokens et permet un raisonnement approfondi sans gaspillage de tokens, car les blocs de réflexion peuvent être de longueur substantielle.



Vous pouvez en savoir plus sur la fenêtre de contexte et la réflexion étendue dans le guide de la réflexion étendue.

La fenêtre de contexte avec la réflexion étendue et l'utilisation d'outils

Le diagramme ci-dessous illustre la gestion des tokens de la fenêtre de contexte lors de la combinaison de la réflexion étendue avec l'utilisation d'outils :

Diagramme de la fenêtre de contexte avec réflexion étendue et utilisation d'outils

  1. 1

    Architecture du premier tour

    • Composants d'entrée : Configuration des outils et message utilisateur.
    • Composants de sortie : Réflexion étendue + réponse textuelle + requête d'utilisation d'outil.
    • Calcul des tokens : Tous les composants d'entrée et de sortie comptent dans la fenêtre de contexte, et tous les composants de sortie sont facturés comme tokens de sortie.
  2. 2

    Traitement du résultat d'outil (tour 2)

    • Composants d'entrée : Chaque bloc du premier tour et le tool_result. Le bloc de réflexion étendue doit être renvoyé avec les résultats d'outil correspondants. C'est le seul cas où vous devez renvoyer les blocs de réflexion.
    • Composants de sortie : Une fois les résultats d'outil renvoyés à Claude, Claude répond uniquement avec du texte (pas de réflexion étendue supplémentaire jusqu'au prochain message user, sauf si la réflexion entrelacée est activée).
    • Calcul des tokens : Tous les composants d'entrée et de sortie comptent dans la fenêtre de contexte, et tous les composants de sortie sont facturés comme tokens de sortie.
  3. 3

    Nouveau tour utilisateur (tour 3)

    • Composants d'entrée : Toutes les entrées et la sortie du tour précédent sont reportées, à l'exception du bloc de réflexion, qui peut être supprimé maintenant que Claude a terminé l'intégralité du cycle d'utilisation d'outil. L'API supprimera automatiquement le bloc de réflexion pour vous si vous le renvoyez, ou vous pouvez le supprimer vous-même à ce stade. C'est également ici que vous ajouteriez le prochain tour user.
    • Composants de sortie : Comme il y a un nouveau tour user en dehors du cycle d'utilisation d'outil, Claude génère un nouveau bloc de réflexion étendue et continue à partir de là.
    • Calcul des tokens : Les tokens de réflexion précédents sont automatiquement retirés des calculs de la fenêtre de contexte. Tous les autres blocs précédents comptent toujours dans la fenêtre de tokens, et le bloc de réflexion du tour assistant actuel compte dans la fenêtre de contexte.
  • Considérations pour l'utilisation d'outils avec la réflexion étendue :
    • Lors de l'envoi des résultats d'outil, l'intégralité du bloc de réflexion non modifié qui accompagne cette requête d'outil spécifique (y compris les portions de signature) doit être incluse.
    • Le calcul effectif de la fenêtre de contexte pour la réflexion étendue avec utilisation d'outils devient : context_window = input_tokens + current_turn_tokens.
    • Le système utilise des signatures cryptographiques pour vérifier l'authenticité des blocs de réflexion. Ne pas préserver les blocs de réflexion pendant l'utilisation d'outils peut rompre la continuité du raisonnement de Claude. Ainsi, si vous modifiez les blocs de réflexion, l'API renvoie une erreur.


Les modèles Claude 4 prennent en charge la réflexion entrelacée, qui permet à Claude de réfléchir entre les appels d'outils et d'effectuer un raisonnement plus sophistiqué après avoir reçu les résultats d'outils.

Pour plus d'informations sur l'utilisation d'outils avec la réflexion étendue, consultez le guide de la réflexion étendue.

La sélection d'outils de Claude est conçue pour rester fiable avec de grands documents d'entrée, en choisissant le bon outil (ou en s'abstenant correctement) lorsque la conversation inclut plus de 100K tokens de contexte non lié aux outils. Pour réduire le contexte consommé par les outils eux-mêmes, consultez Gérer le contexte des outils, ou différez les définitions d'outils avec l'outil de recherche d'outils.

Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 et Claude Sonnet 4.6 disposent d'une fenêtre de contexte de 1 million de tokens sur l'API Claude, Amazon Bedrock et Vertex AI. Sur Microsoft Foundry, Claude Opus 4.8 dispose d'une fenêtre de contexte de 200k tokens. Les autres modèles Claude, y compris Claude Sonnet 4.5, disposent d'une fenêtre de contexte de 200k tokens.

Claude Fable 5 et Claude Mythos 5 (claude-fable-5 et claude-mythos-5) disposent d'une fenêtre de contexte de 1 million de tokens sur l'API Claude. Le maximum de 1 million est également la valeur par défaut, et une seule requête peut générer jusqu'à 128k tokens de sortie (max_tokens).

Une seule requête peut inclure jusqu'à 600 images ou pages PDF (100 pour les modèles avec une fenêtre de contexte de 200k tokens). Lors de l'envoi de nombreuses images ou de documents volumineux, vous pouvez approcher les limites de taille de requête avant la limite de tokens.

Conscience du contexte dans Claude Sonnet 4.6, Sonnet 4.5 et Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5 et Claude Haiku 4.5 disposent de la conscience du contexte. Cette capacité permet à ces modèles de suivre leur fenêtre de contexte restante (c'est-à-dire leur « budget de tokens ») tout au long d'une conversation. Cela permet à Claude d'exécuter des tâches et de gérer le contexte plus efficacement en comprenant l'espace dont il dispose pour travailler. Claude est entraîné à utiliser ce contexte avec précision, en persistant dans la tâche jusqu'à la toute fin plutôt que de deviner combien de tokens il reste. Pour un modèle, l'absence de conscience du contexte revient à participer à un concours de cuisine sans horloge. Les modèles conscients du contexte changent cela en recevant explicitement des informations sur le contexte restant, afin de pouvoir tirer le meilleur parti des tokens disponibles.

Fonctionnement :

Au début d'une conversation, Claude reçoit des informations sur sa fenêtre de contexte totale :

<budget:token_budget>1000000</budget:token_budget>

Le budget est fixé à 1 million de tokens (200k pour les modèles avec une fenêtre de contexte plus petite).

Après chaque appel d'outil, Claude reçoit une mise à jour sur la capacité restante :

<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>

Cette conscience aide Claude à déterminer la capacité restante pour le travail et permet une exécution plus efficace sur les tâches de longue durée. Les tokens d'image sont inclus dans ces budgets.

Avantages :

La conscience du contexte est particulièrement utile pour :

  • Les sessions d'agent de longue durée nécessitant une concentration soutenue.
  • Les workflows multi-fenêtres de contexte où les transitions d'état sont importantes.
  • Les tâches complexes nécessitant une gestion minutieuse des tokens.


Pour les agents qui s'étendent sur plusieurs sessions, concevez vos artefacts d'état de manière à ce que la récupération du contexte soit rapide au démarrage d'une nouvelle session. Le pattern multi-session de l'outil de mémoire présente une approche concrète. Consultez également Effective harnesses for long-running agents.

Pour des conseils de prompting sur l'exploitation de la conscience du contexte, consultez le guide des bonnes pratiques de prompting.

Gérer le contexte avec la compaction

Si vos conversations approchent régulièrement les limites de la fenêtre de contexte, la compaction côté serveur est l'approche recommandée. La compaction fournit une synthèse côté serveur qui condense automatiquement les parties antérieures d'une conversation, permettant des conversations de longue durée au-delà des limites de contexte avec un travail d'intégration minimal. Elle est disponible en version bêta pour Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 et Claude Sonnet 4.6.

Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires :

  • Effacement des résultats d'outils - Effacer les anciens résultats d'outils dans les workflows agentiques.
  • Effacement des blocs de réflexion - Gérer les blocs de réflexion avec la réflexion étendue.

Comportement en cas de dépassement de la fenêtre de contexte

Sur les modèles Claude 4.5 et plus récents, si les tokens d'entrée plus max_tokens dépassent la taille de la fenêtre de contexte, l'API accepte la requête. Si la génération atteint ensuite la limite de la fenêtre de contexte, elle s'arrête avec stop_reason: "model_context_window_exceeded". Sur les modèles antérieurs, l'API renvoie plutôt une erreur de validation ; activez le comportement model_context_window_exceeded avec l'en-tête bêta model-context-window-exceeded-2025-08-26. Consultez Gestion des raisons d'arrêt pour plus de détails.

Pour rester dans les limites de la fenêtre de contexte, utilisez l'API de comptage de tokens pour estimer l'utilisation des tokens avant d'envoyer des messages à Claude.

Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte par modèle.

Étapes suivantes

Compaction

La stratégie recommandée pour gérer le contexte dans les conversations de longue durée.

Édition de contexte

Stratégies granulaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.

Tableau de comparaison des modèles

Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte et des tarifs des tokens d'entrée/sortie par modèle.


Aperçu de la réflexion étendue

Découvrez comment fonctionne la réflexion étendue et comment l'implémenter avec d'autres fonctionnalités telles que l'utilisation d'outils et la mise en cache des prompts.

Was this page helpful?

  • Comprendre la fenêtre de contexte
  • La fenêtre de contexte avec la réflexion étendue
  • La fenêtre de contexte avec la réflexion étendue et l'utilisation d'outils
  • Conscience du contexte dans Claude Sonnet 4.6, Sonnet 4.5 et Haiku 4.5
  • Gérer le contexte avec la compaction
  • Comportement en cas de dépassement de la fenêtre de contexte
  • Étapes suivantes