Cette fonctionnalité est éligible à la Zero Data Retention (ZDR). Lorsque votre organisation dispose d'un accord ZDR, les données envoyées via cette fonctionnalité ne sont pas stockées après le retour de la réponse de l'API.
À mesure que les conversations s'allongent, vous finirez par approcher les limites de la fenêtre de contexte. Ce guide explique comment fonctionnent les fenêtres de contexte et présente des stratégies pour les gérer efficacement.
Pour les conversations de longue durée et les workflows agentiques, la compaction côté serveur est la stratégie principale de gestion du contexte. Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.
La « context window » (fenêtre de contexte) fait référence à l'ensemble du texte qu'un modèle de langage peut consulter lors de la génération d'une réponse, y compris la réponse elle-même. Ceci est différent du grand corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une « mémoire de travail » pour le modèle. Une fenêtre de contexte plus grande permet au modèle de traiter des prompts plus complexes et plus longs, mais plus de contexte n'est pas automatiquement synonyme de meilleurs résultats. À mesure que le nombre de tokens augmente, la précision et le rappel se dégradent, un phénomène connu sous le nom de context rot (dégradation du contexte). Cela rend la sélection de ce qui se trouve dans le contexte tout aussi importante que l'espace disponible.
Claude obtient des résultats de pointe sur les benchmarks de récupération en contexte long comme MRCR et GraphWalks, mais ces gains dépendent de ce qui se trouve dans le contexte, et pas seulement de la quantité qui y tient.
Pour une analyse approfondie des raisons pour lesquelles les contextes longs se dégradent et comment concevoir des solutions pour y remédier, consultez Effective context engineering.
Le diagramme ci-dessous illustre le comportement standard de la fenêtre de contexte pour les requêtes API1 :
1Pour les interfaces de chat, comme claude.ai, les fenêtres de contexte peuvent également être configurées selon un système glissant « premier entré, premier sorti ».
Lors de l'utilisation de la réflexion étendue, tous les tokens d'entrée et de sortie, y compris les tokens utilisés pour la réflexion, comptent dans la limite de la fenêtre de contexte, avec quelques nuances dans les situations multi-tours.
Les tokens du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens, sont facturés comme des tokens de sortie et comptent dans les limites de débit. Avec la réflexion adaptative, Claude décide dynamiquement de son allocation de réflexion, de sorte que l'utilisation réelle des tokens de réflexion peut varier d'une requête à l'autre.
Cependant, les blocs de réflexion précédents sont automatiquement retirés du calcul de la fenêtre de contexte par l'API Claude et ne font pas partie de l'historique de conversation que le modèle « voit » pour les tours suivants, préservant ainsi la capacité en tokens pour le contenu réel de la conversation.
Le diagramme ci-dessous illustre la gestion spécialisée des tokens lorsque la réflexion étendue est activée :
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Cette architecture est efficace en termes de tokens et permet un raisonnement approfondi sans gaspillage de tokens, car les blocs de réflexion peuvent être de longueur substantielle.
Vous pouvez en savoir plus sur la fenêtre de contexte et la réflexion étendue dans le guide de la réflexion étendue.
Le diagramme ci-dessous illustre la gestion des tokens de la fenêtre de contexte lors de la combinaison de la réflexion étendue avec l'utilisation d'outils :
Architecture du premier tour
Traitement du résultat d'outil (tour 2)
tool_result. Le bloc de réflexion étendue doit être renvoyé avec les résultats d'outil correspondants. C'est le seul cas où vous devez renvoyer les blocs de réflexion.user, sauf si la réflexion entrelacée est activée).Nouveau tour utilisateur (tour 3)
user.user en dehors du cycle d'utilisation d'outil, Claude génère un nouveau bloc de réflexion étendue et continue à partir de là.assistant actuel compte dans la fenêtre de contexte.context_window = input_tokens + current_turn_tokens.Les modèles Claude 4 prennent en charge la réflexion entrelacée, qui permet à Claude de réfléchir entre les appels d'outils et d'effectuer un raisonnement plus sophistiqué après avoir reçu les résultats d'outils.
Pour plus d'informations sur l'utilisation d'outils avec la réflexion étendue, consultez le guide de la réflexion étendue.
La sélection d'outils de Claude est conçue pour rester fiable avec de grands documents d'entrée, en choisissant le bon outil (ou en s'abstenant correctement) lorsque la conversation inclut plus de 100K tokens de contexte non lié aux outils. Pour réduire le contexte consommé par les outils eux-mêmes, consultez Gérer le contexte des outils, ou différez les définitions d'outils avec l'outil de recherche d'outils.
Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 et Claude Sonnet 4.6 disposent d'une fenêtre de contexte de 1 million de tokens sur l'API Claude, Amazon Bedrock et Vertex AI. Sur Microsoft Foundry, Claude Opus 4.8 dispose d'une fenêtre de contexte de 200k tokens. Les autres modèles Claude, y compris Claude Sonnet 4.5, disposent d'une fenêtre de contexte de 200k tokens.
Claude Fable 5 et Claude Mythos 5 (claude-fable-5 et claude-mythos-5) disposent d'une fenêtre de contexte de 1 million de tokens sur l'API Claude. Le maximum de 1 million est également la valeur par défaut, et une seule requête peut générer jusqu'à 128k tokens de sortie (max_tokens).
Une seule requête peut inclure jusqu'à 600 images ou pages PDF (100 pour les modèles avec une fenêtre de contexte de 200k tokens). Lors de l'envoi de nombreuses images ou de documents volumineux, vous pouvez approcher les limites de taille de requête avant la limite de tokens.
Claude Sonnet 4.6, Claude Sonnet 4.5 et Claude Haiku 4.5 disposent de la conscience du contexte. Cette capacité permet à ces modèles de suivre leur fenêtre de contexte restante (c'est-à-dire leur « budget de tokens ») tout au long d'une conversation. Cela permet à Claude d'exécuter des tâches et de gérer le contexte plus efficacement en comprenant l'espace dont il dispose pour travailler. Claude est entraîné à utiliser ce contexte avec précision, en persistant dans la tâche jusqu'à la toute fin plutôt que de deviner combien de tokens il reste. Pour un modèle, l'absence de conscience du contexte revient à participer à un concours de cuisine sans horloge. Les modèles conscients du contexte changent cela en recevant explicitement des informations sur le contexte restant, afin de pouvoir tirer le meilleur parti des tokens disponibles.
Fonctionnement :
Au début d'une conversation, Claude reçoit des informations sur sa fenêtre de contexte totale :
<budget:token_budget>1000000</budget:token_budget>Le budget est fixé à 1 million de tokens (200k pour les modèles avec une fenêtre de contexte plus petite).
Après chaque appel d'outil, Claude reçoit une mise à jour sur la capacité restante :
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Cette conscience aide Claude à déterminer la capacité restante pour le travail et permet une exécution plus efficace sur les tâches de longue durée. Les tokens d'image sont inclus dans ces budgets.
Avantages :
La conscience du contexte est particulièrement utile pour :
Pour les agents qui s'étendent sur plusieurs sessions, concevez vos artefacts d'état de manière à ce que la récupération du contexte soit rapide au démarrage d'une nouvelle session. Le pattern multi-session de l'outil de mémoire présente une approche concrète. Consultez également Effective harnesses for long-running agents.
Pour des conseils de prompting sur l'exploitation de la conscience du contexte, consultez le guide des bonnes pratiques de prompting.
Si vos conversations approchent régulièrement les limites de la fenêtre de contexte, la compaction côté serveur est l'approche recommandée. La compaction fournit une synthèse côté serveur qui condense automatiquement les parties antérieures d'une conversation, permettant des conversations de longue durée au-delà des limites de contexte avec un travail d'intégration minimal. Elle est disponible en version bêta pour Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 et Claude Sonnet 4.6.
Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires :
Sur les modèles Claude 4.5 et plus récents, si les tokens d'entrée plus max_tokens dépassent la taille de la fenêtre de contexte, l'API accepte la requête. Si la génération atteint ensuite la limite de la fenêtre de contexte, elle s'arrête avec stop_reason: "model_context_window_exceeded". Sur les modèles antérieurs, l'API renvoie plutôt une erreur de validation ; activez le comportement model_context_window_exceeded avec l'en-tête bêta model-context-window-exceeded-2025-08-26. Consultez Gestion des raisons d'arrêt pour plus de détails.
Pour rester dans les limites de la fenêtre de contexte, utilisez l'API de comptage de tokens pour estimer l'utilisation des tokens avant d'envoyer des messages à Claude.
Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte par modèle.
La stratégie recommandée pour gérer le contexte dans les conversations de longue durée.
Stratégies granulaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.
Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte et des tarifs des tokens d'entrée/sortie par modèle.
Découvrez comment fonctionne la réflexion étendue et comment l'implémenter avec d'autres fonctionnalités telles que l'utilisation d'outils et la mise en cache des prompts.
Was this page helpful?