Was this page helpful?
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
À mesure que les conversations s'allongent, vous finirez par approcher les limites de la fenêtre de contexte. Ce guide explique comment fonctionnent les fenêtres de contexte et présente des stratégies pour les gérer efficacement.
Pour les conversations longues et les flux de travail agentiques, la compaction côté serveur est la stratégie principale de gestion du contexte. Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.
La « fenêtre de contexte » fait référence à tout le texte qu'un modèle de langage peut référencer lors de la génération d'une réponse, y compris la réponse elle-même. Ceci est différent du grand corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une « mémoire de travail » pour le modèle. Une fenêtre de contexte plus grande permet au modèle de gérer des invites plus complexes et plus longues, mais plus de contexte n'est pas automatiquement mieux. À mesure que le nombre de jetons augmente, la précision et le rappel se dégradent, un phénomène connu sous le nom de dégradation du contexte. Cela rend la curation de ce qui est en contexte tout aussi importante que l'espace disponible.
Claude obtient des résultats de pointe sur les benchmarks de récupération de contexte long comme MRCR et GraphWalks, mais ces gains dépendent de ce qui est en contexte, pas seulement de ce qui rentre.
Pour une analyse approfondie de la raison pour laquelle les contextes longs se dégradent et comment les contourner, consultez Ingénierie efficace du contexte.
Le diagramme ci-dessous illustre le comportement standard de la fenêtre de contexte pour les demandes API1 :
1Pour les interfaces de chat, comme pour claude.ai, les fenêtres de contexte peuvent également être configurées sur un système roulant « premier entré, premier sorti ».
Lors de l'utilisation de la réflexion étendue, tous les jetons d'entrée et de sortie, y compris les jetons utilisés pour la réflexion, comptent vers la limite de la fenêtre de contexte, avec quelques nuances dans les situations multi-tours.
Les jetons du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens, sont facturés comme jetons de sortie et comptent vers les limites de débit. Avec la réflexion adaptative, Claude décide dynamiquement son allocation de réflexion, donc l'utilisation réelle des jetons de réflexion peut varier par demande.
Cependant, les blocs de réflexion précédents sont automatiquement supprimés du calcul de la fenêtre de contexte par l'API Claude et ne font pas partie de l'historique des conversations que le modèle « voit » pour les tours suivants, préservant la capacité des jetons pour le contenu réel de la conversation.
Le diagramme ci-dessous démontre la gestion spécialisée des jetons lorsque la réflexion étendue est activée :
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Cette architecture est efficace en jetons et permet un raisonnement étendu sans gaspillage de jetons, car les blocs de réflexion peuvent être substantiels en longueur.
Vous pouvez en savoir plus sur la fenêtre de contexte et la réflexion étendue dans le guide de réflexion étendue.
Le diagramme ci-dessous illustre la gestion des jetons de la fenêtre de contexte lors de la combinaison de la réflexion étendue avec l'utilisation d'outils :
Architecture du premier tour
Gestion des résultats d'outils (tour 2)
tool_result. Le bloc de réflexion étendue doit être renvoyé avec les résultats d'outils correspondants. C'est le seul cas où vous devez renvoyer les blocs de réflexion.user).Troisième étape
context_window = input_tokens + current_turn_tokens.Les modèles Claude 4 supportent la réflexion entrelacée, qui permet à Claude de réfléchir entre les appels d'outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats d'outils.
Claude Sonnet 3.7 ne supporte pas la réflexion entrelacée, donc il n'y a pas d'entrelacement de la réflexion étendue et des appels d'outils sans un tour utilisateur non-tool_result entre les deux.
Pour plus d'informations sur l'utilisation d'outils avec la réflexion étendue, consultez le guide de réflexion étendue.
Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, et Claude Sonnet 4.6 ont une fenêtre de contexte de 1M de jetons. Les autres modèles Claude, y compris Claude Sonnet 4.5 et Sonnet 4 (déprécié), ont une fenêtre de contexte de 200k de jetons.
Une seule demande peut inclure jusqu'à 600 images ou pages PDF (100 pour les modèles avec une fenêtre de contexte de 200k de jetons). Lors de l'envoi de nombreuses images ou de grands documents, vous pouvez approcher les limites de taille de demande avant la limite de jetons.
Claude Sonnet 4.6, Claude Sonnet 4.5, et Claude Haiku 4.5 disposent de la sensibilisation au contexte. Cette capacité permet à ces modèles de suivre leur fenêtre de contexte restante (c'est-à-dire leur « budget de jetons ») tout au long d'une conversation. Cela permet à Claude d'exécuter des tâches et de gérer le contexte plus efficacement en comprenant l'espace dont il dispose. Claude est entraîné à utiliser ce contexte avec précision, persévérant dans la tâche jusqu'à la toute fin plutôt que de deviner combien de jetons restent. Pour un modèle, manquer de sensibilisation au contexte, c'est comme participer à un concours culinaire sans horloge. Les modèles Claude 4.5+ changent cela en informant explicitement le modèle de son contexte restant, afin qu'il puisse tirer le maximum parti des jetons disponibles.
Comment cela fonctionne :
Au début d'une conversation, Claude reçoit des informations sur sa fenêtre de contexte totale :
<budget:token_budget>1000000</budget:token_budget>Le budget est défini à 1M de jetons (200k pour les modèles avec une fenêtre de contexte plus petite).
Après chaque appel d'outil, Claude reçoit une mise à jour sur la capacité restante :
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Cette sensibilisation aide Claude à déterminer la capacité restante pour le travail et permet une exécution plus efficace sur les tâches longues. Les jetons d'image sont inclus dans ces budgets.
Avantages :
La sensibilisation au contexte est particulièrement précieuse pour :
Pour les agents qui s'étendent sur plusieurs sessions, concevez vos artefacts d'état de sorte que la récupération du contexte soit rapide au démarrage d'une nouvelle session. Le modèle multi-session de l'outil de mémoire explique une approche concrète. Voir aussi Harnais efficaces pour les agents longues.
Pour des conseils d'invite sur l'exploitation de la sensibilisation au contexte, consultez le guide des meilleures pratiques d'invite.
Si vos conversations approchent régulièrement les limites de la fenêtre de contexte, la compaction côté serveur est l'approche recommandée. La compaction fournit une résumé côté serveur qui condense automatiquement les parties antérieures d'une conversation, permettant des conversations longues au-delà des limites de contexte avec un travail d'intégration minimal. Elle est actuellement disponible en bêta pour Claude Opus 4.7, Claude Opus 4.6, et Claude Sonnet 4.6.
Pour des besoins plus spécialisés, l'édition de contexte offre des stratégies supplémentaires :
Les nouveaux modèles Claude (à partir de Claude Sonnet 3.7) retournent une erreur de validation lorsque les jetons d'invite et de sortie dépassent la fenêtre de contexte, plutôt que de tronquer silencieusement. Ce changement fournit un comportement plus prévisible mais nécessite une gestion plus soigneuse des jetons.
Utilisez l'API de comptage des jetons pour estimer l'utilisation des jetons avant d'envoyer des messages à Claude. Cela vous aide à planifier et à rester dans les limites de la fenêtre de contexte.
Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte par modèle.
La stratégie recommandée pour gérer le contexte dans les conversations longues.
Stratégies granulaires comme l'effacement des résultats d'outils et l'effacement des blocs de réflexion.
Consultez le tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte et des tarifs des jetons d'entrée/sortie par modèle.
User.User en dehors du cycle d'utilisation d'outils, Claude génère un nouveau bloc de réflexion étendue et continue à partir de là.Assistant actuel compte comme partie de la fenêtre de contexte.En savoir plus sur le fonctionnement de la réflexion étendue et comment l'implémenter aux côtés d'autres fonctionnalités telles que l'utilisation d'outils et la mise en cache des invites.