La "fenêtre de contexte" fait référence à l'intégralité de la quantité de texte qu'un modèle de langage peut consulter et référencer lors de la génération de nouveau texte, plus le nouveau texte qu'il génère. Ceci est différent du large corpus de données sur lequel le modèle de langage a été entraîné, et représente plutôt une "mémoire de travail" pour le modèle. Une fenêtre de contexte plus large permet au modèle de comprendre et de répondre à des invites plus complexes et plus longues, tandis qu'une fenêtre de contexte plus petite peut limiter la capacité du modèle à gérer des invites plus longues ou à maintenir la cohérence lors de conversations étendues.
Le diagramme ci-dessous illustre le comportement standard de la fenêtre de contexte pour les requêtes API1 :
1Pour les interfaces de chat, comme pour claude.ai, les fenêtres de contexte peuvent également être configurées sur un système rotatif "premier entré, premier sorti".
Lors de l'utilisation de la pensée étendue, tous les jetons d'entrée et de sortie, y compris les jetons utilisés pour la réflexion, comptent vers la limite de la fenêtre de contexte, avec quelques nuances dans les situations multi-tours.
Les jetons du budget de réflexion sont un sous-ensemble de votre paramètre max_tokens, sont facturés comme jetons de sortie, et comptent vers les limites de taux.
Cependant, les blocs de réflexion précédents sont automatiquement supprimés du calcul de la fenêtre de contexte par l'API Claude et ne font pas partie de l'historique de conversation que le modèle "voit" pour les tours suivants, préservant la capacité de jetons pour le contenu de conversation réel.
Le diagramme ci-dessous démontre la gestion spécialisée des jetons lorsque la pensée étendue est activée :
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking et redacted_thinking.Cette architecture est efficace en jetons et permet un raisonnement extensif sans gaspillage de jetons, car les blocs de réflexion peuvent être substantiels en longueur.
Vous pouvez en lire plus sur la fenêtre de contexte et la pensée étendue dans notre guide de pensée étendue.
Le diagramme ci-dessous illustre la gestion des jetons de la fenêtre de contexte lors de la combinaison de la pensée étendue avec l'utilisation d'outils :
Architecture du premier tour
Gestion du résultat d'outil (tour 2)
tool_result. Le bloc de pensée étendue doit être retourné avec les résultats d'outils correspondants. C'est le seul cas où vous devez retourner les blocs de réflexion.user).Troisième étape
User.User en dehors du cycle d'utilisation d'outil, Claude générera un nouveau bloc de pensée étendue et continuera à partir de là.Assistant actuel compte comme partie de la fenêtre de contexte.context_window = input_tokens + current_turn_tokens.Les modèles Claude 4 supportent la pensée entrelacée, qui permet à Claude de réfléchir entre les appels d'outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats d'outils.
Claude Sonnet 3.7 ne supporte pas la pensée entrelacée, donc il n'y a pas d'entrelacement de pensée étendue et d'appels d'outils sans un tour utilisateur non-tool_result entre les deux.
Pour plus d'informations sur l'utilisation d'outils avec la pensée étendue, voir notre guide de pensée étendue.
Claude Sonnet 4 et 4.5 supportent une fenêtre de contexte d'un million de jetons. Cette fenêtre de contexte étendue vous permet de traiter des documents beaucoup plus volumineux, de maintenir des conversations plus longues, et de travailler avec des bases de code plus étendues.
La fenêtre de contexte de 1M jetons est actuellement en bêta pour les organisations dans le niveau d'utilisation 4 et les organisations avec des limites de taux personnalisées. La fenêtre de contexte de 1M jetons n'est disponible que pour Claude Sonnet 4 et Sonnet 4.5.
Pour utiliser la fenêtre de contexte de 1M jetons, incluez l'en-tête bêta context-1m-2025-08-07 dans vos requêtes API :
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Traiter ce document volumineux..."}
],
betas=["context-1m-2025-08-07"]
)Considérations importantes :
Claude Sonnet 4.5 et Claude Haiku 4.5 disposent de la conscience du contexte, permettant à ces modèles de suivre leur fenêtre de contexte restante (c'est-à-dire le "budget de jetons") tout au long d'une conversation. Cela permet à Claude d'exécuter des tâches et de gérer le contexte plus efficacement en comprenant combien d'espace il a pour travailler. Claude est nativement entraîné à utiliser ce contexte précisément pour persister dans la tâche jusqu'à la toute fin, plutôt que de devoir deviner combien de jetons restent. Pour un modèle, manquer de conscience du contexte c'est comme concourir dans une émission de cuisine sans horloge. Les modèles Claude 4.5 changent cela en informant explicitement le modèle de son contexte restant, afin qu'il puisse tirer le maximum d'avantage des jetons disponibles.
Comment cela fonctionne :
Au début d'une conversation, Claude reçoit des informations sur sa fenêtre de contexte totale :
<budget:token_budget>200000</budget:token_budget>Le budget est fixé à 200K jetons (standard), 500K jetons (Claude.ai Enterprise), ou 1M jetons (bêta, pour les organisations éligibles).
Après chaque appel d'outil, Claude reçoit une mise à jour sur la capacité restante :
<system_warning>Utilisation des jetons : 35000/200000 ; 165000 restants</system_warning>Cette conscience aide Claude à déterminer combien de capacité reste pour le travail et permet une exécution plus efficace sur les tâches de longue durée. Les jetons d'image sont inclus dans ces budgets.
Avantages :
La conscience du contexte est particulièrement précieuse pour :
Pour des conseils d'invite sur l'exploitation de la conscience du contexte, voir notre guide des meilleures pratiques Claude 4.
Dans les modèles Claude plus récents (à partir de Claude Sonnet 3.7), si la somme des jetons d'invite et des jetons de sortie dépasse la fenêtre de contexte du modèle, le système retournera une erreur de validation plutôt que de tronquer silencieusement le contexte. Ce changement fournit un comportement plus prévisible mais nécessite une gestion plus soigneuse des jetons.
Pour planifier votre utilisation des jetons et vous assurer de rester dans les limites de la fenêtre de contexte, vous pouvez utiliser l'API de comptage de jetons pour estimer combien de jetons vos messages utiliseront avant de les envoyer à Claude.
Voir notre tableau de comparaison de modèles pour une liste des tailles de fenêtre de contexte par modèle.
Voir notre tableau de comparaison des modèles pour une liste des tailles de fenêtre de contexte et de la tarification des jetons d'entrée / sortie par modèle.
Apprenez-en plus sur le fonctionnement de la pensée étendue et comment l'implémenter aux côtés d'autres fonctionnalités telles que l'utilisation d'outils et la mise en cache d'invites.