Ce guide couvre la migration du code de l'API Messages. Si vous utilisez Claude Managed Agents, aucune modification au-delà de la mise à jour du nom du modèle n'est requise.
Claude Opus 4.7 est notre modèle le plus capable disponible à ce jour. Il est hautement autonome et fonctionne exceptionnellement bien sur les travaux agentiques à long terme, les travaux de connaissance, les tâches de vision et les tâches de mémoire. Claude Opus 4.7 devrait avoir une performance solide prête à l'emploi sur les invites et évaluations existantes de Claude Opus 4.6 au même prix de $5 / $25 par MTok, mais il y a quelques changements comportementaux et API à connaître lors de votre migration. Il prend en charge le même ensemble de fonctionnalités que Claude Opus 4.6, y compris la fenêtre de contexte de 1M tokens à la tarification API standard sans prime de contexte long, 128k tokens de sortie maximale, la réflexion adaptative, la mise en cache des invites, le traitement par lots, l'API Files, le support PDF, la vision et l'ensemble complet des outils côté serveur et côté client (bash, exécution de code, utilisation d'ordinateur, éditeur de texte, recherche web, récupération web, connecteur MCP, mémoire).
Automatisez cette migration avec la compétence Claude API. Dans Claude Code, exécutez /claude-api migrate pour invoquer la compétence Claude API fournie :
/claude-api migrate this project to claude-opus-4-7La compétence applique l'échange d'ID de modèle, les changements de paramètres de rupture, le remplacement de prefill et l'étalonnage des efforts décrits ci-dessous dans votre base de code, puis produit une liste de contrôle des éléments à vérifier manuellement. Elle vous demande de confirmer la portée de la migration (répertoire de travail entier, un sous-répertoire ou une liste de fichiers spécifique) avant de modifier des fichiers.
# Migration Opus
model = "claude-opus-4-6" # Avant
model = "claude-opus-4-7" # AprèsRéflexion étendue supprimée : thinking: {type: "enabled", budget_tokens: N} n'est plus supporté sur Claude Opus 4.7 ou les modèles ultérieurs et retourne une erreur 400. Passez à la réflexion adaptative (thinking: {type: "adaptive"}) et utilisez le paramètre effort pour contrôler la profondeur de la réflexion. La réflexion adaptative est désactivée par défaut sur Claude Opus 4.7 : les demandes sans champ thinking s'exécutent sans réflexion, ce qui correspond au comportement d'Opus 4.6. Définissez thinking: {type: "adaptive"} explicitement pour l'activer.
Avant (Claude Opus 4.6) :
client.messages.create(
model="claude-opus-4-6",
max_tokens=64000,
thinking={"type": "enabled", "budget_tokens": 32000},
messages=[{"role": "user", "content": "..."}],
)Après (Claude Opus 4.7) :
client.messages.create(
model="claude-opus-4-7",
max_tokens=64000,
thinking={"type": "adaptive"},
output_config={"effort": "high"}, # ou "max", "xhigh", "medium", "low"
messages=[{"role": "user", "content": "..."}],
)La réflexion adaptative est orientable par l'invite. Pour des conseils sur l'ajustement lorsque le modèle sur-réfléchit ou sous-réfléchit, consultez Étalonnage de l'effort et de la profondeur de la réflexion.
Paramètres d'échantillonnage supprimés : Définir temperature, top_p ou top_k à une valeur non-défaut sur Claude Opus 4.7 retourne une erreur 400. Le chemin de migration le plus sûr est d'omettre complètement ces paramètres des charges utiles de demande. L'invite est la méthode recommandée pour guider le comportement du modèle sur Claude Opus 4.7. Si vous utilisiez temperature = 0 pour le déterminisme, notez que cela n'a jamais garanti des sorties identiques sur les modèles antérieurs.
Contenu de réflexion omis par défaut : Les blocs de réflexion apparaissent toujours dans le flux de réponse sur Claude Opus 4.7, mais leur champ thinking est vide sauf si vous vous inscrivez explicitement. C'est un changement silencieux par rapport à Claude Opus 4.6, où la valeur par défaut était de retourner le texte de réflexion résumé. Pour restaurer le contenu de réflexion résumé sur Claude Opus 4.7, définissez thinking.display à "summarized" :
thinking = {
"type": "adaptive",
"display": "summarized",
}La valeur par défaut est "omitted" sur Claude Opus 4.7. Si votre produit diffuse le raisonnement aux utilisateurs, la nouvelle valeur par défaut apparaît comme une longue pause avant le début de la sortie ; définissez display: "summarized" pour restaurer la progression visible pendant la réflexion. Consultez Réflexion étendue pour plus de détails.
Comptage des tokens mis à jour : Claude Opus 4.7 utilise un nouveau tokeniseur, contribuant à ses performances améliorées sur une large gamme de tâches. Ce nouveau tokeniseur peut utiliser environ 1x à 1,35x plus de tokens lors du traitement du texte par rapport aux modèles précédents (jusqu'à ~35% de plus, variant selon le contenu), et /v1/messages/count_tokens retournera un nombre différent de tokens pour Claude Opus 4.7 que pour Claude Opus 4.6. L'efficacité des tokens de Claude Opus 4.7 peut varier selon la forme de la charge de travail. Les interventions d'invite, task_budget et effort peuvent aider à contrôler les coûts et à assurer une utilisation appropriée des tokens. Gardez à l'esprit que ces contrôles peuvent faire des compromis sur l'intelligence du modèle. Nous suggérons de mettre à jour vos paramètres max_tokens pour donner de la marge supplémentaire, y compris les déclencheurs de compaction. Claude Opus 4.7 fournit une fenêtre de contexte de 1M à la tarification API standard sans prime de contexte long.
Suppression de prefill (reportée d'Opus 4.6) : Le prefill des messages d'assistant retourne une erreur 400 sur Claude Opus 4.7. Utilisez plutôt les sorties structurées, les instructions d'invite système ou output_config.format.
Le paramètre effort vous permet d'ajuster l'intelligence de Claude par rapport aux dépenses de tokens, en échangeant la capacité pour une vitesse plus rapide et des coûts plus bas. Commencez par le nouveau niveau d'effort xhigh pour les cas d'utilisation de codage et agentiques, et utilisez un minimum d'effort high pour la plupart des cas d'utilisation sensibles à l'intelligence. Expérimentez avec d'autres niveaux d'effort pour affiner davantage l'utilisation des tokens et l'intelligence :
max : L'effort maximal peut fournir des gains de performance dans certains cas d'utilisation, mais peut montrer des rendements décroissants à partir de l'augmentation de l'utilisation des tokens. Ce paramètre peut aussi parfois être sujet à la sur-réflexion. Nous recommandons de tester l'effort maximal pour les tâches exigeant une intelligence élevée.xhigh (nouveau) : L'effort extra-élevé est le meilleur paramètre pour la plupart des cas d'utilisation de codage et agentiques.high : Ce paramètre équilibre l'utilisation des tokens et l'intelligence. Pour la plupart des cas d'utilisation sensibles à l'intelligence, nous recommandons un minimum d'effort high.medium : Bon pour les cas d'utilisation sensibles aux coûts qui ont besoin de réduire l'utilisation des tokens tout en échangeant l'intelligence.low : Réservé aux tâches courtes et délimitées et aux charges de travail sensibles à la latence qui ne sont pas sensibles à l'intelligence.Nous nous attendons à ce que l'effort soit plus important pour ce modèle que pour tout Opus antérieur, et nous recommandons d'expérimenter activement avec lui lors de votre mise à niveau.
Claude Opus 4.7 a plusieurs différences comportementales par rapport à Claude Opus 4.6 qui ne sont pas des changements de rupture API mais peuvent nécessiter des mises à jour d'invite ou la suppression de l'échafaudage.
La longueur de la réponse varie selon le cas d'utilisation : Claude Opus 4.7 étalonne la longueur de la réponse en fonction de la complexité qu'il juge de la tâche, plutôt que de défaut à une verbosité fixe. Cela signifie généralement des réponses plus courtes sur les recherches simples et beaucoup plus longues sur l'analyse ouverte. Si votre produit dépend d'un certain style ou verbosité de sortie, vous devrez peut-être ajuster vos invites. Par exemple, pour diminuer la verbosité, vous pourriez ajouter : « Fournissez des réponses concises et ciblées. Ignorez le contexte non essentiel et gardez les exemples minimaux. » Si vous voyez des exemples spécifiques de types de verbosité (c'est-à-dire sur-explication), vous pouvez ajouter des instructions supplémentaires dans votre invite pour les prévenir. Les exemples positifs montrant comment Claude peut communiquer avec le niveau approprié de concision tendent à être plus efficaces que les exemples négatifs ou les instructions qui disent au modèle ce qu'il ne faut pas faire.
Suivi d'instructions plus littéral : Claude Opus 4.7 interprète les invites de manière plus littérale et explicite que Claude Opus 4.6, particulièrement aux niveaux d'effort inférieurs. Il ne généralisera pas silencieusement une instruction d'un élément à un autre, et il n'inférera pas les demandes que vous n'avez pas faites. L'avantage de ce littéralisme est la précision et moins de remous. Il fonctionne généralement mieux pour les cas d'utilisation API avec des invites soigneusement ajustées, l'extraction structurée et les pipelines où vous voulez un comportement prévisible. Un examen des invites et du harnais peut être particulièrement utile pour la migration vers Claude Opus 4.7.
Ton plus direct : Comme pour tout nouveau modèle, le style de prose sur la rédaction longue peut changer. Claude Opus 4.7 est plus direct et opinionné, avec moins de formulation orientée vers la validation et moins d'emoji que le style plus chaleureux de Claude Opus 4.6. Si votre produit repose sur une voix spécifique, réévaluez les invites de style par rapport à la nouvelle ligne de base.
Mises à jour de progression intégrées dans les traces agentiques : Claude Opus 4.7 fournit des mises à jour plus régulières et de meilleure qualité à l'utilisateur tout au long des longues traces agentiques. Si vous avez ajouté de l'échafaudage pour forcer les messages d'état intérimaires (« Après tous les 3 appels d'outils, résumez la progression »), essayez de le supprimer. Si vous trouvez que la longueur ou le contenu des mises à jour visibles par l'utilisateur de Claude Opus 4.7 ne sont pas bien étalonnés pour votre cas d'utilisation, décrivez explicitement à quoi ces mises à jour devraient ressembler dans l'invite et fournissez des exemples.
Moins de sous-agents générés par défaut : Claude Opus 4.7 tend à générer moins de sous-agents par défaut. Cependant, ce comportement est orientable par l'invite ; donnez à Claude Opus 4.7 des conseils explicites sur le moment où les sous-agents sont souhaitables.
Étalonnage d'effort plus strict : Changeant de manière significative par rapport à Claude Opus 4.6, Claude Opus 4.7 respecte les niveaux d'effort strictement, particulièrement au bas de l'échelle. À low et medium, le modèle limite son travail à ce qui a été demandé plutôt que d'aller au-delà. C'est bon pour la latence et le coût, mais sur les tâches modérément complexes s'exécutant à l'effort low, il y a un certain risque de sous-réflexion. Si vous observez un raisonnement superficiel sur des problèmes complexes, augmentez l'effort à high ou xhigh plutôt que de l'inviter. Si vous devez garder l'effort à low pour la latence, ajoutez des conseils ciblés : « Cette tâche implique un raisonnement multi-étapes. Réfléchissez attentivement au problème avant de répondre. » Consultez Niveaux d'effort recommandés pour Claude Opus 4.7.
Moins d'appels d'outils par défaut : Claude Opus 4.7 a tendance à utiliser les outils moins souvent que Claude Opus 4.6 et à utiliser davantage le raisonnement. Cela produit de meilleurs résultats dans la plupart des cas. Cependant, augmenter le paramètre d'effort est un levier utile pour augmenter le niveau d'utilisation des outils, particulièrement dans le travail de connaissance. Les paramètres d'effort high ou xhigh montrent une utilisation d'outils substantiellement plus importante dans la recherche agentique et le codage. Pour les scénarios où vous voulez plus d'utilisation d'outils, vous pouvez également ajuster votre invite pour instruire explicitement le modèle sur quand et comment utiliser correctement ses outils.
Protections de cybersécurité en temps réel : Nouvellement ajoutées dans Claude Opus 4.7, les demandes impliquant des sujets interdits ou à haut risque peuvent entraîner des refus. Pour les travaux de sécurité légitimes tels que les tests de pénétration, la recherche de vulnérabilités ou le red-teaming, postulez au Programme de vérification cybernétique pour demander des restrictions réduites. Consultez Protections, avertissements et appels pour le contexte.
Support d'images haute résolution : Claude Opus 4.7 est le premier modèle Claude avec support d'images haute résolution, avec une résolution d'image maximale de 2576 pixels sur le bord long (contre 1568 pixels sur les modèles antérieurs). Cela déverrouille des gains sur les charges de travail lourdes en vision et est particulièrement précieux pour l'utilisation d'ordinateur, la compréhension des captures d'écran et l'analyse de documents. Le support haute résolution est automatique et ne nécessite pas d'en-tête bêta ou d'opt-in côté client. Les images en résolution complète peuvent utiliser jusqu'à environ 3x plus de tokens d'image que sur les modèles antérieurs (jusqu'à 4 784 tokens par image, comparé au plafond précédent d'environ 1 600 tokens par image), donc ré-budgétisez max_tokens et les attentes de coûts pour les charges de travail lourdes en images, ou réduisez l'échelle avant d'envoyer si vous n'avez pas besoin de la fidélité supplémentaire. Les coordonnées de pointage et de boîte englobante retournées par le modèle sont 1
Ceux-ci ne sont pas obligatoires mais amélioreront votre expérience :
Réévaluez max_tokens : Parce que le même texte produit un nombre de tokens plus élevé sur Claude Opus 4.7, nous suggérons de mettre à jour vos paramètres max_tokens pour donner de la marge supplémentaire, y compris les déclencheurs de compaction. Les interventions d'invite, task_budget et effort peuvent aider à contrôler les coûts et à assurer une utilisation appropriée des tokens.
Auditez les attentes de comptage des tokens : Tout chemin de code qui estime les tokens côté client ou suppose un ratio token-caractère fixe devrait être ré-testé contre Claude Opus 4.7. Utilisez le point de terminaison de comptage des tokens pour vérifier.
Adoptez les budgets de tâche (bêta) : Claude Opus 4.7 introduit les budgets de tâche. Ces budgets vous permettent d'informer Claude du nombre de tokens dont il dispose pour une boucle agentique complète, y compris la réflexion, les appels d'outils, les résultats d'outils et la sortie finale. Le modèle voit un compte à rebours en cours et l'utilise pour prioriser le travail et terminer la tâche gracieusement à mesure que le budget est consommé. Pour utiliser, définissez l'en-tête bêta task-budgets-2026-03-13 et ajoutez ce qui suit à votre configuration de sortie :
output_config = {
"effort": "high",
"task_budget": {"type": "tokens", "total": 128000},
}Vous devrez peut-être expérimenter avec différents budgets de tâche pour votre cas d'utilisation. Si le modèle reçoit un budget de tâche trop restrictif pour une tâche donnée, il peut compléter la tâche moins complètement, en référençant son budget comme contrainte. Pour les tâches agentiques ouvertes où la qualité importe plus que la vitesse, ne définissez pas de budget de tâche ; réservez les budgets de tâche aux charges de travail où vous avez besoin que le modèle limite son travail à une allocation de tokens. La valeur minimale pour un budget de tâche est 20k tokens.
Ce n'est pas un plafond dur ; c'est une suggestion dont le modèle est conscient. C'est distinct de max_tokens, qui est un plafond dur par demande sur les tokens générés (max_tokens n'est pas passé au modèle, et le modèle n'en est pas conscient), tandis que task_budget est un plafond consultatif sur la boucle agentique complète. Utilisez task_budget lorsque vous voulez que le modèle s'auto-modère, et max_tokens comme plafond dur par demande pour limiter l'utilisation.
Définissez un grand max_tokens à l'effort max ou xhigh : Si vous exécutez Claude Opus 4.7 à l'effort max ou xhigh, définissez un grand budget de tokens de sortie maximale pour que le modèle ait de la place pour réfléchir et agir sur ses sous-agents et appels d'outils. Nous recommandons de commencer à 64k tokens et d'ajuster à partir de là.
Réduisez l'échelle des images si la haute résolution est inutile : Claude Opus 4.7 prend en charge les images jusqu'à 2576px / 3,75MP. Les images haute résolution utilisent plus de tokens. Si la fidélité d'image supplémentaire est inutile, réduisez l'échelle des images avant d'envoyer à Claude pour éviter les augmentations d'utilisation des tokens. Consultez Images et vision.
claude-opus-4-6 à claude-opus-4-7 (ou mettez à jour les alias).temperature, top_p et top_k des charges utiles de demande.thinking: {type: "enabled", budget_tokens: N} par thinking: {type: "adaptive"} plus le paramètre effort.max_tokens pour tenir compte de la tokenisation mise à jour.xhigh ou max, augmentez max_tokens à au moins 64k comme point de départ.Si vous migrez de Claude Opus 4.5, Opus 4.1 ou un modèle antérieur directement vers Claude Opus 4.7, appliquez tous les changements d'Opus 4.7 ci-dessus plus les changements cumulatifs dans cette section qui ont pris effet entre Opus 4.5 et Opus 4.7. Si vous migrez d'Opus 4.6, vous n'avez besoin que de la section Opus 4.7 ci-dessus.
# Migration Opus
model = "claude-opus-4-5" # Avant
model = "claude-opus-4-7" # AprèsSuppression de prefill est couverte dans les changements de rupture d'Opus 4.7 ci-dessus.
Guillemets de paramètres d'outils : Les modèles Claude Opus 4.6 et ultérieurs peuvent produire un échappement de chaîne JSON légèrement différent dans les arguments d'appel d'outils (par exemple, une gestion différente des échappements Unicode ou de l'échappement de barre oblique). Si vous analysez l'input d'appel d'outils en tant que chaîne brute plutôt que d'utiliser un analyseur JSON, vérifiez votre logique d'analyse. Les analyseurs JSON standard (comme json.loads() ou JSON.parse()) gèrent ces différences automatiquement.
Ces changements améliorent votre expérience sur Opus 4.7. Les éléments marqués (requis sur Opus 4.7) étaient des recommandations optionnelles lors du lancement d'Opus 4.6 mais sont maintenant obligatoires ; le reste reste recommandé.
Migrez vers la réflexion adaptative (requise sur Opus 4.7) : thinking: {type: "enabled", budget_tokens: N} retourne une erreur 400 sur Claude Opus 4.7. Passez à thinking: {type: "adaptive"} et utilisez le paramètre effort pour contrôler la profondeur de la réflexion. Consultez Réflexion adaptative.
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 32000},
betas=["interleaved-thinking-2025-05-14"],
messages=[...],
)Notez que la migration passe également de client.beta.messages.create à client.messages.create. La réflexion adaptative et l'effort sont des fonctionnalités GA et ne nécessitent pas l'espace de noms SDK bêta ou d'en-têtes bêta.
Supprimez l'en-tête bêta d'effort : Le paramètre effort est maintenant GA. Supprimez betas=["effort-2025-11-24"] de vos demandes.
Supprimez l'en-tête bêta de diffusion d'outils à grain fin : La diffusion d'outils à grain fin est maintenant GA. Supprimez betas=["fine-grained-tool-streaming-2025-05-14"] de vos demandes.
Supprimez l'en-tête bêta de réflexion entrelacée : La réflexion adaptative active automatiquement la réflexion entrelacée sur Claude Opus 4.7, Opus 4.6 et Sonnet 4.6. Supprimez betas=["interleaved-thinking-2025-05-14"] de vos demandes. L'en-tête est toujours fonctionnel sur Sonnet 4.6 avec la réflexion étendue manuelle, mais le mode manuel est déprécié.
Migrez vers output_config.format : Si vous utilisez les sorties structurées, mettez à jour output_format={...} à output_config={"format": {...}}. L'ancien paramètre reste fonctionnel mais est déprécié et sera supprimé dans une future version du modèle.
Si vous migrez d'Opus 4.1, Sonnet 4 (déprécié) ou des modèles antérieurs directement vers Claude Opus 4.7, appliquez les changements Claude Opus 4.7 en haut de ce guide et les changements cumulatifs ci-dessus plus les changements supplémentaires dans cette section.
# À partir d'Opus 4.1
model = "claude-opus-4-1-20250805" # Avant
model = "claude-opus-4-7" # Après
# À partir de Sonnet 4
model = "claude-sonnet-4-20250514" # Avant
model = "claude-opus-4-7" # Après
# À partir de Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Avant
model = "claude-opus-4-7" # AprèsSupprimez les paramètres d'échantillonnage
C'est un changement de rupture lors de la migration à partir des modèles Claude 3.x.
À partir de Claude Opus 4.7, définir temperature, top_p ou top_k à une valeur non-défaut retournera une erreur 400. Le chemin de migration le plus sûr est d'omettre complètement ces paramètres des demandes, et d'utiliser l'invite pour guider le comportement du modèle. Si vous utilisiez temperature = 0 pour le déterminisme, notez que cela n'a jamais garanti des sorties identiques.
# Avant - Cela génèrera une erreur dans les modèles Claude 4+
response = client.messages.create(
model="claude-3-7-sonnet-20250219",
temperature=0.7,
top_p=0.9, # Les paramètres d'échantillonnage non-défaut retournent 400 sur Opus 4.7
# ...
)
# Après
response = client.messages.create(
model="claude-opus-4-7",
# ...
)Mettez à jour les versions d'outils
C'est un changement de rupture lors de la migration à partir des modèles Claude 3.x.
Mettez à jour vers les dernières versions d'outils. Supprimez tout code utilisant la commande undo_edit.
# Avant
tools = [{"type": "text_editor_20250124", "name": "str_replace_editor"}]
# Après
tools = [{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"}]text_editor_20250728 et str_replace_based_edit_tool. Consultez la documentation de l'outil d'éditeur de texte pour plus de détails.code_execution_20250825. Consultez la documentation de l'outil d'exécution de code pour les instructions de migration.Gérez la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal :
response = client.messages.create(...)
if response.stop_reason == "refusal":
# Gérez le refus de manière appropriée
passGérez la raison d'arrêt model_context_window_exceeded
Les modèles Claude 4.5+ retournent une raison d'arrêt model_context_window_exceeded lorsque la génération s'arrête en raison du dépassement de la limite de la fenêtre de contexte, plutôt que de la limite max_tokens demandée. Mettez à jour votre application pour gérer cette nouvelle raison d'arrêt :
response = client.messages.create(...)
if response.stop_reason == "model_context_window_exceeded":
# Gérez la limite de la fenêtre de contexte de manière appropriée
passVérifiez la gestion des paramètres d'outils (sauts de ligne de fin)
Les modèles Claude 4.5+ préservent les sauts de ligne de fin dans les paramètres de chaîne d'appel d'outils qui ont été précédemment supprimés. Si vos outils reposent sur la correspondance exacte des chaînes par rapport aux paramètres d'appel d'outils, vérifiez que votre logique gère correctement les sauts de ligne de fin.
Mettez à jour vos invites pour les changements comportementaux
Les modèles Claude 4+ ont un style de communication plus concis et direct et nécessitent des directives explicites. Consultez les meilleures pratiques d'invite pour des conseils d'optimisation.
token-efficient-tools-2025-02-19 et output-128k-2025-02-19. Tous les modèles Claude 4+ ont l'utilisation d'outils efficace en tokens intégrée et ces en-têtes n'ont aucun effet.claude-opus-4-7output_config.formatthinking: {type: "enabled", budget_tokens: N} par thinking: {type: "adaptive"} plus le paramètre effort (retourne une erreur 400 sur Opus 4.7)effort-2025-11-24 (l'effort est maintenant GA)fine-grained-tool-streaming-2025-05-14interleaved-thinking-2025-05-14 (la réflexion adaptative active automatiquement la réflexion entrelacée)output_format vers output_config.format (le cas échéant)temperature, top_p et top_k (les valeurs non-défaut retournent une erreur 400 sur Opus 4.7)text_editor_20250728, code_execution_20250825)refusalmodel_context_window_exceededtoken-efficient-tools-2025-02-19, output-128k-2025-02-19)Claude Sonnet 4.6 combine une intelligence forte avec des performances rapides, offrant des capacités de recherche agentique améliorées et l'exécution de code gratuite lorsqu'elle est utilisée avec la recherche web ou la récupération web. C'est idéal pour les tâches quotidiennes de codage, d'analyse et de contenu.
Pour un aperçu complet des capacités, consultez l'aperçu des modèles.
La tarification de Sonnet 4.6 est de $3 par million de tokens d'entrée, $15 par million de tokens de sortie. Consultez Tarification Claude pour plus de détails.
Mettez à jour le nom de votre modèle :
# À partir de Sonnet 4.5
model = "claude-sonnet-4-5" # Avant
model = "claude-sonnet-4-6" # Après
# À partir de Sonnet 4
model = "claude-sonnet-4-20250514" # Avant
model = "claude-sonnet-4-6" # AprèsLe remplissage préalable des messages d'assistant n'est plus supporté
Ceci est un changement de rupture lors de la migration depuis Sonnet 4.5 ou antérieur.
Le remplissage préalable des messages d'assistant retourne une erreur 400 sur Sonnet 4.6. Utilisez les sorties structurées, les instructions du message système, ou output_config.format à la place.
Cas d'utilisation courants du remplissage préalable et migrations :
Contrôler le formatage de la sortie (forcer la sortie JSON/YAML) : Utilisez les sorties structurées ou les outils avec des champs enum pour les tâches de classification.
Éliminer les préambules (supprimer les phrases « Voici... ») : Ajoutez des instructions directes dans le message système : « Répondez directement sans préambule. Ne commencez pas par des phrases comme « Voici... », « Basé sur... », etc. »
Éviter les mauvais refus : Claude est maintenant beaucoup meilleur pour les refus appropriés. Un message clair de l'utilisateur sans remplissage préalable devrait être suffisant.
Continuations (reprendre les réponses interrompues) : Déplacez la continuation vers le message de l'utilisateur : « Votre réponse précédente a été interrompue et s'est terminée par [previous_response]. Continuez à partir de là où vous vous étiez arrêté. »
Hydratation du contexte / cohérence des rôles (rafraîchir le contexte dans les longues conversations) : Injectez ce qui était auparavant des rappels d'assistant remplis préalablement dans le tour de l'utilisateur à la place.
L'échappement JSON des paramètres d'outil peut différer
Ceci est un changement de rupture lors de la migration depuis Sonnet 4.5 ou antérieur.
L'échappement des chaînes JSON dans les paramètres d'outil peut différer des modèles précédents. Les analyseurs JSON standard gèrent cela automatiquement, mais l'analyse personnalisée basée sur les chaînes peut nécessiter des mises à jour.
Mettre à jour les paramètres d'échantillonnage
Ceci est un changement de rupture lors de la migration depuis les modèles Claude 3.x.
Utilisez uniquement temperature OU top_p, pas les deux.
Mettre à jour les versions des outils
Ceci est un changement de rupture lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions des outils (text_editor_20250728, code_execution_20250825). Supprimez tout code utilisant la commande undo_edit.
Gérer la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal.
Mettre à jour vos invites pour les changements de comportement
Les modèles Claude 4 ont un style de communication plus concis et direct. Consultez les meilleures pratiques d'invitation pour des conseils d'optimisation.
fine-grained-tool-streaming-2025-05-14 : Le streaming d'outils à grain fin est maintenant GA sur Sonnet 4.6 et ne nécessite plus d'en-tête bêta.output_format vers output_config.format : Le paramètre output_format est obsolète. Utilisez output_config.format à la place.Envisagez de migrer depuis Sonnet 4.5 vers Sonnet 4.6, qui offre plus d'intelligence au même prix.
Sonnet 4.6 utilise par défaut un niveau d'effort de high, contrairement à Sonnet 4.5 qui n'avait pas de paramètre d'effort. Envisagez d'ajuster le paramètre d'effort lors de la migration depuis Sonnet 4.5 vers Sonnet 4.6. S'il n'est pas explicitement défini, vous pouvez connaître une latence plus élevée avec le niveau d'effort par défaut.
Si vous n'utilisez pas la réflexion étendue sur Sonnet 4.5, vous pouvez continuer sans elle sur Sonnet 4.6. Vous devez explicitement définir l'effort au niveau approprié pour votre cas d'utilisation. Avec un effort low et la réflexion désactivée, vous pouvez vous attendre à des performances similaires ou meilleures par rapport à Sonnet 4.5 sans réflexion étendue.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
output_config={"effort": "low"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Si vous utilisez la réflexion étendue avec budget_tokens sur Sonnet 4.5, elle est toujours fonctionnelle sur Sonnet 4.6 mais est obsolète. Migrez vers la réflexion adaptative avec le paramètre d'effort.
La réflexion adaptative est le remplacement recommandé pour budget_tokens sur Sonnet 4.6. Elle est particulièrement bien adaptée aux modèles de charge de travail suivants :
high. Si la latence ou l'utilisation des jetons est une préoccupation, réduisez à medium.Lors de l'utilisation de la réflexion adaptative, évaluez les efforts medium et high sur vos tâches. Le niveau approprié dépend du compromis de votre charge de travail entre la qualité, la latence et l'utilisation des jetons.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=64000,
thinking={"type": "adaptive"},
output_config={"effort": "medium"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Si vous constatez un comportement incohérent ou des régressions de qualité avec la réflexion adaptative, essayez de réduire le paramètre effort ou d'utiliser max_tokens comme limite stricte en premier. La réflexion étendue avec budget_tokens est toujours fonctionnelle sur Sonnet 4.6 mais est obsolète et n'est plus recommandée.
Si vous devez conserver budget_tokens temporairement lors de la migration, un budget d'environ 16k jetons offre une marge de manœuvre pour les problèmes plus difficiles sans risque d'utilisation incontrôlée des jetons. Cette configuration est obsolète et sera supprimée dans une future version du modèle.
Pour le codage agentique, la conception frontale, les flux de travail lourds en outils et les flux de travail d'entreprise complexes, commencez par un effort medium. Si vous trouvez que la latence est trop élevée, envisagez de réduire l'effort à low. Si vous avez besoin d'une intelligence plus élevée, envisagez d'augmenter l'effort à high ou de migrer vers Opus 4.7.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=16384,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "medium"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Pour le chat, la génération de contenu, la recherche, la classification et autres tâches non-codage, commencez par un effort low avec la réflexion étendue. Si vous avez besoin de plus de profondeur, augmentez l'effort à medium.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "low"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)claude-sonnet-4-6output_config.format à la placetext_editor_20250728, code_execution_20250825) ; les versions héritées ne sont pas supportées (si migration depuis 3.x)undo_edit (le cas échéant)temperature OU top_p, pas les deux (si migration depuis 3.x)refusal dans votre applicationfine-grained-tool-streaming-2025-05-14 (maintenant GA)output_format vers output_config.formatthinking: {type: "enabled", budget_tokens: N} vers thinking: {type: "adaptive"} avec le paramètre d'effort (budget_tokens est obsolète et sera supprimé dans une future version)Claude Sonnet 4.5 combine une forte intelligence avec des performances rapides, ce qui le rend idéal pour les tâches quotidiennes de codage, d'analyse et de contenu.
Pour un aperçu complet des capacités, consultez l'aperçu des modèles.
La tarification de Sonnet 4.5 est de 3 $ par million de jetons d'entrée, 15 $ par million de jetons de sortie. Consultez la tarification Claude pour plus de détails.
Mettez à jour le nom de votre modèle :
# Depuis Sonnet 4
model = "claude-sonnet-4-20250514" # Avant
model = "claude-sonnet-4-5-20250929" # Après
# Depuis Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Avant
model = "claude-sonnet-4-5-20250929" # AprèsCes changements de rupture s'appliquent lors de la migration depuis les modèles Claude 3.x Sonnet.
Mettre à jour les paramètres d'échantillonnage
Ceci est un changement de rupture lors de la migration depuis les modèles Claude 3.x.
Utilisez uniquement temperature OU top_p, pas les deux.
Mettre à jour les versions des outils
Ceci est un changement de rupture lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions des outils (text_editor_20250728, code_execution_20250825). Supprimez tout code utilisant la commande undo_edit.
Gérer la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal.
Mettre à jour vos invites pour les changements de comportement
Les modèles Claude 4 ont un style de communication plus concis et direct. Consultez les meilleures pratiques d'invitation pour des conseils d'optimisation.
claude-sonnet-4-5-20250929text_editor_20250728, code_execution_20250825) ; les versions héritées ne sont pas supportées (si migration depuis 3.x)undo_edit (le cas échéant)temperature OU top_p, pas les deux (si migration depuis 3.x)refusal dans votre applicationClaude Haiku 4.5 est le modèle Haiku le plus rapide et le plus intelligent avec des performances quasi-frontière, offrant une qualité de modèle premium pour les applications interactives et le traitement à haut volume.
Pour un aperçu complet des capacités, consultez l'aperçu des modèles.
La tarification de Haiku 4.5 est de 1 $ par million de jetons d'entrée, 5 $ par million de jetons de sortie. Consultez la tarification Claude pour plus de détails.
Mettez à jour le nom de votre modèle :
# Depuis Haiku 3.5
model = "claude-3-5-haiku-20241022" # Avant
model = "claude-haiku-4-5-20251001" # Après
# Depuis Haiku 3
model = "claude-3-haiku-20240307" # Avant
model = "claude-haiku-4-5-20251001" # AprèsExaminez les nouvelles limites de débit : Haiku 4.5 a des limites de débit distinctes de Haiku 3.5 et Haiku 3. Consultez la documentation des limites de débit pour plus de détails.
Pour des améliorations significatives des performances sur les tâches de codage et de raisonnement, envisagez d'activer la réflexion étendue avec thinking: {type: "enabled", budget_tokens: N}.
La réflexion étendue a un impact sur l'efficacité de la mise en cache des invites.
La réflexion étendue est obsolète dans les modèles Claude 4.6 ou plus récents. Si vous utilisez des modèles plus récents, utilisez la réflexion adaptative à la place.
Explorez les nouvelles capacités : Consultez l'aperçu des modèles pour plus de détails sur la sensibilisation au contexte, la capacité de sortie augmentée (64k jetons), l'intelligence supérieure et la vitesse améliorée.
Ces changements de rupture s'appliquent lors de la migration depuis les modèles Claude 3.x Haiku.
Mettre à jour les paramètres d'échantillonnage
Ceci est un changement de rupture lors de la migration depuis les modèles Claude 3.x.
Utilisez uniquement temperature OU top_p, pas les deux.
Mettre à jour les versions des outils
Ceci est un changement de rupture lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions des outils (text_editor_20250728, code_execution_20250825). Supprimez tout code utilisant la commande undo_edit.
Gérer la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal.
Mettre à jour vos invites pour les changements de comportement
Les modèles Claude 4 ont un style de communication plus concis et direct. Consultez les meilleures pratiques d'invitation pour des conseils d'optimisation.
claude-haiku-4-5-20251001text_editor_20250728, code_execution_20250825) ; les versions héritées ne sont pas supportéesundo_edit (le cas échéant)temperature OU top_p, pas les deuxrefusal dans votre applicationWas this page helpful?