Ce guide couvre la migration du code de l'API Messages. Si vous utilisez les Claude Managed Agents, aucune modification au-delà de la mise à jour du nom du modèle n'est requise.
Automatisez votre migration avec la compétence Claude API. Dans Claude Code, exécutez /claude-api migrate pour invoquer la compétence Claude API intégrée. Elle fonctionne pour n'importe quel modèle cible de cette page :
/claude-api migrate this project to claude-opus-4-8La compétence applique le changement d'identifiant de modèle et, si nécessaire, les modifications de paramètres incompatibles, le remplacement du préremplissage et le calibrage de l'effort pour votre modèle cible dans l'ensemble de votre base de code, puis produit une liste de contrôle des éléments à vérifier manuellement. Elle vous demande de confirmer le périmètre de la migration (répertoire de travail entier, un sous-répertoire ou une liste de fichiers spécifique) avant de modifier des fichiers. La compétence détecte également les clients Amazon Bedrock, Vertex AI, Claude Platform on AWS et Microsoft Foundry, et ajuste les formats d'identifiant de modèle et les changements de fonctionnalités pour chaque plateforme.
Claude Mythos 5 est le successeur à accès restreint de Claude Mythos Preview, l'aperçu de recherche sur invitation uniquement. Pour un modèle en disponibilité générale avec les mêmes capacités, consultez Claude Fable 5.
La migration est essentiellement un remplacement direct. Claude Mythos 5 utilise la même API Messages et les mêmes schémas d'utilisation d'outils que Claude Mythos Preview, et les comptages de tokens restent à peu près inchangés car les deux modèles utilisent le même tokenizer. Les principaux changements à vérifier sont les fonctionnalités qui ne sont plus disponibles (listées dans la section suivante) et la sortie de réflexion.
Pour le calendrier de retrait de Claude Mythos Preview, consultez Dépréciations de modèles.
model = "claude-mythos-preview" # Before
model = "claude-mythos-5" # AfterRéflexion étendue et budgets de tokens de réflexion : La réflexion étendue manuelle (thinking: {type: "enabled", budget_tokens: N}) n'est pas prise en charge sur claude-mythos-5 et renvoie une erreur 400. La réflexion adaptative est toujours activée : le modèle détermine quand et combien réfléchir à chaque requête, et aucune configuration thinking n'est requise. thinking: {type: "disabled"} renvoie une erreur. budget_tokens n'a pas de remplacement direct : la réflexion est adaptative, et le paramètre effort est un contrôle distinct au niveau de la sortie, pas un budget de réflexion.
Avant (Claude Mythos Preview) :
client.messages.create(
model="claude-mythos-preview",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}],
)Après (Claude Mythos 5) :
client.messages.create(
model="claude-mythos-5",
max_tokens=16000,
messages=[{"role": "user", "content": "..."}],
)Préremplissage de l'assistant : Le préremplissage du message de l'assistant n'est pas pris en charge sur claude-mythos-5 et renvoie une erreur 400, comme sur Claude Mythos Preview. Utilisez plutôt des instructions dans l'invite système.
Sortie de réflexion : Sur claude-mythos-5, la chaîne de pensée brute n'est jamais renvoyée, mais les blocs de réflexion contiennent toujours du texte résumé lisible lorsque thinking.display est défini sur summarized. Renvoyez les blocs de réflexion inchangés lorsque vous poursuivez une conversation sur le même modèle. Consultez Sortie de réflexion sur Claude Fable 5 et Claude Mythos 5.
claude-mythos-5 utilise le même tokenizer que claude-mythos-preview (le tokenizer introduit avec Claude Opus 4.7). Les comptages de tokens restent à peu près inchangés lors de la migration depuis claude-mythos-preview. Par rapport aux modèles antérieurs à Claude Opus 4.7, le même contenu peut être tokenisé en environ 30 % de tokens supplémentaires, variant selon le contenu et la forme de la charge de travail.
/v1/messages/count_tokens renvoie des valeurs à peu près inchangées pour claude-mythos-5 par rapport à claude-mythos-preview. Réétablissez une référence de coût et de latence sur vos propres charges de travail.
claude-mythos-preview vers claude-mythos-5.thinking: {type: "enabled", budget_tokens: N}). La réflexion adaptative est toujours activée, et aucun champ thinking n'est requis.thinking: {type: "disabled"}. La désactivation de la réflexion renvoie une erreur sur claude-mythos-5.budget_tokens. Il n'a pas de remplacement direct : la réflexion est adaptative, et le paramètre effort est un contrôle distinct au niveau de la sortie, pas un budget de réflexion.thinking le traite uniquement comme du texte d'affichage et renvoie les blocs de réflexion inchangés lors de la poursuite sur le même modèle. thinking.display est par défaut "omitted" sur claude-mythos-5, comme sur Claude Mythos Preview ; définissez display: "summarized" pour recevoir des résumés lisibles. Consultez Sortie de réflexion sur Claude Fable 5 et Claude Mythos 5.thinking et redacted_thinking des tours d'assistant précédents. Les blocs de réflexion de claude-mythos-5 sont liés au modèle qui les a produits, et les modèles autres que Claude Fable 5 et Claude Mythos 5 les ignorent silencieusement. Cette suppression permet de garder les requêtes inter-modèles minimales et uniformes.claude-mythos-preview.Claude Fable 5 est le modèle le plus performant d'Anthropic parmi ceux largement diffusés, en disponibilité générale sur l'API Claude, Claude Platform on AWS, Amazon Bedrock, Vertex AI et Microsoft Foundry.
La migration est essentiellement un remplacement direct. Claude Fable 5 utilise la même API Messages et les mêmes schémas d'utilisation d'outils que Claude Opus 4.8. Il prend en charge la même fenêtre de contexte de 1M de tokens par défaut et le même maximum de 128k tokens de sortie. Les comptages de tokens restent à peu près inchangés car les deux modèles utilisent le même tokenizer.
Les principaux changements à vérifier sont la réflexion adaptative toujours activée, la sortie de réflexion, les refus des classificateurs de sécurité et la tarification. Avant de migrer couvre la tarification et la rétention des données ; Ce qui a changé couvre le reste.
Claude Fable 5 est facturé à 10 $ par million de tokens d'entrée et 50 $ par million de tokens de sortie, contre 5 $ et 25 $ pour Claude Opus 4.8. Consultez Tarification de Claude pour plus de détails.
Claude Fable 5 nécessite une rétention des données de 30 jours et n'est pas disponible dans le cadre d'accords de « zero data retention » (rétention zéro des données), ou ZDR ; il est désigné comme un Modèle Couvert. Une requête provenant d'une organisation dont la configuration de rétention des données ne répond pas à cette exigence renvoie une erreur 400 invalid_request_error. Les organisations disposant d'un accord ZDR doivent contacter leur équipe de compte Anthropic pour discuter de la configuration de rétention des données ; Claude Opus 4.8 reste disponible sous ZDR. Vous pouvez également configurer la rétention des données par espace de travail ; consultez Exigences de rétention des données spécifiques aux modèles. Sur Amazon Bedrock, Vertex AI et Microsoft Foundry, la rétention des données est régie par chaque plateforme.
Si votre code est sur Claude Opus 4.7 ou antérieur, appliquez d'abord Migration de Claude Opus 4.7 vers Claude Opus 4.8 et, pour les modèles antérieurs à Claude Opus 4.7, les étapes de migration vers Claude Opus 4.7. Ces sections couvrent des changements incompatibles (paramètres d'échantillonnage rejetés, réflexion étendue manuelle rejetée, préremplissage supprimé, nouveau tokenizer) que cette section ne répète pas.
model = "claude-opus-4-8" # Before
model = "claude-fable-5" # AfterLes éléments de cette section décrivent les différences d'API et de comportement qu'il convient de vérifier après avoir changé l'identifiant du modèle.
La réflexion adaptative est toujours activée : La réflexion adaptative est le seul mode de réflexion sur claude-fable-5. Le modèle détermine quand et combien réfléchir à chaque requête, et aucune configuration thinking n'est requise. thinking: {type: "disabled"} renvoie une erreur. Utilisez le paramètre effort pour contrôler la profondeur de réflexion.
Le changement de comportement à vérifier : sur Claude Opus 4.8, les requêtes sans champ thinking s'exécutent sans réflexion ; sur claude-fable-5, ces mêmes requêtes s'exécutent avec la réflexion adaptative. max_tokens reste une limite stricte sur la sortie totale, réflexion plus texte de réponse, donc réexaminez-le pour les charges de travail qui s'exécutaient sans réflexion sur Claude Opus 4.8. Consultez Contrôle des coûts.
Avant (Claude Opus 4.8) :
client.messages.create(
model="claude-opus-4-8",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"},
messages=[{"role": "user", "content": "..."}],
)Après (Claude Fable 5) :
client.messages.create(
model="claude-fable-5",
max_tokens=16000,
output_config={"effort": "high"},
messages=[{"role": "user", "content": "..."}],
)Réflexion étendue et budgets de réflexion (inchangé) : La réflexion étendue manuelle (thinking: {type: "enabled", budget_tokens: N}) n'est pas prise en charge sur claude-fable-5 et renvoie une erreur 400, comme sur Claude Opus 4.8. budget_tokens n'a pas de remplacement direct : la réflexion est adaptative, et le paramètre effort est un contrôle distinct au niveau de la sortie, pas un budget de réflexion.
Préremplissage de l'assistant (inchangé) : Le préremplissage du message de l'assistant n'est pas pris en charge sur claude-fable-5 et renvoie une erreur 400, comme sur Claude Opus 4.8. Utilisez plutôt des instructions dans l'invite système.
Sortie de réflexion : Sur claude-fable-5, la chaîne de pensée brute n'est jamais renvoyée, mais les blocs de réflexion contiennent toujours du texte résumé lisible lorsque thinking.display est défini sur summarized. Renvoyez les blocs de réflexion inchangés lorsque vous poursuivez une conversation sur le même modèle. Consultez Sortie de réflexion sur Claude Fable 5 et Claude Mythos 5.
Classificateurs de sécurité et raison d'arrêt refusal : claude-fable-5 exécute des classificateurs de sécurité sur les requêtes et pendant la génération de réponse. Lorsqu'un classificateur refuse une requête, l'API Messages renvoie stop_reason: "refusal" sous forme de réponse HTTP 200 réussie, pas une erreur. Le champ stop_details.category indique quel classificateur s'est déclenché, avec des catégories telles que "cyber", "bio" et "reasoning_extraction", ou null lorsque le refus ne correspond à aucune catégorie nommée. Consultez le tableau des catégories de refus pour l'ensemble complet.
Vous n'êtes pas facturé pour les tokens d'entrée d'une requête refusée avant qu'une sortie ne soit générée. Lorsqu'un classificateur se déclenche en cours de streaming, l'entrée et la sortie déjà diffusée sont facturées ; supprimez la sortie partielle.
Pour réexécuter automatiquement les requêtes refusées sur un autre modèle, passez le paramètre opt-in fallbacks, qui est en bêta sur l'API Claude et Claude Platform on AWS. Le paramètre n'est pas disponible sur l'API Message Batches ni sur Amazon Bedrock, Vertex AI et Microsoft Foundry ; sur ces trois plateformes, exécutez la nouvelle tentative côté client ou utilisez le middleware de repli en cas de refus du SDK. Consultez Gestion des raisons d'arrêt.
Commencez avec l'effort high : La valeur par défaut du paramètre effort reste high. Sur Claude Opus 4.8, la recommandation pour le codage et le travail à haute autonomie est de définir explicitement xhigh. Sur claude-fable-5, utilisez high par défaut pour la plupart des tâches et réservez xhigh aux charges de travail les plus sensibles aux capacités. Les niveaux d'effort inférieurs sur claude-fable-5 donnent toujours de bons résultats et dépassent souvent les performances de xhigh sur les modèles précédents. Réduisez l'effort si une tâche se termine mais prend plus de temps que nécessaire. Consultez Prompting de Claude Fable 5.
Minimum de mise en cache des prompts réduit : La longueur minimale de prompt pouvant être mise en cache sur claude-fable-5 est de 512 tokens, inférieure aux 1 024 tokens sur Claude Opus 4.8. Les prompts qui étaient trop courts pour être mis en cache sur Claude Opus 4.8 peuvent désormais créer des entrées de cache, sans modification de code requise. Sur Amazon Bedrock, le minimum pour claude-fable-5 est de 1 024 tokens. Consultez Mise en cache des prompts pour les minimums par modèle.
claude-fable-5 nécessite une rétention des données de 30 jours et renvoie une erreur 400 invalid_request_error dans le cas contraire. Consultez Exigences de rétention des données spécifiques aux modèles.claude-opus-4-8 vers claude-fable-5.thinking: {type: "disabled"}. La désactivation de la réflexion renvoie une erreur sur claude-fable-5, et les requêtes sans champ thinking s'exécutent avec la réflexion adaptative.claude-fable-5.thinking le traite uniquement comme du texte d'affichage et renvoie les blocs de réflexion inchangés lors de la poursuite sur le même modèle. thinking.display est par défaut "omitted" sur claude-fable-5, comme sur Claude Opus 4.8 ; définissez display: "summarized" pour recevoir des résumés lisibles. Consultez Sortie de réflexion sur Claude Fable 5 et Claude Mythos 5.thinking et redacted_thinking des tours d'assistant précédents. Les blocs de réflexion de claude-fable-5 sont liés au modèle qui les a produits, et les modèles autres que Claude Fable 5 et Claude Mythos 5 les ignorent silencieusement. Cette suppression permet de garder les requêtes inter-modèles minimales et uniformes. L'exception est l'utilisation d'un crédit de repli, qui nécessite que le corps de la requête soit renvoyé selon les règles exactes de cette fonctionnalité.stop_reason: "refusal" et lisez le champ stop_details.category. Pour réexécuter automatiquement les requêtes refusées sur un autre modèle, envisagez le paramètre opt-in fallbacks (bêta). Consultez Gestion des raisons d'arrêt.effort. Commencez à high pour la plupart des tâches, y compris les charges de travail qui s'exécutaient à xhigh sur Claude Opus 4.8.claude-opus-4-8 ; la tarification par token diffère.Claude Opus 4.8 est le modèle de niveau Opus le plus performant d'Anthropic. Il s'appuie sur Claude Opus 4.7.
Claude Opus 4.8 devrait offrir de solides performances prêtes à l'emploi sur les prompts et évaluations existants de Claude Opus 4.7. Il n'y a aucun changement d'API incompatible pour le code déjà exécuté sur Claude Opus 4.7. Il prend en charge le même ensemble de fonctionnalités que Claude Opus 4.7, notamment la fenêtre de contexte de 1M de tokens, le maximum de 128k tokens de sortie, la réflexion adaptative, la mise en cache des prompts, le traitement par lots, l'API Files, la prise en charge des PDF, la vision et l'ensemble complet des outils côté serveur et côté client. Il ajoute également les messages système en milieu de conversation et documente publiquement les détails d'arrêt en cas de refus.
Si votre code est sur Claude Opus 4.6 ou antérieur, appliquez également les étapes de migration vers Claude Opus 4.7 ci-dessous avant de passer à Claude Opus 4.8. Ces étapes incluent des changements incompatibles (paramètres d'échantillonnage rejetés, réflexion étendue manuelle rejetée, nouveau tokenizer) que la mise à niveau vers 4.8 seule ne couvre pas.
Sur Microsoft Foundry, Claude Opus 4.8 dispose d'une fenêtre de contexte de 200k tokens au lancement. La fenêtre de contexte de 1M s'applique sur l'API Claude, Amazon Bedrock et Vertex AI. Consultez Claude dans Microsoft Foundry.
# Migration Opus
model = "claude-opus-4-7" # Before
model = "claude-opus-4-8" # AfterIl ne s'agit pas de changements incompatibles. Le code qui s'exécute sur Claude Opus 4.7 continue de fonctionner sans modification sur Claude Opus 4.8. Les éléments ci-dessous décrivent les différences de comportement qu'il convient de vérifier après avoir changé l'identifiant du modèle.
Paramètres d'échantillonnage (inchangé) : Définir temperature, top_p ou top_k à une valeur autre que celle par défaut renvoie une erreur 400 sur Claude Opus 4.8, comme sur Claude Opus 4.7. Les types de requête du SDK définissent toujours ces champs pour la compatibilité avec les modèles antérieurs, donc le code qui les définit passe la vérification de type, mais l'API rejette la requête côté serveur. Si vous avez supprimé ces paramètres lors de la migration vers Opus 4.7, aucune modification supplémentaire n'est nécessaire.
La valeur par défaut de l'effort est high : La valeur par défaut du paramètre effort sur Claude Opus 4.8 est high sur toutes les surfaces, y compris Claude Code et l'API Messages. Si vous définissez déjà l'effort explicitement, votre paramètre reste inchangé. Pour le codage et le travail à haute autonomie, définissez explicitement xhigh. Réévaluez votre paramètre d'effort par rapport à votre budget de latence et de coût.
La fenêtre de contexte de 1M est la valeur par défaut : Claude Opus 4.8 fournit la fenêtre de contexte complète de 1M de tokens par défaut, sans en-tête bêta et sans supplément pour contexte long. Si votre client passe un en-tête bêta de fenêtre de contexte pour la compatibilité avec les modèles plus anciens, vous pouvez le supprimer sur Claude Opus 4.8.
Messages système en milieu de conversation : Claude Opus 4.8 accepte les messages role: "system" immédiatement après un tour utilisateur dans le tableau messages (sous réserve des règles de placement). Utilisez le champ system de niveau supérieur pour les instructions qui s'appliquent dès le début. Les modèles antérieurs, y compris Claude Opus 4.7, rejettent role: "system" dans messages avec une erreur 400. Si vous maintenez des chemins de code qui reconstruisent l'historique complet des messages pour mettre à jour les instructions, vous pouvez les simplifier et préserver les correspondances de cache de prompts sur les tours antérieurs.
Détails d'arrêt en cas de refus : L'objet stop_details sur les réponses de refus (disponible depuis Claude Opus 4.7) est désormais documenté publiquement. Lorsque le modèle refuse une requête, il identifie la catégorie de refus, en plus de la raison d'arrêt refusal existante. Aucun en-tête bêta n'est requis, et il n'y a pas de désactivation possible. Consultez Gestion des raisons d'arrêt.
Minimum de mise en cache des prompts réduit : La longueur minimale de prompt pouvant être mise en cache sur Claude Opus 4.8 est de 1 024 tokens, inférieure à celle de Claude Opus 4.7. Les prompts qui étaient trop courts pour être mis en cache sur Claude Opus 4.7 peuvent désormais créer des entrées de cache, sans modification de code requise. Consultez Mise en cache des prompts pour les minimums par modèle.
Niveaux d'effort recalibrés : L'allocation de tokens derrière chaque niveau d'effort change sur Claude Opus 4.8 par rapport à Claude Opus 4.7 : medium permet un peu plus de réflexion, high un peu moins, et xhigh substantiellement plus. Si vous avez ajusté un niveau d'effort en fonction du coût ou de la latence de Claude Opus 4.7, réétablissez une référence au même niveau avant de l'ajuster. Consultez Effort.
claude-opus-4-7 vers claude-opus-4-8 (ou mettez à jour les alias).effort. La valeur par défaut est high sur toutes les surfaces ; pour le codage et le travail à haute autonomie, définissez explicitement xhigh.stop_details sur les refus (disponible depuis Claude Opus 4.7 ; désormais documenté publiquement).Claude Opus 4.7 est hautement autonome et excelle dans le travail agentique à long horizon, le travail de connaissance, les tâches de vision et les tâches de mémoire.
Claude Opus 4.7 devrait offrir de solides performances prêtes à l'emploi sur les prompts et évaluations existants de Claude Opus 4.6 au même tarif de $5 / $25 par MTok, mais il existe quelques changements de comportement et d'API à connaître lors de votre migration. Il prend en charge le même ensemble de fonctionnalités que Claude Opus 4.6, notamment :
# Migration Opus
model = "claude-opus-4-6" # Before
model = "claude-opus-4-7" # AfterRéflexion étendue supprimée : thinking: {type: "enabled", budget_tokens: N} n'est plus pris en charge sur Claude Opus 4.7 ou les modèles ultérieurs et renvoie une erreur 400. Passez à la réflexion adaptative (thinking: {type: "adaptive"}) et utilisez le paramètre effort pour contrôler la profondeur de réflexion. La réflexion adaptative est désactivée par défaut sur Claude Opus 4.7 : les requêtes sans champ thinking s'exécutent sans réflexion, correspondant au comportement d'Opus 4.6. Définissez explicitement thinking: {type: "adaptive"} pour l'activer.
Avant (Claude Opus 4.6) :
client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}],
)Après (Claude Opus 4.7) :
client.messages.create(
model="claude-opus-4-7",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"}, # or "max", "xhigh", "medium", "low"
messages=[{"role": "user", "content": "..."}],
)La réflexion adaptative est orientable par le prompting. Pour des conseils sur l'ajustement lorsque le modèle réfléchit trop ou pas assez, consultez Calibrage de l'effort et de la profondeur de réflexion.
Paramètres d'échantillonnage supprimés : Définir temperature, top_p ou top_k à une valeur autre que celle par défaut sur Claude Opus 4.7 renvoie une erreur 400. Le chemin de migration le plus sûr consiste à omettre entièrement ces paramètres des charges utiles de requête. Le prompting est la méthode recommandée pour guider le comportement du modèle sur Claude Opus 4.7. Si vous utilisiez temperature = 0 pour le déterminisme, notez que cela n'a jamais garanti des sorties identiques sur les modèles précédents.
Contenu de réflexion omis par défaut : Les blocs de réflexion apparaissent toujours dans le flux de réponse sur Claude Opus 4.7, mais leur champ thinking est vide sauf si vous activez explicitement cette option. Il s'agit d'un changement silencieux par rapport à Claude Opus 4.6, où la valeur par défaut était de renvoyer le texte de réflexion résumé. Pour restaurer le contenu de réflexion résumé sur Claude Opus 4.7, définissez thinking.display sur "summarized" :
thinking = {
"type": "adaptive",
"display": "summarized",
}La valeur par défaut est "omitted" sur Claude Opus 4.7. Si votre produit diffuse le raisonnement aux utilisateurs, la nouvelle valeur par défaut apparaît comme une longue pause avant le début de la sortie ; définissez display: "summarized" pour restaurer une progression visible pendant la réflexion. Consultez Réflexion étendue pour plus de détails.
Comptage de tokens mis à jour : Claude Opus 4.7 utilise un nouveau tokenizer, contribuant à ses performances améliorées sur un large éventail de tâches. Le nouveau tokenizer peut utiliser environ 1x à 1,35x plus de tokens lors du traitement de texte par rapport aux modèles précédents (jusqu'à ~35 % de plus, variant selon le contenu).
/v1/messages/count_tokens renverra un nombre de tokens différent pour Claude Opus 4.7 par rapport à Claude Opus 4.6. L'efficacité des tokens peut varier selon la forme de la charge de travail.
Les interventions de prompting, task_budget et effort peuvent aider à contrôler les coûts et à garantir une utilisation appropriée des tokens. Ces contrôles peuvent impliquer un compromis sur l'intelligence du modèle. Mettez à jour vos paramètres max_tokens pour donner une marge supplémentaire, y compris les déclencheurs de compactage. Claude Opus 4.7 fournit une fenêtre de contexte de 1M au tarif API standard sans supplément pour contexte long.
Suppression du préremplissage (reporté d'Opus 4.6) : Le préremplissage des messages de l'assistant renvoie une erreur 400 sur Claude Opus 4.7. Utilisez plutôt les sorties structurées, les instructions d'invite système ou output_config.format.
Le paramètre effort vous permet d'ajuster l'intelligence de Claude par rapport à la dépense de tokens, en échangeant la capacité contre une vitesse plus rapide et des coûts plus faibles. Commencez avec le nouveau niveau d'effort xhigh pour les cas d'usage de codage et agentiques, et utilisez un minimum d'effort high pour la plupart des cas d'usage sensibles à l'intelligence. Expérimentez avec d'autres niveaux d'effort pour affiner davantage l'utilisation des tokens et l'intelligence :
max : L'effort maximal peut apporter des gains de performance dans certains cas d'usage, mais peut montrer des rendements décroissants par rapport à l'augmentation de l'utilisation des tokens. Ce paramètre peut aussi parfois être sujet à une réflexion excessive. Testez l'effort maximal pour les tâches exigeantes en intelligence.xhigh (nouveau) : L'effort extra élevé est le meilleur paramètre pour la plupart des cas d'usage de codage et agentiques.high : Ce paramètre équilibre l'utilisation des tokens et l'intelligence. Pour la plupart des cas d'usage sensibles à l'intelligence, utilisez un minimum d'effort high.medium : Adapté aux cas d'usage sensibles aux coûts qui doivent réduire l'utilisation des tokens tout en faisant un compromis sur l'intelligence.low : À réserver aux tâches courtes et délimitées et aux charges de travail sensibles à la latence qui ne sont pas sensibles à l'intelligence.L'effort est plus important pour ce modèle que pour tout Opus précédent. Expérimentez activement avec ce paramètre lors de votre mise à niveau.
Claude Opus 4.7 présente plusieurs différences de comportement par rapport à Claude Opus 4.6 qui ne constituent pas des changements incompatibles avec l'API, mais qui peuvent nécessiter des mises à jour de prompts ou la suppression d'échafaudages.
La longueur des réponses varie selon le cas d'usage : Claude Opus 4.7 calibre la longueur de ses réponses en fonction de la complexité qu'il attribue à la tâche, plutôt que d'adopter par défaut un niveau de verbosité fixe. Cela signifie généralement des réponses plus courtes pour les recherches simples et beaucoup plus longues pour les analyses ouvertes.
Si votre produit dépend d'un certain style ou d'une certaine verbosité de sortie, vous devrez peut-être ajuster vos prompts. Par exemple, pour réduire la verbosité, ajoutez : « Fournis des réponses concises et ciblées. Omets le contexte non essentiel et limite les exemples au minimum. » Si vous observez des types spécifiques de sur-explication, ajoutez des instructions ciblées dans votre prompt pour les éviter.
Les exemples positifs montrant comment Claude peut communiquer avec le niveau de concision approprié tendent à être plus efficaces que les exemples négatifs ou les instructions indiquant au modèle ce qu'il ne doit pas faire.
Suivi plus littéral des instructions : Claude Opus 4.7 interprète les prompts de manière plus littérale et explicite que Claude Opus 4.6, en particulier aux niveaux d'effort inférieurs. Il ne généralisera pas silencieusement une instruction d'un élément à un autre et n'inférera pas de demandes que vous n'avez pas formulées. L'avantage de ce littéralisme est la précision et moins d'allers-retours. Il fonctionne généralement mieux pour les cas d'usage API avec des prompts soigneusement ajustés, l'extraction structurée et les pipelines où vous souhaitez un comportement prévisible. Une revue des prompts et du harnais peut être particulièrement utile pour la migration vers Claude Opus 4.7.
Ton plus direct : Comme avec tout nouveau modèle, le style de prose sur les écrits longs peut évoluer. Claude Opus 4.7 est plus direct et affirmé, avec moins de formulations axées sur la validation et moins d'emojis que le style plus chaleureux de Claude Opus 4.6. Si votre produit repose sur une voix spécifique, réévaluez les prompts de style par rapport à la nouvelle référence.
Mises à jour de progression intégrées dans les traces agentiques : Claude Opus 4.7 fournit des mises à jour plus régulières et de meilleure qualité à l'utilisateur tout au long des longues traces agentiques. Si vous avez ajouté un échafaudage pour forcer des messages d'état intermédiaires (« Après chaque série de 3 appels d'outils, résume la progression »), essayez de le supprimer. Si vous constatez que la longueur ou le contenu des mises à jour destinées à l'utilisateur de Claude Opus 4.7 ne sont pas bien calibrés pour votre cas d'usage, décrivez explicitement à quoi ces mises à jour devraient ressembler dans le prompt et fournissez des exemples.
Moins de sous-agents générés par défaut : Claude Opus 4.7 a tendance à générer moins de sous-agents par défaut. Cependant, ce comportement est orientable via le prompting ; donnez à Claude Opus 4.7 des directives explicites sur les situations où les sous-agents sont souhaitables.
Calibration plus stricte de l'effort : Changement significatif par rapport à Claude Opus 4.6, Claude Opus 4.7 respecte strictement les niveaux d'effort, en particulier dans la partie basse. Aux niveaux low et medium, le modèle limite son travail à ce qui a été demandé plutôt que d'aller au-delà.
C'est bénéfique pour la latence et le coût, mais sur des tâches modérément complexes exécutées au niveau d'effort low, il existe un certain risque de sous-réflexion. Si vous observez un raisonnement superficiel sur des problèmes complexes, augmentez l'effort à high ou xhigh plutôt que de contourner le problème par le prompting.
Si vous devez maintenir l'effort à low pour des raisons de latence, ajoutez des directives ciblées : « Cette tâche implique un raisonnement en plusieurs étapes. Réfléchis soigneusement au problème avant de répondre. » Consultez Niveaux d'effort recommandés pour Claude Opus 4.7.
Moins d'appels d'outils par défaut : Claude Opus 4.7 a tendance à utiliser les outils moins souvent que Claude Opus 4.6 et à recourir davantage au raisonnement. Cela produit de meilleurs résultats dans la plupart des cas.
Pour augmenter l'utilisation d'outils, augmentez le paramètre d'effort. Les paramètres d'effort high ou xhigh montrent une utilisation d'outils nettement plus importante dans la recherche agentique et le codage. Vous pouvez également ajuster votre prompt pour indiquer explicitement au modèle quand et comment utiliser correctement ses outils.
Garde-fous de cybersécurité en temps réel : Nouveauté dans Claude Opus 4.7, les requêtes impliquant des sujets interdits ou à haut risque peuvent entraîner des refus. Pour les travaux de sécurité légitimes tels que les tests d'intrusion, la recherche de vulnérabilités ou le red-teaming, postulez au Cyber Verification Program pour demander des restrictions réduites. Consultez Garde-fous, avertissements et recours pour plus de contexte.
Prise en charge des images haute résolution : Claude Opus 4.7 est le premier modèle Claude à prendre en charge les images haute résolution. La résolution maximale des images est de 2576 pixels sur le côté long, contre 1568 pixels sur les modèles précédents. Cela débloque des gains sur les charges de travail fortement axées sur la vision et est particulièrement précieux pour l'utilisation d'ordinateur, la compréhension de captures d'écran et l'analyse de documents.
La prise en charge haute résolution est automatique et ne nécessite aucun en-tête bêta ni activation côté client. Deux éléments à prévoir :
max_tokens et les prévisions de coût pour les charges de travail riches en images, ou sous-échantillonnez avant l'envoi si vous n'avez pas besoin de la fidélité supplémentaire.Consultez Prise en charge des images haute résolution sur Claude Opus 4.7 pour plus de détails.
Ces changements ne sont pas obligatoires mais amélioreront votre expérience :
Réévaluez max_tokens : Comme le même texte produit un nombre de tokens plus élevé sur Claude Opus 4.7, mettez à jour vos paramètres max_tokens pour offrir une marge supplémentaire, y compris les déclencheurs de compactage. Les interventions de prompting, task_budget et effort peuvent aider à contrôler les coûts et à garantir une utilisation appropriée des tokens.
Auditez les attentes en matière de comptage de tokens : Tout chemin de code qui estime les tokens côté client ou suppose un ratio fixe token/caractère doit être retesté avec Claude Opus 4.7. Utilisez le point de terminaison de comptage de tokens pour vérifier.
Adoptez les budgets de tâche (bêta) : Claude Opus 4.7 introduit les budgets de tâche. Ces budgets vous permettent d'informer Claude du nombre de tokens dont il dispose pour une boucle agentique complète, incluant la réflexion, les appels d'outils, les résultats d'outils et la sortie finale. Le modèle voit un compte à rebours en cours et l'utilise pour prioriser le travail et terminer la tâche proprement à mesure que le budget est consommé. Pour l'utiliser, définissez l'en-tête bêta task-budgets-2026-03-13 et ajoutez ce qui suit à votre configuration de sortie :
output_config = {
"effort": "high",
"task_budget": {"type": "tokens", "total": 128000},
}Vous devrez peut-être expérimenter avec différents budgets de tâche pour votre cas d'usage. Si le modèle reçoit un budget de tâche trop restrictif, il peut accomplir la tâche de manière moins approfondie, en mentionnant son budget comme contrainte.
Pour les tâches agentiques ouvertes où la qualité prime sur la vitesse, ne définissez pas de budget de tâche. Réservez les budgets de tâche aux charges de travail où vous avez besoin que le modèle limite son travail à une allocation de tokens. La valeur minimale pour un budget de tâche est de 20k tokens.
Un budget de tâche n'est pas un plafond strict ; c'est une suggestion dont le modèle a connaissance. Il diffère de max_tokens :
task_budget : un plafond indicatif sur l'ensemble de la boucle agentique. Le modèle le voit et l'utilise pour rythmer son travail.max_tokens : un plafond strict par requête sur les tokens générés. Il n'est pas transmis au modèle, donc le modèle n'en a pas connaissance.Utilisez task_budget lorsque vous souhaitez que le modèle s'auto-modère, et max_tokens comme plafond strict pour limiter l'utilisation.
Définissez un max_tokens élevé aux niveaux d'effort max ou xhigh : Si vous exécutez Claude Opus 4.7 au niveau d'effort max ou xhigh, définissez un budget de tokens de sortie maximal élevé afin que le modèle ait de la marge pour réfléchir et agir à travers ses sous-agents et appels d'outils. Commencez à 64k tokens et ajustez à partir de là.
Sous-échantillonnez les images si la haute résolution n'est pas nécessaire : Claude Opus 4.7 prend en charge les images jusqu'à 2576 px / 3,75 MP. Les images haute résolution utilisent plus de tokens. Si la fidélité d'image supplémentaire n'est pas nécessaire, sous-échantillonnez les images avant de les envoyer à Claude pour éviter les augmentations d'utilisation de tokens. Consultez Images et vision.
claude-opus-4-6 à claude-opus-4-7 (ou mettez à jour les alias).temperature, top_p et top_k des charges utiles de requête.thinking: {type: "enabled", budget_tokens: N} par thinking: {type: "adaptive"} plus le paramètre d'effort.max_tokens pour tenir compte de la tokenisation mise à jour.xhigh ou max, augmentez max_tokens à au moins 64k comme point de départ.Si vous migrez depuis Claude Opus 4.5, Opus 4.1 (déprécié) ou un modèle antérieur directement vers Claude Opus 4.7, appliquez tous les changements Opus 4.7 ci-dessus plus les changements cumulatifs de cette section qui ont pris effet entre Opus 4.5 et Opus 4.7. Si vous migrez depuis Opus 4.6, vous n'avez besoin que de la section Opus 4.7 ci-dessus.
# Migration Opus
model = "claude-opus-4-5" # Before
model = "claude-opus-4-7" # AfterLa suppression du préremplissage est couverte dans les changements incompatibles d'Opus 4.7 ci-dessus.
Échappement des paramètres d'outils : Claude Opus 4.6 et les modèles ultérieurs peuvent produire un échappement de chaînes JSON légèrement différent dans les arguments d'appel d'outils (par exemple, une gestion différente des échappements Unicode ou de l'échappement des barres obliques). Si vous analysez le champ input d'un appel d'outil comme une chaîne brute plutôt qu'en utilisant un analyseur JSON, vérifiez votre logique d'analyse. Les analyseurs JSON standard (comme json.loads() ou JSON.parse()) gèrent ces différences automatiquement.
Ces changements améliorent votre expérience sur Opus 4.7. Les éléments marqués (obligatoire sur Opus 4.7) étaient des recommandations facultatives lors du lancement d'Opus 4.6 mais sont désormais obligatoires ; les autres restent recommandés.
Migrez vers la réflexion adaptative (obligatoire sur Opus 4.7) : thinking: {type: "enabled", budget_tokens: N} renvoie une erreur 400 sur Claude Opus 4.7. Passez à thinking: {type: "adaptive"} et utilisez le paramètre d'effort pour contrôler la profondeur de réflexion. Consultez Réflexion adaptative.
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 32000},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Notez que la migration passe également de client.beta.messages.create à client.messages.create. La réflexion adaptative et l'effort sont des fonctionnalités en disponibilité générale et ne nécessitent ni l'espace de noms SDK bêta ni aucun en-tête bêta.
Supprimez l'en-tête bêta d'effort : Le paramètre d'effort est désormais en disponibilité générale. Supprimez betas=["effort-2025-11-24"] de vos requêtes.
Supprimez l'en-tête bêta de streaming d'outils à granularité fine : Le streaming d'outils à granularité fine est désormais en disponibilité générale. Supprimez betas=["fine-grained-tool-streaming-2025-05-14"] de vos requêtes.
Supprimez l'en-tête bêta de réflexion entrelacée : La réflexion adaptative active automatiquement la réflexion entrelacée sur Claude Opus 4.7, Opus 4.6 et Sonnet 4.6. Supprimez betas=["interleaved-thinking-2025-05-14"] de vos requêtes. L'en-tête reste fonctionnel sur Sonnet 4.6 avec la réflexion étendue manuelle, mais le mode manuel est déprécié.
Migrez vers output_config.format : Si vous utilisez les sorties structurées, remplacez output_format={...} par output_config={"format": {...}}. L'ancien paramètre reste fonctionnel mais est déprécié et sera supprimé dans une future version de modèle.
Si vous migrez depuis Opus 4.1 (déprécié) ou des modèles antérieurs directement vers Claude Opus 4.7, appliquez les changements Claude Opus 4.7 en haut de ce guide et les changements cumulatifs ci-dessus, plus les changements supplémentaires de cette section.
# Depuis Opus 4.1
model = "claude-opus-4-1-20250805" # Before
model = "claude-opus-4-7" # After
# Depuis Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Before
model = "claude-opus-4-7" # AfterSupprimez les paramètres d'échantillonnage
Il s'agit d'un changement incompatible lors de la migration depuis les modèles Claude 3.x.
À partir de Claude Opus 4.7, définir temperature, top_p ou top_k à une valeur autre que la valeur par défaut renverra une erreur 400. Le chemin de migration le plus sûr consiste à omettre entièrement ces paramètres des requêtes et à utiliser le prompting pour guider le comportement du modèle. Si vous utilisiez temperature = 0 pour le déterminisme, notez que cela n'a jamais garanti des sorties identiques.
# Avant - Ceci générera une erreur avec les modèles Claude 4+
response = client.messages.create(
model="claude-3-7-sonnet-20250219",
temperature=0.7,
top_p=0.9, # Non-default sampling params return 400 on Opus 4.7
# ...
)
# Après
response = client.messages.create(
model="claude-opus-4-7",
# ...
)Mettez à jour les versions d'outils
Il s'agit d'un changement incompatible lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions d'outils. Supprimez tout code utilisant la commande undo_edit.
# Avant
tools = [{"type": "text_editor_20250124", "name": "str_replace_editor"}]
# Après
tools = [{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"}]text_editor_20250728 et str_replace_based_edit_tool. Consultez la documentation de l'outil d'édition de texte pour plus de détails.code_execution_20250825. Consultez la documentation de l'outil d'exécution de code pour les instructions de migration.Gérez la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal :
response = client.messages.create(...)
if response.stop_reason == "refusal":
# Gérer le refus de manière appropriée
passGérez la raison d'arrêt model_context_window_exceeded
Les modèles Claude 4.5+ renvoient une raison d'arrêt model_context_window_exceeded lorsque la génération s'arrête parce que la limite de la fenêtre de contexte a été atteinte, plutôt que la limite max_tokens demandée. Mettez à jour votre application pour gérer cette nouvelle raison d'arrêt :
response = client.messages.create(...)
if response.stop_reason == "model_context_window_exceeded":
# Gérer la limite de la fenêtre de contexte de manière appropriée
passVérifiez la gestion des paramètres d'outils (sauts de ligne finaux)
Les modèles Claude 4.5+ préservent les sauts de ligne finaux dans les paramètres de chaîne des appels d'outils qui étaient auparavant supprimés. Si vos outils reposent sur une correspondance exacte de chaînes avec les paramètres d'appel d'outils, vérifiez que votre logique gère correctement les sauts de ligne finaux.
Mettez à jour vos prompts pour les changements de comportement
Les modèles Claude 4+ ont un style de communication plus concis et direct et nécessitent des directives explicites. Consultez les bonnes pratiques de prompting pour des conseils d'optimisation.
token-efficient-tools-2025-02-19 et output-128k-2025-02-19. Tous les modèles Claude 4+ intègrent nativement l'utilisation d'outils économe en tokens et ces en-têtes n'ont aucun effet.claude-opus-4-7output_config.format à la placethinking: {type: "enabled", budget_tokens: N} par thinking: {type: "adaptive"} plus le paramètre d'effort (renvoie une erreur 400 sur Opus 4.7)effort-2025-11-24 (l'effort est désormais en disponibilité générale)fine-grained-tool-streaming-2025-05-14interleaved-thinking-2025-05-14 (la réflexion adaptative active automatiquement la réflexion entrelacée)output_format vers output_config.format (le cas échéant)temperature, top_p et top_k (les valeurs autres que par défaut renvoient une erreur 400 sur Opus 4.7)text_editor_20250728, code_execution_20250825)refusalmodel_context_window_exceededtoken-efficient-tools-2025-02-19, output-128k-2025-02-19)Claude Sonnet 4.6 combine une intelligence solide avec des performances rapides, offrant des capacités de recherche agentique améliorées et une exécution de code gratuite lorsqu'elle est utilisée avec la recherche web ou la récupération web. Il est idéal pour les tâches quotidiennes de codage, d'analyse et de contenu.
Pour un aperçu complet des capacités, consultez la vue d'ensemble des modèles.
La tarification de Sonnet 4.6 est de 3 $ par million de tokens d'entrée, 15 $ par million de tokens de sortie. Consultez la tarification de Claude pour plus de détails.
Mettez à jour le nom de votre modèle :
# À partir de Sonnet 4.5
model = "claude-sonnet-4-5" # Before
model = "claude-sonnet-4-6" # AfterLe préremplissage des messages assistant n'est plus pris en charge
Il s'agit d'un changement incompatible lors de la migration depuis Sonnet 4.5 ou antérieur.
Le préremplissage des messages assistant renvoie une erreur 400 sur Sonnet 4.6. Utilisez les sorties structurées, les instructions d'invite système ou output_config.format à la place.
Cas d'usage courants du préremplissage et migrations :
Contrôle du formatage de sortie (forcer une sortie JSON/YAML) : Utilisez les sorties structurées ou des outils avec des champs enum pour les tâches de classification.
Élimination des préambules (suppression des phrases « Voici... ») : Ajoutez des instructions directes dans l'invite système : « Réponds directement sans préambule. Ne commence pas par des phrases comme "Voici...", "D'après...", etc. »
Éviter les refus inappropriés : Claude est désormais bien meilleur pour les refus appropriés. Un prompting clair dans le message utilisateur sans préremplissage devrait suffire.
Continuations (reprise de réponses interrompues) : Déplacez la continuation vers le message utilisateur : « Ta réponse précédente a été interrompue et s'est terminée par [previous_response]. Continue là où tu t'es arrêté. »
Hydratation de contexte / cohérence de rôle (rafraîchissement du contexte dans les longues conversations) : Injectez ce qui était auparavant des rappels assistant préremplis dans le tour utilisateur à la place.
L'échappement JSON des paramètres d'outils peut différer
Il s'agit d'un changement incompatible lors de la migration depuis Sonnet 4.5 ou antérieur.
L'échappement des chaînes JSON dans les paramètres d'outils peut différer des modèles précédents. Les analyseurs JSON standard gèrent cela automatiquement, mais l'analyse personnalisée basée sur les chaînes peut nécessiter des mises à jour.
Mettez à jour les paramètres d'échantillonnage
Il s'agit d'un changement incompatible lors de la migration depuis les modèles Claude 3.x.
Utilisez uniquement temperature OU top_p, pas les deux.
Mettez à jour les versions d'outils
Il s'agit d'un changement incompatible lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions d'outils (text_editor_20250728, code_execution_20250825). Supprimez tout code utilisant la commande undo_edit.
Gérez la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal.
Mettez à jour vos prompts pour les changements de comportement
Les modèles Claude 4 ont un style de communication plus concis et direct. Consultez les bonnes pratiques de prompting pour des conseils d'optimisation.
fine-grained-tool-streaming-2025-05-14 : Le streaming d'outils à granularité fine est désormais en disponibilité générale sur Sonnet 4.6 et ne nécessite plus d'en-tête bêta.output_format vers output_config.format : Le paramètre output_format est déprécié. Utilisez output_config.format à la place.Envisagez de migrer de Sonnet 4.5 vers Sonnet 4.6, qui offre plus d'intelligence au même prix.
Sonnet 4.6 utilise par défaut un niveau d'effort high, contrairement à Sonnet 4.5 qui n'avait pas de paramètre d'effort. Envisagez d'ajuster le paramètre d'effort lors de votre migration de Sonnet 4.5 vers Sonnet 4.6. S'il n'est pas défini explicitement, vous pourriez constater une latence plus élevée avec le niveau d'effort par défaut.
Si vous n'utilisez pas la réflexion étendue sur Sonnet 4.5, vous pouvez continuer sans elle sur Sonnet 4.6. Vous devriez définir explicitement l'effort au niveau approprié pour votre cas d'usage. Au niveau d'effort low avec la réflexion désactivée, vous pouvez vous attendre à des performances similaires ou supérieures par rapport à Sonnet 4.5 sans réflexion étendue.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
output_config={"effort": "low"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Si vous utilisez la réflexion étendue avec budget_tokens sur Sonnet 4.5, elle reste fonctionnelle sur Sonnet 4.6 mais est dépréciée. Migrez vers la réflexion adaptative avec le paramètre d'effort.
La réflexion adaptative est le remplacement recommandé de budget_tokens sur Sonnet 4.6. Elle est particulièrement bien adaptée aux types de charges de travail suivants :
high. Si la latence ou l'utilisation de tokens est une préoccupation, réduisez à medium.Lorsque vous utilisez la réflexion adaptative, évaluez les niveaux d'effort medium et high sur vos tâches. Le bon niveau dépend du compromis de votre charge de travail entre qualité, latence et utilisation de tokens.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=64000,
thinking={"type": "adaptive"},
output_config={"effort": "medium"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Si vous constatez un comportement incohérent ou des régressions de qualité avec la réflexion adaptative, essayez d'abord de réduire le paramètre d'effort ou d'utiliser max_tokens comme limite stricte. La réflexion étendue avec budget_tokens reste fonctionnelle sur Sonnet 4.6 mais est dépréciée et n'est plus recommandée.
Si vous devez conserver budget_tokens temporairement pendant la migration, un budget d'environ 16k tokens offre une marge pour les problèmes plus difficiles sans risque d'utilisation incontrôlée de tokens. Cette configuration est dépréciée et sera supprimée dans une future version de modèle.
Pour le codage agentique, la conception frontend, les workflows riches en outils et les workflows d'entreprise complexes, commencez avec le niveau d'effort medium. Si vous trouvez que la latence est trop élevée, envisagez de réduire l'effort à low. Si vous avez besoin d'une intelligence supérieure, envisagez d'augmenter l'effort à high ou de migrer vers Opus 4.7.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=16384,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "medium"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Pour le chat, la génération de contenu, la recherche, la classification et autres tâches hors codage, commencez avec le niveau d'effort low avec la réflexion étendue. Si vous avez besoin de plus de profondeur, augmentez l'effort à medium.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "low"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)claude-sonnet-4-6output_config.format à la placetext_editor_20250728, code_execution_20250825) ; les versions héritées ne sont pas prises en charge (si vous migrez depuis 3.x)undo_edit (le cas échéant)temperature OU top_p, pas les deux (si vous migrez depuis 3.x)refusal dans votre applicationfine-grained-tool-streaming-2025-05-14 (désormais en disponibilité générale)output_format vers output_config.formatthinking: {type: "enabled", budget_tokens: N} vers thinking: {type: "adaptive"} avec le paramètre d'effort (budget_tokens est déprécié et sera supprimé dans une future version)Claude Sonnet 4.5 combine une intelligence solide avec des performances rapides, ce qui le rend idéal pour les tâches quotidiennes de codage, d'analyse et de contenu.
Pour un aperçu complet des capacités, consultez la vue d'ensemble des modèles.
La tarification de Sonnet 4.5 est de 3 $ par million de tokens d'entrée, 15 $ par million de tokens de sortie. Consultez la tarification de Claude pour plus de détails.
Mettez à jour le nom de votre modèle :
# À partir de Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Before
model = "claude-sonnet-4-5-20250929" # AfterCes changements incompatibles s'appliquent lors de la migration depuis les modèles Claude 3.x Sonnet.
Mettez à jour les paramètres d'échantillonnage
Il s'agit d'un changement incompatible lors de la migration depuis les modèles Claude 3.x.
Utilisez uniquement temperature OU top_p, pas les deux.
Mettez à jour les versions d'outils
Il s'agit d'un changement incompatible lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions d'outils (text_editor_20250728, code_execution_20250825). Supprimez tout code utilisant la commande undo_edit.
Gérez la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal.
Mettez à jour vos prompts pour les changements de comportement
Les modèles Claude 4 ont un style de communication plus concis et direct. Consultez les bonnes pratiques de prompting pour des conseils d'optimisation.
claude-sonnet-4-5-20250929text_editor_20250728, code_execution_20250825) ; les versions antérieures ne sont pas prises en charge (si vous migrez depuis la version 3.x)undo_edit (le cas échéant)temperature OU top_p, pas les deux (si vous migrez depuis la version 3.x)refusal dans votre applicationClaude Haiku 4.5 est le modèle Haiku le plus rapide et le plus intelligent, offrant des performances proches de l'état de l'art et une qualité de modèle premium pour les applications interactives et le traitement à grand volume.
Pour un aperçu complet des capacités, consultez la vue d'ensemble des modèles.
La tarification de Haiku 4.5 est de 1 $ par million de tokens d'entrée et de 5 $ par million de tokens de sortie. Consultez la tarification de Claude pour plus de détails.
Mettez à jour le nom de votre modèle :
# De Haiku 3.5
model = "claude-3-5-haiku-20241022" # Before
model = "claude-haiku-4-5-20251001" # AfterVérifiez les nouvelles limites de débit : Haiku 4.5 dispose de limites de débit distinctes de celles de Haiku 3.5. Consultez la documentation sur les limites de débit pour plus de détails.
Pour des améliorations significatives des performances sur les tâches de codage et de raisonnement, envisagez d'activer la réflexion étendue avec thinking: {type: "enabled", budget_tokens: N}.
La réflexion étendue a un impact sur l'efficacité de la mise en cache des prompts.
La réflexion étendue est dépréciée dans les modèles Claude 4.6 et supprimée dans Claude Opus 4.7. Si vous utilisez des modèles plus récents, utilisez plutôt la réflexion adaptative.
Explorez les nouvelles capacités : Consultez la vue d'ensemble des modèles pour plus de détails sur la conscience du contexte, la capacité de sortie accrue (64k tokens), l'intelligence supérieure et la vitesse améliorée.
Ces changements critiques s'appliquent lors de la migration depuis les modèles Claude Haiku 3.x.
Mettez à jour les paramètres d'échantillonnage
Il s'agit d'un changement critique lors de la migration depuis les modèles Claude 3.x.
Utilisez uniquement temperature OU top_p, pas les deux.
Mettez à jour les versions des outils
Il s'agit d'un changement critique lors de la migration depuis les modèles Claude 3.x.
Mettez à jour vers les dernières versions des outils (text_editor_20250728, code_execution_20250825). Supprimez tout code utilisant la commande undo_edit.
Gérez la raison d'arrêt refusal
Mettez à jour votre application pour gérer les raisons d'arrêt refusal.
Mettez à jour vos prompts pour tenir compte des changements de comportement
Les modèles Claude 4 ont un style de communication plus concis et direct. Consultez les bonnes pratiques de prompting pour obtenir des conseils d'optimisation.
claude-haiku-4-5-20251001text_editor_20250728, code_execution_20250825) ; les versions antérieures ne sont pas prises en chargeundo_edit (le cas échéant)temperature OU top_p, pas les deuxrefusal dans votre applicationWas this page helpful?