Modèles et tarificationModèles

Nouveautés de Claude Opus 5

Aperçu des nouvelles fonctionnalités et des changements de comportement dans Claude Opus 5.

Claude Opus 5 représente une amélioration radicale par rapport à Claude Opus 4.8, avec les gains les plus importants en matière de raisonnement approfondi, de tâches agentiques et à long terme, et de mise à l'échelle du calcul au moment du test. Cette page résume toutes les nouveautés de Claude Opus 5, notamment la réflexion activée par défaut, les changements d'outils en cours de conversation et un changement incompatible concernant les cas où la réflexion peut être désactivée.

Nouveau modèle

Modèle	ID de modèle API	Description
Claude Opus 5	`claude-opus-5`	Pour le codage agentique complexe et le travail en entreprise

Claude Opus 5 dispose d'une fenêtre de contexte de 1M de tokens (1M de tokens est à la fois la valeur par défaut et le maximum ; il n'existe pas de variante de contexte plus petite), de 128k tokens de sortie maximum, et de la réflexion activée par défaut.

Pour les tarifs et spécifications complets, consultez l'aperçu des modèles.

Nouvelles fonctionnalités

Changements d'outils en cours de conversation (bêta)

Vous pouvez ajouter ou supprimer des outils entre les tours d'une conversation tout en préservant le cache de prompts, au lieu de renvoyer une liste d'outils fixe pendant toute la durée d'une session. Les changements d'outils en cours de conversation sont en bêta : incluez l'en-tête bêta mid-conversation-tool-changes-2026-07-01 dans vos requêtes. Consultez Changements d'outils en cours de conversation pour l'utilisation.

Mode de repli par défaut

Le paramètre fallbacks prend en charge un nouveau mode "default", qui applique les modèles de repli recommandés par Anthropic par catégorie de refus au lieu d'une liste de modèles que vous maintenez vous-même. L'ensemble du paramètre fallbacks est en bêta. Utilisez l'en-tête bêta server-side-fallback-2026-07-01, qui prend en charge à la fois le mode "default" et les listes de modèles explicites (l'en-tête antérieur server-side-fallback-2026-06-01 n'accepte que les listes explicites). Consultez Refus et repli.

Minimum de mise en cache des prompts abaissé

La longueur minimale de prompt pouvant être mise en cache sur Claude Opus 5 est de 512 tokens, contre 1 024 tokens sur Claude Opus 4.8. Les prompts qui étaient trop courts pour être mis en cache sur Claude Opus 4.8 peuvent désormais créer des entrées de cache sans aucune modification de code. Consultez Mise en cache des prompts pour les minimums par modèle.

Mode rapide

Le mode rapide (aperçu de recherche) est disponible pour Claude Opus 5 sur l'API Claude uniquement ; il n'est actuellement pas disponible sur Amazon Bedrock, Google Cloud ou Microsoft Foundry. Le mode rapide pour Claude Opus 5 est tarifé à 10 $ par million de tokens d'entrée et 50 $ par million de tokens de sortie. Consultez Mode rapide pour l'accès, les modèles pris en charge et les tarifs.

Changements de comportement

Réflexion activée par défaut

Sur Claude Opus 4.8, les requêtes s'exécutent sans réflexion sauf si vous définissez thinking: {"type": "adaptive"}. Sur Claude Opus 5, les mêmes requêtes s'exécutent avec la réflexion activée : le modèle décide quand et combien réfléchir à chaque tour, et le paramètre effort est le contrôle de la profondeur de réflexion. La valeur transmise est inchangée ; thinking: {"type": "adaptive"} reste valide et équivalent à la valeur par défaut.

Étant donné que max_tokens est une limite stricte sur la sortie totale (réflexion plus texte de réponse), réexaminez-le pour les charges de travail qui s'exécutaient sans réflexion sur Claude Opus 4.8.

L'API conserve l'option de désactiver la réflexion, sous réserve de la restriction d'effort ci-dessous.

L'effort compte davantage

Claude Opus 5 convertit l'effort supplémentaire en meilleurs résultats de manière plus fiable que tout modèle Opus antérieur, de sorte que le niveau d'effort que vous choisissez a plus de poids. L'échelle complète est disponible : low, medium, high, xhigh et max, avec max comme niveau supérieur pour le raisonnement le plus approfondi possible. Commencez par la valeur par défaut, high, et ajustez dans l'une ou l'autre direction en fonction de vos évaluations : descendez là où la qualité se maintient pour économiser des tokens et de la latence, ou montez pour le travail le plus exigeant. Lorsque vous exécutez avec un effort xhigh ou max, définissez un max_tokens élevé afin que le modèle ait de la place pour réfléchir et agir à travers les sous-agents et les appels d'outils.

Cette requête pousse l'effort au maximum jusqu'à max :

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-5",
    max_tokens=64000,
    output_config={"effort": "max"},
    messages=[
        {
            "role": "user",
            "content": "Explain why the sum of two even numbers is always even.",
        }
    ],
) as stream:
    response = stream.get_final_message()

print(response)

La réflexion est activée par défaut sur Claude Opus 5, donc aucun champ thinking n'est nécessaire.

La désactivation de la réflexion nécessite un effort `high` ou inférieur

Sur Claude Opus 5, thinking: {"type": "disabled"} n'est accepté que lorsque le niveau d'effort est high ou inférieur. Définir thinking: {"type": "disabled"} avec un effort xhigh ou max renvoie une erreur 400. Il s'agit d'un comportement en disponibilité générale à partir de Claude Opus 5, appliqué à chaque requête, et c'est un changement incompatible par rapport à Claude Opus 4.8, où la désactivation de la réflexion était indépendante du niveau d'effort. Si vous désactivez la réflexion à des niveaux d'effort élevés aujourd'hui, soit conservez la réflexion désactivée et définissez l'effort à high ou inférieur, soit conservez le niveau d'effort et supprimez le champ thinking.

Avec la réflexion désactivée, Claude Opus 5 peut occasionnellement écrire un appel d'outil dans sa sortie texte au lieu d'émettre un bloc tool_use, ou inclure des balises XML internes dans sa réponse visible. Dans la mesure du possible, gardez la réflexion activée et contrôlez le coût en tokens avec des niveaux d'effort plus bas ; pour les intégrations qui doivent garder la réflexion désactivée, consultez Exécution avec la réflexion désactivée pour les mesures d'atténuation par prompt.

Différences de comportement du modèle

Au-delà des changements d'API ci-dessus, Claude Opus 5 se comporte différemment de Claude Opus 4.8 de manières que vous pouvez remarquer sans modifier aucun code. Les réponses destinées aux utilisateurs et les livrables écrits par défaut sont plus longs. Dans les sessions agentiques, le modèle relate sa progression à l'utilisateur plus souvent. Dans les frameworks multi-agents, il délègue plus volontiers aux sous-agents. Il vérifie également son propre travail sans qu'on le lui demande, donc supprimez les instructions de vérification héritées des modèles antérieurs (« inclure une étape de vérification finale », « utiliser un sous-agent pour vérifier ») ; elles provoquent une sur-vérification sur Claude Opus 5. Pour les modèles de prompts qui ajustent chacun de ces comportements, consultez Rédiger des prompts pour Claude Opus 5.

Améliorations des capacités

Par rapport à Claude Opus 4.8, Claude Opus 5 représente une amélioration radicale plutôt qu'incrémentale, et il offre une intelligence de pointe à la moitié du coût de Claude Fable 5. Les gains les plus importants concernent :

Le raisonnement approfondi, en maintenant une analyse en plusieurs étapes à travers de longues chaînes de problèmes.
Le codage agentique et les tâches à long terme, en restant concentré sur la tâche à travers des boucles étendues d'utilisation d'outils et en complétant des fonctionnalités multi-fichiers, des refactorisations plus importantes et un travail de fonctionnalité de bout en bout sans laisser de stubs ou de placeholders.
La mise à l'échelle du calcul au moment du test, en convertissant l'effort supplémentaire (jusqu'au niveau max) en meilleurs résultats.
L'efficacité aux niveaux d'effort inférieurs, avec les niveaux d'effort low et medium produisant une qualité solide pour une fraction des tokens et de la latence des réglages supérieurs.
La revue de code et la détection de bugs, en faisant ressortir de vrais bugs à un taux élevé par passage avec peu de faux positifs, et en restant précis aux niveaux d'effort inférieurs.
La vision, en comprenant les graphiques, documents et diagrammes et en répliquant les visuels d'interface utilisateur et de frontend, avec les meilleurs résultats lorsqu'on lui donne des outils pour analyser, recadrer et vérifier son travail de manière itérative.
Le travail sur contexte long, avec une fenêtre de contexte de 1M de tokens à la fois comme valeur par défaut et comme maximum, et un suivi des instructions, des appels d'outils et un raisonnement cohérents sur toute la fenêtre.
Les tâches bureautiques et documentaires, en générant et modifiant des feuilles de calcul complexes à plusieurs onglets avec des formules non triviales, et en produisant des présentations bien structurées.
La coordination multi-agents, en exécutant des équipes de sous-agents avec des modèles rédacteur-vérificateur efficaces et peu de cas d'agents écrasant le travail les uns des autres.

Pour les modèles de prompts qui tirent le meilleur parti de ces capacités, consultez Rédiger des prompts pour Claude Opus 5.

Tarification

Claude Opus 5 est tarifé à 5 $ par million de tokens d'entrée et 25 $ par million de tokens de sortie, sans changement par rapport à Claude Opus 4.8.

Consultez Tarification pour la tarification complète, y compris le traitement par lots, la mise en cache des prompts et les tarifs du mode rapide.

Disponibilité

Claude Opus 5 est disponible sur :

API Claude : disponible pour tous les clients, sous le nom claude-opus-5.
AWS : disponible via Claude dans Amazon Bedrock, sous le nom anthropic.claude-opus-5. Claude Opus 5 est également accessible via l'API InvokeModel sur bedrock-runtime, servie par la même infrastructure ; l'intégration Claude sur Amazon Bedrock (héritée) ne l'inclut pas dans sa table d'ID de modèles versionnés par ARN.
Google Cloud : disponible via Claude sur Google Cloud, sous le nom claude-opus-5.
Microsoft Foundry : disponible via Claude dans Microsoft Foundry.

Claude Opus 4.8 reste disponible sur toutes ces plateformes.

Guide de migration

Pour migrer depuis Claude Opus 4.8, mettez à jour votre ID de modèle :

model = "claude-opus-4-8"  # Before
model = "claude-opus-5"  # After

Ensuite, examinez les deux changements de comportement : la réflexion est activée par défaut, et la désactivation de la réflexion avec un effort xhigh ou max renvoie une erreur 400. Consultez le guide de migration pour des instructions étape par étape.

Prochaines étapes

Aperçu des modèles

Spécifications et tarifs complets pour tous les modèles Claude actuels.

Rédiger des prompts pour Claude Opus 5

Différences comportementales et modèles de prompts spécifiques à Claude Opus 5.

Effort

Contrôlez le nombre de tokens que Claude utilise lors de ses réponses, de low à max.

Réflexion

Comment fonctionne la réflexion lorsqu'elle est activée par défaut, et quand elle peut être désactivée.

Budgets de tâches

Donnez à Claude un budget de tokens indicatif pour rythmer son travail.

Guide de migration

Guide pour migrer vers les derniers modèles Claude depuis les versions précédentes de Claude.

Mode rapide

Obtenez plus de tokens de sortie par seconde des modèles Claude Opus à un tarif premium.

Was this page helpful?

Modèles et tarificationModèles

Nouveautés de Claude Opus 5

Aperçu des nouvelles fonctionnalités et des changements de comportement dans Claude Opus 5.

Nouveau modèle

Modèle	ID de modèle API	Description
Claude Opus 5	`claude-opus-5`	Pour le codage agentique complexe et le travail en entreprise

Pour les tarifs et spécifications complets, consultez l'aperçu des modèles.

Nouvelles fonctionnalités

Changements d'outils en cours de conversation (bêta)

Mode de repli par défaut

Minimum de mise en cache des prompts abaissé

Mode rapide

Changements de comportement

Réflexion activée par défaut

L'API conserve l'option de désactiver la réflexion, sous réserve de la restriction d'effort ci-dessous.

L'effort compte davantage

Cette requête pousse l'effort au maximum jusqu'à max :

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-opus-5",
    max_tokens=64000,
    output_config={"effort": "max"},
    messages=[
        {
            "role": "user",
            "content": "Explain why the sum of two even numbers is always even.",
        }
    ],
) as stream:
    response = stream.get_final_message()

print(response)

La réflexion est activée par défaut sur Claude Opus 5, donc aucun champ thinking n'est nécessaire.

La désactivation de la réflexion nécessite un effort `high` ou inférieur

Différences de comportement du modèle

Améliorations des capacités

Le raisonnement approfondi, en maintenant une analyse en plusieurs étapes à travers de longues chaînes de problèmes.
Le codage agentique et les tâches à long terme, en restant concentré sur la tâche à travers des boucles étendues d'utilisation d'outils et en complétant des fonctionnalités multi-fichiers, des refactorisations plus importantes et un travail de fonctionnalité de bout en bout sans laisser de stubs ou de placeholders.
La mise à l'échelle du calcul au moment du test, en convertissant l'effort supplémentaire (jusqu'au niveau max) en meilleurs résultats.
L'efficacité aux niveaux d'effort inférieurs, avec les niveaux d'effort low et medium produisant une qualité solide pour une fraction des tokens et de la latence des réglages supérieurs.
La revue de code et la détection de bugs, en faisant ressortir de vrais bugs à un taux élevé par passage avec peu de faux positifs, et en restant précis aux niveaux d'effort inférieurs.
La vision, en comprenant les graphiques, documents et diagrammes et en répliquant les visuels d'interface utilisateur et de frontend, avec les meilleurs résultats lorsqu'on lui donne des outils pour analyser, recadrer et vérifier son travail de manière itérative.
Le travail sur contexte long, avec une fenêtre de contexte de 1M de tokens à la fois comme valeur par défaut et comme maximum, et un suivi des instructions, des appels d'outils et un raisonnement cohérents sur toute la fenêtre.
Les tâches bureautiques et documentaires, en générant et modifiant des feuilles de calcul complexes à plusieurs onglets avec des formules non triviales, et en produisant des présentations bien structurées.
La coordination multi-agents, en exécutant des équipes de sous-agents avec des modèles rédacteur-vérificateur efficaces et peu de cas d'agents écrasant le travail les uns des autres.

Pour les modèles de prompts qui tirent le meilleur parti de ces capacités, consultez Rédiger des prompts pour Claude Opus 5.

Tarification

Claude Opus 5 est tarifé à 5 $ par million de tokens d'entrée et 25 $ par million de tokens de sortie, sans changement par rapport à Claude Opus 4.8.

Consultez Tarification pour la tarification complète, y compris le traitement par lots, la mise en cache des prompts et les tarifs du mode rapide.

Disponibilité

Claude Opus 5 est disponible sur :

API Claude : disponible pour tous les clients, sous le nom claude-opus-5.
AWS : disponible via Claude dans Amazon Bedrock, sous le nom anthropic.claude-opus-5. Claude Opus 5 est également accessible via l'API InvokeModel sur bedrock-runtime, servie par la même infrastructure ; l'intégration Claude sur Amazon Bedrock (héritée) ne l'inclut pas dans sa table d'ID de modèles versionnés par ARN.
Google Cloud : disponible via Claude sur Google Cloud, sous le nom claude-opus-5.
Microsoft Foundry : disponible via Claude dans Microsoft Foundry.

Claude Opus 4.8 reste disponible sur toutes ces plateformes.

Guide de migration

Pour migrer depuis Claude Opus 4.8, mettez à jour votre ID de modèle :

model = "claude-opus-4-8"  # Before
model = "claude-opus-5"  # After

Prochaines étapes

Aperçu des modèles

Spécifications et tarifs complets pour tous les modèles Claude actuels.

Rédiger des prompts pour Claude Opus 5

Différences comportementales et modèles de prompts spécifiques à Claude Opus 5.

Effort

Contrôlez le nombre de tokens que Claude utilise lors de ses réponses, de low à max.

Réflexion

Comment fonctionne la réflexion lorsqu'elle est activée par défaut, et quand elle peut être désactivée.

Budgets de tâches

Donnez à Claude un budget de tokens indicatif pour rythmer son travail.

Guide de migration

Guide pour migrer vers les derniers modèles Claude depuis les versions précédentes de Claude.

Mode rapide

Obtenez plus de tokens de sortie par seconde des modèles Claude Opus à un tarif premium.

Was this page helpful?

Nouveau modèle

Nouvelles fonctionnalités

Changements d'outils en cours de conversation (bêta)

Mode de repli par défaut

Minimum de mise en cache des prompts abaissé

Mode rapide

Changements de comportement

Réflexion activée par défaut

L'effort compte davantage

La désactivation de la réflexion nécessite un effort high ou inférieur

Différences de comportement du modèle

Améliorations des capacités

Tarification

Disponibilité

Guide de migration

Prochaines étapes

Nouveau modèle

Nouvelles fonctionnalités

Changements d'outils en cours de conversation (bêta)

Mode de repli par défaut

Minimum de mise en cache des prompts abaissé

Mode rapide

Changements de comportement

Réflexion activée par défaut

L'effort compte davantage

La désactivation de la réflexion nécessite un effort high ou inférieur

Différences de comportement du modèle

Améliorations des capacités

Tarification

Disponibilité

Guide de migration

Prochaines étapes

Nouveau modèle

Nouvelles fonctionnalités

Changements d'outils en cours de conversation (bêta)

Mode de repli par défaut

Minimum de mise en cache des prompts abaissé

Mode rapide

Changements de comportement

Réflexion activée par défaut

L'effort compte davantage

La désactivation de la réflexion nécessite un effort `high` ou inférieur

Différences de comportement du modèle

Améliorations des capacités

Tarification

Disponibilité

Guide de migration

Prochaines étapes

Nouveau modèle

Nouvelles fonctionnalités

Changements d'outils en cours de conversation (bêta)

Mode de repli par défaut

Minimum de mise en cache des prompts abaissé

Mode rapide

Changements de comportement

Réflexion activée par défaut

L'effort compte davantage

La désactivation de la réflexion nécessite un effort `high` ou inférieur

Différences de comportement du modèle

Améliorations des capacités

Tarification

Disponibilité

Guide de migration

Prochaines étapes