Claude 4.6 représente la prochaine génération de modèles Claude, apportant des capacités nouvelles significatives et des améliorations d'API. Cette page résume toutes les nouvelles fonctionnalités disponibles au lancement.
| Modèle | ID du modèle API | Description |
|---|---|---|
| Claude Opus 4.6 | claude-opus-4-6 | Notre modèle le plus intelligent pour construire des agents et du codage |
Claude Opus 4.6 supporte une fenêtre de contexte de 200K (avec fenêtre de contexte de 1M tokens disponible en bêta), 128K tokens de sortie maximum, la réflexion étendue, et toutes les fonctionnalités existantes de l'API Claude.
Pour les tarifs complets et les spécifications, consultez l'aperçu des modèles.
La réflexion adaptative (thinking: {type: "adaptive"}) est le mode de réflexion recommandé pour Opus 4.6. Claude décide dynamiquement quand et combien réfléchir. Au niveau d'effort par défaut (high), Claude réfléchira presque toujours. Aux niveaux d'effort inférieur, il peut ignorer la réflexion pour les problèmes plus simples.
thinking: {type: "enabled"} et budget_tokens sont dépréciés sur Opus 4.6. Ils restent fonctionnels mais seront supprimés dans une future version du modèle. Utilisez la réflexion adaptative et le paramètre d'effort pour contrôler la profondeur de réflexion à la place. La réflexion adaptative active également automatiquement la réflexion entrelacée.
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "Solve this complex problem..."}]
)Le paramètre d'effort est maintenant généralement disponible (aucun en-tête bêta requis). Un nouveau niveau d'effort max fournit la capacité absolue la plus élevée sur Opus 4.6. Combinez l'effort avec la réflexion adaptative pour des compromis coût-qualité optimaux.
La compaction fournit un résumé de contexte automatique côté serveur, permettant des conversations effectivement infinies. Lorsque le contexte approche de la limite de la fenêtre, l'API résume automatiquement les parties antérieures de la conversation.
Le streaming d'outils à granularité fine est maintenant généralement disponible sur tous les modèles et plates-formes. Aucun en-tête bêta n'est requis.
Opus 4.6 supporte jusqu'à 128K tokens de sortie, doublant la limite précédente de 64K. Cela permet des budgets de réflexion plus longs et des réponses plus complètes. Les SDK nécessitent le streaming pour les demandes avec de grandes valeurs max_tokens pour éviter les délais d'expiration HTTP. Si vous n'avez pas besoin de traiter les événements de manière incrémentale, utilisez .stream() avec .get_final_message() pour obtenir la réponse complète — consultez Streaming Messages pour plus de détails.
Les contrôles de résidence des données vous permettent de spécifier où l'inférence du modèle s'exécute en utilisant le paramètre inference_geo. Vous pouvez choisir le routage "global" (par défaut) ou "us" par demande. L'inférence réservée aux États-Unis est facturée à 1,1x sur Claude Opus 4.6 et les modèles plus récents.
type: "enabled" et budget_tokensthinking: {type: "enabled", budget_tokens: N} est déprécié sur Opus 4.6. Il reste fonctionnel mais sera supprimé dans une future version du modèle. Migrez vers thinking: {type: "adaptive"} avec le paramètre d'effort.
interleaved-thinking-2025-05-14L'en-tête bêta interleaved-thinking-2025-05-14 est déprécié sur Opus 4.6. Il est ignoré en toute sécurité s'il est inclus, mais n'est plus requis. La réflexion adaptative active automatiquement la réflexion entrelacée. Supprimez betas=["interleaved-thinking-2025-05-14"] de vos demandes lors de l'utilisation d'Opus 4.6.
output_formatLe paramètre output_format pour les sorties structurées a été déplacé vers output_config.format. L'ancien paramètre reste fonctionnel mais est déprécié et sera supprimé dans une future version du modèle.
# Before
response = client.messages.create(
output_format={"type": "json_schema", "schema": {...}},
...
)
# After
response = client.messages.create(
output_config={"format": {"type": "json_schema", "schema": {...}}},
...
)Le préremplissage des messages d'assistant (préremplissages du dernier tour d'assistant) n'est pas supporté sur Opus 4.6. Les demandes avec des messages d'assistant préremplis retournent une erreur 400.
Alternatives :
output_config.format pour la sortie JSONOpus 4.6 peut produire un échappement de chaîne JSON légèrement différent dans les arguments d'appel d'outils (par exemple, gestion différente des échappements Unicode ou de l'échappement des barres obliques). Les analyseurs JSON standard gèrent ces différences automatiquement. Si vous analysez l'input d'appel d'outils en tant que chaîne brute plutôt que d'utiliser json.loads() ou JSON.parse(), vérifiez que votre logique d'analyse fonctionne toujours.
Pour les instructions de migration étape par étape, consultez Migration vers Claude 4.6.
Apprenez comment utiliser le mode de réflexion adaptatif.
Comparez tous les modèles Claude.
Explorez la compaction de contexte côté serveur.
Instructions de migration étape par étape.
Was this page helpful?