Le paramètre effort vous permet de contrôler l'empressement de Claude à dépenser des tokens lors de la réponse aux demandes. Cela vous donne la possibilité de trouver un équilibre entre la complétude de la réponse et l'efficacité des tokens, le tout avec un seul modèle. Le paramètre effort est généralement disponible sur tous les modèles pris en charge sans en-tête bêta requis.
Le paramètre effort est pris en charge par Claude Opus 4.6 et Claude Opus 4.5.
Pour Claude Opus 4.6, effort remplace budget_tokens comme méthode recommandée pour contrôler la profondeur de la réflexion. Combinez effort avec la réflexion adaptative (thinking: {type: "adaptive"}) pour la meilleure expérience. Bien que budget_tokens soit toujours accepté sur Opus 4.6, il est déprécié et sera supprimé dans une future version du modèle. À un effort high (par défaut) et max, Claude pensera presque toujours. À des niveaux d'effort inférieur, il peut ignorer la réflexion pour les problèmes plus simples.
Par défaut, Claude utilise un effort élevé, en dépensant autant de tokens que nécessaire pour d'excellents résultats. Vous pouvez augmenter le niveau d'effort à max pour la capacité absolue la plus élevée, ou le réduire pour être plus conservateur avec l'utilisation des tokens, en optimisant pour la vitesse et le coût tout en acceptant une certaine réduction de capacité.
Définir effort à "high" produit exactement le même comportement que d'omettre entièrement le paramètre effort.
Le paramètre effort affecte tous les tokens dans la réponse, y compris :
Cette approche présente deux avantages majeurs :
| Niveau | Description | Cas d'usage typique |
|---|---|---|
max | Capacité absolue maximale sans contraintes sur la dépense de tokens. Opus 4.6 uniquement — les demandes utilisant max sur d'autres modèles retourneront une erreur. | Tâches nécessitant le raisonnement le plus profond possible et l'analyse la plus approfondie |
high | Capacité élevée. Équivalent à ne pas définir le paramètre. | Raisonnement complexe, problèmes de codage difficiles, tâches agentiques |
medium | Approche équilibrée avec des économies de tokens modérées. | Tâches agentiques qui nécessitent un équilibre entre la vitesse, le coût et les performances |
low | Plus efficace. Économies de tokens significatives avec une certaine réduction de capacité. | Tâches plus simples qui ont besoin de la meilleure vitesse et des coûts les plus bas, comme les sous-agents |
L'effort est un signal comportemental, pas un budget de tokens strict. À des niveaux d'effort inférieur, Claude pensera toujours sur des problèmes suffisamment difficiles — il pensera simplement moins qu'il ne le ferait à des niveaux d'effort supérieur pour le même problème.
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
messages=[{
"role": "user",
"content": "Analyze the trade-offs between microservices and monolithic architectures"
}],
output_config={
"effort": "medium"
}
)
print(response.content[0].text)max sur d'autres modèles retourneront une erreur.Lors de l'utilisation d'outils, le paramètre effort affecte à la fois les explications autour des appels d'outils et les appels d'outils eux-mêmes. Les niveaux d'effort inférieur ont tendance à :
Les niveaux d'effort supérieur peuvent :
Le paramètre effort fonctionne aux côtés de la réflexion étendue. Son comportement dépend du modèle :
thinking: {type: "adaptive"}), où l'effort est le contrôle recommandé pour la profondeur de la réflexion. Bien que budget_tokens soit toujours accepté sur Opus 4.6, il est déprécié et sera supprimé dans une future version. À un effort high et max, Claude pense presque toujours profondément. À des niveaux inférieur, il peut ignorer la réflexion pour les problèmes plus simples.thinking: {type: "enabled", budget_tokens: N}), où l'effort fonctionne aux côtés du budget de tokens de réflexion. Définissez le niveau d'effort pour votre tâche, puis définissez le budget de tokens de réflexion en fonction de la complexité de la tâche.Le paramètre effort peut être utilisé avec ou sans réflexion étendue activée. Lorsqu'il est utilisé sans réflexion, il contrôle toujours la dépense globale de tokens pour les réponses textuelles et les appels d'outils.
Was this page helpful?