Anthropic propose trois niveaux de service :
Le niveau standard est le niveau de service par défaut pour toutes les requêtes API. L'API priorise ces requêtes aux côtés de toutes les autres requêtes avec une disponibilité au mieux des possibilités.
L'API priorise les requêtes de ce niveau par rapport à toutes les autres requêtes. Cette priorisation aide à minimiser les erreurs « server overloaded », même pendant les périodes de pointe.
Pour plus d'informations, consultez Démarrer avec Priority Tier
Lors du traitement d'une requête, Anthropic décide d'assigner une requête au Priority Tier dans les scénarios suivants :
Anthropic comptabilise l'utilisation par rapport à la capacité Priority Tier comme suit :
Tokens d'entrée
inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens d'entrée comptent pour 1,1 token par tokenTokens de sortie
inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens de sortie comptent pour 1,1 token par tokenSinon, les requêtes sont traitées au niveau standard.
Ces taux de consommation reflètent la tarification relative de chaque type de token. Par exemple, l'inférence limitée aux États-Unis est facturée à 1,1x sur Opus 4.6, Sonnet 4.6 et les modèles ultérieurs, donc chaque token consommé avec inference_geo: "us" déduit 1,1 token de votre capacité Priority Tier.
Les requêtes assignées au Priority Tier puisent à la fois dans la capacité Priority Tier et dans les limites de débit habituelles. Si le traitement de la requête dépasse les limites de débit, la requête est refusée.
Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier :
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello, Claude!"}],
service_tier="auto", # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)Le paramètre service_tier accepte les valeurs suivantes :
"auto" (par défaut) - Utilise la capacité Priority Tier si elle est disponible, avec repli sur votre autre capacité dans le cas contraire"standard_only" - Utilise uniquement la capacité du niveau standard, utile si vous ne souhaitez pas utiliser votre capacité Priority TierL'objet usage de la réponse inclut également le niveau de service assigné à la requête :
{
"usage": {
"input_tokens": 410,
"cache_creation_input_tokens": 0,
"cache_read_input_tokens": 0,
"output_tokens": 585,
"service_tier": "priority"
}
}Cela vous permet de déterminer quel niveau de service a été assigné à la requête.
Lorsque vous demandez service_tier="auto" avec un modèle disposant d'un engagement Priority Tier, ces en-têtes de réponse fournissent des informations utiles :
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21ZVous pouvez utiliser la présence de ces en-têtes pour détecter si votre requête était éligible au Priority Tier, même si elle dépassait la limite.
Vous pourriez vouloir vous engager sur une capacité Priority Tier si vous êtes intéressé par :
S'engager sur le Priority Tier implique de décider :
Le ratio entre les tokens d'entrée et de sortie que vous achetez est important. Dimensionner votre capacité Priority Tier en fonction de vos schémas de trafic réels vous aide à maximiser l'utilisation de vos tokens achetés.
Le Priority Tier est pris en charge sur tous les modèles Claude disponibles (y compris Claude Fable 5 et Claude Opus 4.8), à l'exception de Claude Mythos Preview et Claude Mythos 5.
Consultez la vue d'ensemble des modèles pour plus de détails sur les modèles disponibles.
Pour commencer à utiliser le Priority Tier :
service_tier sur auto.Was this page helpful?