Référence APISupport et configuration

Niveaux de service

Différents niveaux de service vous permettent d'équilibrer la disponibilité, les performances et la prévisibilité des coûts en fonction des besoins de votre application.

Anthropic propose trois niveaux de service :

Priority Tier : Idéal pour les workflows déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
Standard : Niveau par défaut pour le pilotage et la mise à l'échelle des cas d'usage quotidiens
Batch : Idéal pour les workflows asynchrones qui peuvent attendre ou qui bénéficient d'être traités en dehors de votre capacité normale

Niveau Standard

Le niveau standard est le niveau de service par défaut pour toutes les requêtes API. L'API priorise ces requêtes aux côtés de toutes les autres requêtes avec une disponibilité au mieux des possibilités.

Priority Tier

L'API priorise les requêtes de ce niveau par rapport à toutes les autres requêtes. Cette priorisation aide à minimiser les erreurs « server overloaded », même pendant les périodes de pointe.

Pour plus d'informations, consultez Démarrer avec Priority Tier

Comment les requêtes sont assignées aux niveaux

Lors du traitement d'une requête, Anthropic décide d'assigner une requête au Priority Tier dans les scénarios suivants :

Votre organisation dispose d'une capacité Priority Tier suffisante en tokens d'entrée par minute
Votre organisation dispose d'une capacité Priority Tier suffisante en tokens de sortie par minute

Anthropic comptabilise l'utilisation par rapport à la capacité Priority Tier comme suit :

Tokens d'entrée

Les lectures de cache comptent pour 0,1 token par token lu depuis le cache
Les écritures de cache comptent pour 1,25 token par token écrit dans le cache avec un TTL de 5 minutes
Les écritures de cache comptent pour 2,00 tokens par token écrit dans le cache avec un TTL de 1 heure
Pour les requêtes avec inférence limitée aux États-Unis (inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens d'entrée comptent pour 1,1 token par token
Tous les autres tokens d'entrée comptent pour 1 token par token

Tokens de sortie

Pour les requêtes avec inférence limitée aux États-Unis (inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens de sortie comptent pour 1,1 token par token
Tous les autres tokens de sortie comptent pour 1 token par token

Sinon, les requêtes sont traitées au niveau standard.

Ces taux de consommation reflètent la tarification relative de chaque type de token. Par exemple, l'inférence limitée aux États-Unis est facturée à 1,1x sur Opus 4.6, Sonnet 4.6 et les modèles ultérieurs, donc chaque token consommé avec inference_geo: "us" déduit 1,1 token de votre capacité Priority Tier.

Les requêtes assignées au Priority Tier puisent à la fois dans la capacité Priority Tier et dans les limites de débit habituelles. Si le traitement de la requête dépasse les limites de débit, la requête est refusée.

Utilisation des niveaux de service

Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier :

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

Le paramètre service_tier accepte les valeurs suivantes :

"auto" (par défaut) - Utilise la capacité Priority Tier si elle est disponible, avec repli sur votre autre capacité dans le cas contraire
"standard_only" - Utilise uniquement la capacité du niveau standard, utile si vous ne souhaitez pas utiliser votre capacité Priority Tier

L'objet usage de la réponse inclut également le niveau de service assigné à la requête :

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Cela vous permet de déterminer quel niveau de service a été assigné à la requête.

Lorsque vous demandez service_tier="auto" avec un modèle disposant d'un engagement Priority Tier, ces en-têtes de réponse fournissent des informations utiles :

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Vous pouvez utiliser la présence de ces en-têtes pour détecter si votre requête était éligible au Priority Tier, même si elle dépassait la limite.

Démarrer avec Priority Tier

Vous pourriez vouloir vous engager sur une capacité Priority Tier si vous êtes intéressé par :

Une disponibilité accrue : Objectif de 99,5 % de disponibilité avec des ressources de calcul prioritaires
La maîtrise des coûts : Dépenses prévisibles et remises pour les engagements plus longs
Un débordement flexible : Repli automatique sur le niveau standard lorsque vous dépassez votre capacité engagée

S'engager sur le Priority Tier implique de décider :

Un nombre de tokens d'entrée par minute
Un nombre de tokens de sortie par minute
Une durée d'engagement (1, 3, 6 ou 12 mois)
Une version de modèle spécifique

Le ratio entre les tokens d'entrée et de sortie que vous achetez est important. Dimensionner votre capacité Priority Tier en fonction de vos schémas de trafic réels vous aide à maximiser l'utilisation de vos tokens achetés.

Modèles pris en charge

Le Priority Tier est pris en charge sur tous les modèles Claude disponibles (y compris Claude Fable 5 et Claude Opus 4.8), à l'exception de Claude Mythos Preview et Claude Mythos 5.

Consultez la vue d'ensemble des modèles pour plus de détails sur les modèles disponibles.

Comment accéder au Priority Tier

Pour commencer à utiliser le Priority Tier :

Contactez le service commercial pour finaliser le provisionnement.
(Facultatif) Mettez à jour vos requêtes API pour définir le paramètre service_tier sur auto.
Surveillez votre utilisation via les en-têtes de réponse et la Claude Console.

Was this page helpful?

Référence APISupport et configuration

Niveaux de service

Différents niveaux de service vous permettent d'équilibrer la disponibilité, les performances et la prévisibilité des coûts en fonction des besoins de votre application.

Anthropic propose trois niveaux de service :

Priority Tier : Idéal pour les workflows déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
Standard : Niveau par défaut pour le pilotage et la mise à l'échelle des cas d'usage quotidiens
Batch : Idéal pour les workflows asynchrones qui peuvent attendre ou qui bénéficient d'être traités en dehors de votre capacité normale

Niveau Standard

Priority Tier

L'API priorise les requêtes de ce niveau par rapport à toutes les autres requêtes. Cette priorisation aide à minimiser les erreurs « server overloaded », même pendant les périodes de pointe.

Pour plus d'informations, consultez Démarrer avec Priority Tier

Comment les requêtes sont assignées aux niveaux

Lors du traitement d'une requête, Anthropic décide d'assigner une requête au Priority Tier dans les scénarios suivants :

Votre organisation dispose d'une capacité Priority Tier suffisante en tokens d'entrée par minute
Votre organisation dispose d'une capacité Priority Tier suffisante en tokens de sortie par minute

Anthropic comptabilise l'utilisation par rapport à la capacité Priority Tier comme suit :

Tokens d'entrée

Les lectures de cache comptent pour 0,1 token par token lu depuis le cache
Les écritures de cache comptent pour 1,25 token par token écrit dans le cache avec un TTL de 5 minutes
Les écritures de cache comptent pour 2,00 tokens par token écrit dans le cache avec un TTL de 1 heure
Pour les requêtes avec inférence limitée aux États-Unis (inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens d'entrée comptent pour 1,1 token par token
Tous les autres tokens d'entrée comptent pour 1 token par token

Tokens de sortie

Pour les requêtes avec inférence limitée aux États-Unis (inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens de sortie comptent pour 1,1 token par token
Tous les autres tokens de sortie comptent pour 1 token par token

Sinon, les requêtes sont traitées au niveau standard.

Utilisation des niveaux de service

Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier :

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

Le paramètre service_tier accepte les valeurs suivantes :

"auto" (par défaut) - Utilise la capacité Priority Tier si elle est disponible, avec repli sur votre autre capacité dans le cas contraire
"standard_only" - Utilise uniquement la capacité du niveau standard, utile si vous ne souhaitez pas utiliser votre capacité Priority Tier

L'objet usage de la réponse inclut également le niveau de service assigné à la requête :

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Cela vous permet de déterminer quel niveau de service a été assigné à la requête.

Lorsque vous demandez service_tier="auto" avec un modèle disposant d'un engagement Priority Tier, ces en-têtes de réponse fournissent des informations utiles :

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Vous pouvez utiliser la présence de ces en-têtes pour détecter si votre requête était éligible au Priority Tier, même si elle dépassait la limite.

Démarrer avec Priority Tier

Vous pourriez vouloir vous engager sur une capacité Priority Tier si vous êtes intéressé par :

Une disponibilité accrue : Objectif de 99,5 % de disponibilité avec des ressources de calcul prioritaires
La maîtrise des coûts : Dépenses prévisibles et remises pour les engagements plus longs
Un débordement flexible : Repli automatique sur le niveau standard lorsque vous dépassez votre capacité engagée

S'engager sur le Priority Tier implique de décider :

Un nombre de tokens d'entrée par minute
Un nombre de tokens de sortie par minute
Une durée d'engagement (1, 3, 6 ou 12 mois)
Une version de modèle spécifique

Modèles pris en charge

Le Priority Tier est pris en charge sur tous les modèles Claude disponibles (y compris Claude Fable 5 et Claude Opus 4.8), à l'exception de Claude Mythos Preview et Claude Mythos 5.

Consultez la vue d'ensemble des modèles pour plus de détails sur les modèles disponibles.

Comment accéder au Priority Tier

Pour commencer à utiliser le Priority Tier :

Contactez le service commercial pour finaliser le provisionnement.
(Facultatif) Mettez à jour vos requêtes API pour définir le paramètre service_tier sur auto.
Surveillez votre utilisation via les en-têtes de réponse et la Claude Console.

Was this page helpful?

Niveau Standard

Priority Tier

Comment les requêtes sont assignées aux niveaux

Utilisation des niveaux de service

Démarrer avec Priority Tier

Modèles pris en charge

Comment accéder au Priority Tier

Niveau Standard

Priority Tier

Comment les requêtes sont assignées aux niveaux

Utilisation des niveaux de service

Démarrer avec Priority Tier

Modèles pris en charge

Comment accéder au Priority Tier

Niveau Standard

Priority Tier

Comment les requêtes sont assignées aux niveaux

Utilisation des niveaux de service

Démarrer avec Priority Tier

Modèles pris en charge

Comment accéder au Priority Tier

Niveau Standard

Priority Tier

Comment les requêtes sont assignées aux niveaux

Utilisation des niveaux de service

Démarrer avec Priority Tier

Modèles pris en charge

Comment accéder au Priority Tier