Claude Platform Docs
  • Messages
  • Agents gérés
  • Administration

Search...
⌘K

Log in
Niveaux de service
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Référence API/Support et configuration

Niveaux de service

Différents niveaux de service vous permettent d'équilibrer la disponibilité, les performances et la prévisibilité des coûts en fonction des besoins de votre application.

Anthropic propose trois niveaux de service :

  • Priority Tier : Idéal pour les workflows déployés en production où le temps, la disponibilité et la tarification prévisible sont importants
  • Standard : Niveau par défaut pour le pilotage et la mise à l'échelle des cas d'usage quotidiens
  • Batch : Idéal pour les workflows asynchrones qui peuvent attendre ou qui bénéficient d'être traités en dehors de votre capacité normale

Niveau Standard

Le niveau standard est le niveau de service par défaut pour toutes les requêtes API. L'API priorise ces requêtes aux côtés de toutes les autres requêtes avec une disponibilité au mieux des possibilités.

Priority Tier

L'API priorise les requêtes de ce niveau par rapport à toutes les autres requêtes. Cette priorisation aide à minimiser les erreurs « server overloaded », même pendant les périodes de pointe.

Pour plus d'informations, consultez Démarrer avec Priority Tier

Comment les requêtes sont assignées aux niveaux

Lors du traitement d'une requête, Anthropic décide d'assigner une requête au Priority Tier dans les scénarios suivants :

  • Votre organisation dispose d'une capacité Priority Tier suffisante en tokens d'entrée par minute
  • Votre organisation dispose d'une capacité Priority Tier suffisante en tokens de sortie par minute

Anthropic comptabilise l'utilisation par rapport à la capacité Priority Tier comme suit :

Tokens d'entrée

  • Les lectures de cache comptent pour 0,1 token par token lu depuis le cache
  • Les écritures de cache comptent pour 1,25 token par token écrit dans le cache avec un TTL de 5 minutes
  • Les écritures de cache comptent pour 2,00 tokens par token écrit dans le cache avec un TTL de 1 heure
  • Pour les requêtes avec inférence limitée aux États-Unis (inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens d'entrée comptent pour 1,1 token par token
  • Tous les autres tokens d'entrée comptent pour 1 token par token

Tokens de sortie

  • Pour les requêtes avec inférence limitée aux États-Unis (inference_geo: "us") sur Claude Opus 4.6, Claude Sonnet 4.6 et les modèles ultérieurs, les tokens de sortie comptent pour 1,1 token par token
  • Tous les autres tokens de sortie comptent pour 1 token par token

Sinon, les requêtes sont traitées au niveau standard.



Ces taux de consommation reflètent la tarification relative de chaque type de token. Par exemple, l'inférence limitée aux États-Unis est facturée à 1,1x sur Opus 4.6, Sonnet 4.6 et les modèles ultérieurs, donc chaque token consommé avec inference_geo: "us" déduit 1,1 token de votre capacité Priority Tier.



Les requêtes assignées au Priority Tier puisent à la fois dans la capacité Priority Tier et dans les limites de débit habituelles. Si le traitement de la requête dépasse les limites de débit, la requête est refusée.

Utilisation des niveaux de service

Vous pouvez contrôler quels niveaux de service peuvent être utilisés pour une requête en définissant le paramètre service_tier :

Python
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

Le paramètre service_tier accepte les valeurs suivantes :

  • "auto" (par défaut) - Utilise la capacité Priority Tier si elle est disponible, avec repli sur votre autre capacité dans le cas contraire
  • "standard_only" - Utilise uniquement la capacité du niveau standard, utile si vous ne souhaitez pas utiliser votre capacité Priority Tier

L'objet usage de la réponse inclut également le niveau de service assigné à la requête :

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Cela vous permet de déterminer quel niveau de service a été assigné à la requête.

Lorsque vous demandez service_tier="auto" avec un modèle disposant d'un engagement Priority Tier, ces en-têtes de réponse fournissent des informations utiles :

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Vous pouvez utiliser la présence de ces en-têtes pour détecter si votre requête était éligible au Priority Tier, même si elle dépassait la limite.

Démarrer avec Priority Tier

Vous pourriez vouloir vous engager sur une capacité Priority Tier si vous êtes intéressé par :

  • Une disponibilité accrue : Objectif de 99,5 % de disponibilité avec des ressources de calcul prioritaires
  • La maîtrise des coûts : Dépenses prévisibles et remises pour les engagements plus longs
  • Un débordement flexible : Repli automatique sur le niveau standard lorsque vous dépassez votre capacité engagée

S'engager sur le Priority Tier implique de décider :

  • Un nombre de tokens d'entrée par minute
  • Un nombre de tokens de sortie par minute
  • Une durée d'engagement (1, 3, 6 ou 12 mois)
  • Une version de modèle spécifique


Le ratio entre les tokens d'entrée et de sortie que vous achetez est important. Dimensionner votre capacité Priority Tier en fonction de vos schémas de trafic réels vous aide à maximiser l'utilisation de vos tokens achetés.

Modèles pris en charge

Le Priority Tier est pris en charge sur tous les modèles Claude disponibles (y compris Claude Fable 5 et Claude Opus 4.8), à l'exception de Claude Mythos Preview et Claude Mythos 5.

Consultez la vue d'ensemble des modèles pour plus de détails sur les modèles disponibles.

Comment accéder au Priority Tier

Pour commencer à utiliser le Priority Tier :

  1. Contactez le service commercial pour finaliser le provisionnement.
  2. (Facultatif) Mettez à jour vos requêtes API pour définir le paramètre service_tier sur auto.
  3. Surveillez votre utilisation via les en-têtes de réponse et la Claude Console.

Was this page helpful?

  • Niveau Standard
  • Priority Tier
  • Comment les requêtes sont assignées aux niveaux
  • Utilisation des niveaux de service
  • Démarrer avec Priority Tier
  • Modèles pris en charge
  • Comment accéder au Priority Tier