Claude Platform Docs
  • Messages
  • Agents gérés
  • Administration

Search...
⌘K

Log in
Limites de débit
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Référence API/Support et configuration

Limites de débit

Pour atténuer les abus et gérer la capacité de l'API, des limites sont en place concernant l'utilisation de l'API Claude par une organisation.


Claude Platform sur AWS : Les limites de débit de cette page s'appliquent. La facturation et les limites de dépenses diffèrent : les limites de dépenses ne sont pas disponibles, et la facturation s'effectue via AWS Marketplace (et non par achat de crédits Anthropic). Les organisations commencent au niveau 1. Les augmentations de limites de débit passent par votre représentant de compte Anthropic ; il n'y a pas de progression automatique de niveau, et la configuration des limites de débit par espace de travail n'est pas disponible. Le mode rapide n'est pas disponible sur Claude Platform sur AWS.

Il existe deux types de limites :

  1. Les limites de dépenses définissent un coût mensuel maximal qu'une organisation peut engager pour l'utilisation de l'API.
  2. Les limites de débit définissent le nombre maximal de requêtes API qu'une organisation peut effectuer sur une période donnée.

L'API applique des limites configurées par le service au niveau de l'organisation, mais vous pouvez également définir des limites configurables par l'utilisateur pour les espaces de travail de votre organisation.

Ces limites s'appliquent à la fois à l'utilisation du niveau Standard et du niveau Priority. Pour plus d'informations sur le niveau Priority, qui offre des niveaux de service améliorés en échange d'un engagement de dépenses, consultez Niveaux de service.

À propos des limites de débit

  • Les limites sont conçues pour prévenir les abus de l'API, tout en minimisant l'impact sur les schémas d'utilisation courants des clients.
  • Les limites sont définies par niveau d'utilisation, où chaque niveau est associé à un ensemble différent de limites de dépenses et de débit.
  • Votre organisation progressera automatiquement dans les niveaux à mesure que vous atteindrez certains seuils lors de l'utilisation de l'API. Les limites sont définies au niveau de l'organisation. Vous pouvez consulter les limites de votre organisation sur la page Limites dans la Claude Console.
  • Vous pourriez atteindre les limites de débit sur des intervalles de temps plus courts. Par exemple, un débit de 60 requêtes par minute (RPM) pourrait être appliqué comme 1 requête par seconde. De courtes rafales de requêtes peuvent dépasser la limite et déclencher des erreurs de limite de débit.
  • Les limites décrites ci-dessous sont les limites du niveau standard. Si vous recherchez des limites personnalisées plus élevées ou le niveau Priority pour des niveaux de service améliorés, contactez l'équipe commerciale sur la page Limites.
  • L'API utilise l'algorithme du seau à jetons pour effectuer la limitation de débit. Cela signifie que votre capacité est continuellement réapprovisionnée jusqu'à votre limite maximale, plutôt que d'être réinitialisée à intervalles fixes.
  • Toutes les limites décrites ici représentent l'utilisation maximale autorisée, et non des minimums garantis. Ces limites visent à réduire les dépenses excessives involontaires et à assurer une répartition équitable des ressources entre les utilisateurs.

Limites de dépenses

Chaque niveau d'utilisation a une limite sur le montant que vous pouvez dépenser sur l'API chaque mois civil. Une fois que vous atteignez la limite de dépenses de votre niveau, jusqu'à ce que vous soyez éligible au niveau suivant, vous devrez attendre le mois suivant pour pouvoir utiliser à nouveau l'API.

Pour être éligible au niveau suivant, vous devez satisfaire à une exigence de dépôt. Pour minimiser le risque de surfinancement de votre compte, vous ne pouvez pas déposer plus que votre limite de dépenses mensuelle.

Conditions requises pour progresser de niveau

Niveau d'utilisationAchat de créditsAchat de crédits max.Limite de dépenses mensuelle
Niveau 15 $500 $500 $
Niveau 240 $500 $500 $
Niveau 3200 $1 000 $1 000 $
Niveau 4400 $200 000 $200 000 $
Facturation mensuelleN/AN/AAucune limite


Achat de crédits indique les achats cumulés de crédits (hors taxes) requis pour progresser vers ce niveau. Vous progressez immédiatement dès que vous atteignez le seuil.

Achat de crédits max. limite le montant maximal que vous pouvez ajouter à votre compte en une seule transaction afin d'éviter le surfinancement du compte.

Limite de dépenses mensuelle est le montant maximal que vous pouvez dépenser sur l'API chaque mois civil à ce niveau.

Augmenter vos limites de dépenses

Votre organisation dispose de deux types de limites de dépenses : une limite définie par le client que vous contrôlez directement, et un plafond imposé par le niveau défini par votre niveau d'utilisation. Chacune a un processus différent pour être augmentée.

Limites de dépenses définies par le client

Vous pouvez définir une limite de dépenses inférieure au plafond de votre niveau pour contrôler les coûts. Pour l'ajuster :

  1. 1

    Accédez à la page Limites

    Rendez-vous sur Paramètres > Limites dans la Claude Console.

  2. 2

    Ouvrez l'éditeur de limite de dépenses

    Dans la section Spend limits, cliquez sur Change Limit (ou Set spend limit si aucune limite n'est actuellement définie).

  3. 3

    Ajustez votre limite de dépenses

    Saisissez une nouvelle valeur. Votre limite définie par le client ne peut pas dépasser la limite de votre niveau actuel.

Limites de dépenses imposées par le niveau

Lorsque vous avez besoin d'une limite supérieure au plafond de votre niveau (le plafond du niveau 4 est de 200 000 $ par mois), cliquez sur Contact Sales sur la page Limites. Cela ouvre le formulaire de contact dans un nouvel onglet, et un membre de l'équipe commerciale vous contactera par e-mail lorsque votre organisation sera mise à niveau.

La facturation mensuelle supprime entièrement le plafond de dépenses mensuel et utilise par défaut des conditions de paiement à 30 jours nets.



Le support peut également augmenter les limites imposées par le niveau. Pour les besoins urgents, contactez le support.

Limites de débit

Les limites de débit pour l'API Messages sont mesurées en requêtes par minute (RPM), en tokens d'entrée par minute (ITPM) et en tokens de sortie par minute (OTPM) pour chaque classe de modèle. Si vous dépassez l'une des limites de débit, vous obtiendrez une erreur 429 décrivant quelle limite de débit a été dépassée, ainsi qu'un en-tête retry-after indiquant combien de temps attendre.



Vous pourriez également rencontrer des erreurs 429 en raison de limites d'accélération sur l'API si votre organisation connaît une forte augmentation d'utilisation. Pour éviter d'atteindre les limites d'accélération, augmentez progressivement votre trafic et maintenez des schémas d'utilisation cohérents.

ITPM tenant compte du cache

De nombreux fournisseurs d'API utilisent une limite combinée de « tokens par minute » (TPM) qui peut inclure tous les tokens, mis en cache ou non, d'entrée et de sortie. Pour la plupart des modèles Claude, seuls les tokens d'entrée non mis en cache comptent dans vos limites de débit ITPM. Il s'agit d'un avantage clé qui rend les limites de débit effectivement plus élevées qu'elles ne le paraissent initialement.

Les limites de débit ITPM sont estimées au début de chaque requête, et l'estimation est ajustée pendant la requête pour refléter le nombre réel de tokens d'entrée utilisés.

Voici ce qui compte dans l'ITPM :

  • input_tokens (tokens après le dernier point de rupture de cache) ✓ Comptent dans l'ITPM
  • cache_creation_input_tokens (tokens en cours d'écriture dans le cache) ✓ Comptent dans l'ITPM
  • cache_read_input_tokens (tokens lus depuis le cache) ✗ Ne comptent PAS dans l'ITPM pour la plupart des modèles


Le champ input_tokens représente uniquement les tokens qui apparaissent après votre dernier point de rupture de cache, et non tous les tokens d'entrée de votre requête. Pour calculer le total des tokens d'entrée :

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

Cela signifie que lorsque vous avez du contenu mis en cache, input_tokens sera généralement beaucoup plus petit que votre entrée totale. Par exemple, avec un document mis en cache de 200 000 tokens et une question utilisateur de 50 tokens, vous verriez input_tokens: 50 même si l'entrée totale est de 200 050 tokens.

Pour les besoins de limite de débit sur la plupart des modèles, seuls input_tokens + cache_creation_input_tokens comptent dans votre limite ITPM, ce qui fait de la mise en cache des prompts un moyen efficace d'augmenter votre débit effectif.

Exemple : Avec une limite ITPM de 2 000 000 et un taux de succès de cache de 80 %, vous pourriez effectivement traiter 10 000 000 de tokens d'entrée au total par minute (2 M non mis en cache + 8 M mis en cache), car les tokens mis en cache ne comptent pas dans votre limite de débit.



Claude Haiku 3.5 (marqué d'un † dans les tableaux de limites de débit suivants) compte également cache_read_input_tokens dans les limites de débit ITPM.

Pour tous les modèles sans le marqueur †, les tokens d'entrée mis en cache ne comptent pas dans les limites de débit et sont facturés à un tarif réduit (10 % du prix de base des tokens d'entrée). Cela signifie que vous pouvez obtenir un débit effectif nettement plus élevé en utilisant la mise en cache des prompts.



Maximisez vos limites de débit avec la mise en cache des prompts

Pour tirer le meilleur parti de vos limites de débit, utilisez la mise en cache des prompts pour le contenu répété tel que :

  • Les instructions et invites système
  • Les documents de contexte volumineux
  • Les définitions d'outils
  • L'historique de conversation

Avec une mise en cache efficace, vous pouvez augmenter considérablement votre débit réel sans augmenter vos limites de débit. Surveillez votre taux de succès de cache sur la page Utilisation pour optimiser votre stratégie de mise en cache.

Les limites de débit OTPM sont évaluées en temps réel à mesure que les tokens de sortie sont produits, en ne comptant que les tokens réellement générés. Le paramètre max_tokens n'entre pas dans les calculs de limite de débit OTPM, il n'y a donc aucun inconvénient en termes de limite de débit à définir une valeur max_tokens plus élevée.

Les limites de débit sont appliquées séparément pour chaque modèle ; vous pouvez donc utiliser différents modèles jusqu'à leurs limites respectives simultanément. Vous pouvez vérifier vos limites de débit actuelles et leur comportement dans la Claude Console, ou lire les limites configurées par programmation avec l'API Rate Limits.



Les limites de débit sont actuellement partagées entre toutes les valeurs inference_geo. Les requêtes avec inference_geo: "us" et inference_geo: "global" puisent dans le même pool de limites de débit.

* - La limite de débit Opus est une limite totale qui s'applique au trafic combiné de Claude Opus 4.8, Opus 4.7, Opus 4.6, Opus 4.5 et Opus 4.1 (obsolète).

** - La limite de débit Sonnet 4.x est une limite totale qui s'applique au trafic combiné de Sonnet 4.6 et Sonnet 4.5.

† - La limite compte cache_read_input_tokens dans l'utilisation ITPM.

API Message Batches

L'API Message Batches dispose de son propre ensemble de limites de débit qui sont partagées entre tous les modèles. Celles-ci incluent une limite de requêtes par minute (RPM) pour tous les points de terminaison de l'API et une limite sur le nombre de requêtes de lot pouvant se trouver dans la file d'attente de traitement en même temps. Une « requête de lot » fait ici référence à une partie d'un Message Batch. Vous pouvez créer un Message Batch contenant des milliers de requêtes de lot, chacune comptant dans cette limite. Une requête de lot est considérée comme faisant partie de la file d'attente de traitement lorsqu'elle n'a pas encore été traitée avec succès par le modèle.

Agents gérés

Les points de terminaison des agents gérés Claude sont soumis à des limites de débit par organisation. Ces limites sont distinctes des limites de débit de l'API Messages ci-dessus.

OpérationLimite
Points de terminaison de création (par exemple, agents, sessions et environnements)300 requêtes par minute
Points de terminaison de lecture (par exemple, récupération, liste et streaming)600 requêtes par minute

Limites de débit du mode rapide

Lorsque vous utilisez le mode rapide (aperçu de recherche) avec speed: "fast" sur Claude Opus 4.8, Opus 4.7 ou Opus 4.6, des limites de débit dédiées s'appliquent, distinctes des limites de débit Opus standard. Lorsque les limites de débit du mode rapide sont dépassées, l'API renvoie une erreur 429 avec un en-tête retry-after.

La réponse inclut des en-têtes anthropic-fast-* qui indiquent l'état de votre limite de débit en mode rapide. Consultez Mode rapide pour plus de détails sur ces en-têtes.

Surveiller vos limites de débit dans la Console

Vous pouvez surveiller votre utilisation des limites de débit sur la page Utilisation de la Claude Console.

En plus de fournir des graphiques de tokens et de requêtes, la page Utilisation fournit deux graphiques distincts de limites de débit. Utilisez ces graphiques pour voir quelle marge de croissance vous avez, quand vous pourriez atteindre un pic d'utilisation, mieux comprendre quelles limites de débit demander, ou comment vous pouvez améliorer vos taux de mise en cache. Les graphiques visualisent un certain nombre de métriques pour une limite de débit donnée (par exemple, par modèle) :

  • Le graphique Rate Limit - Input Tokens inclut :
    • Le maximum horaire de tokens d'entrée non mis en cache par minute
    • Votre limite de débit actuelle de tokens d'entrée par minute
    • Le taux de cache pour vos tokens d'entrée (c'est-à-dire le pourcentage de tokens d'entrée lus depuis le cache)
  • Le graphique Rate Limit - Output Tokens inclut :
    • Le maximum horaire de tokens de sortie par minute
    • Votre limite de débit actuelle de tokens de sortie par minute

Définir des limites inférieures pour les espaces de travail

Pour en savoir plus sur les espaces de travail, consultez Espaces de travail.

Pour protéger les espaces de travail de votre organisation contre une surutilisation potentielle, vous pouvez définir des limites de dépenses et de débit personnalisées par espace de travail.

Exemple : Si la limite de votre organisation est de 40 000 tokens d'entrée par minute et de 8 000 tokens de sortie par minute, vous pourriez limiter un espace de travail à 30 000 tokens d'entrée par minute. Cela protège les autres espaces de travail contre une surutilisation potentielle et assure une répartition plus équitable des ressources au sein de votre organisation. Les tokens par minute restants non utilisés (ou plus, si cet espace de travail n'utilise pas la limite) sont alors disponibles pour les autres espaces de travail.

Remarque :

  • Vous ne pouvez pas définir de limites sur l'espace de travail par défaut.
  • Si elles ne sont pas définies, les limites de l'espace de travail correspondent à la limite de l'organisation.
  • Les limites d'espace de travail sont définies par type de limiteur (comme les requêtes par minute, les tokens d'entrée par minute ou les tokens de sortie par minute).
  • Les limites à l'échelle de l'organisation s'appliquent toujours, même si la somme des limites des espaces de travail est supérieure.

Pour lire vos limites de débit actuelles d'organisation et d'espace de travail par programmation, utilisez l'API Rate Limits.

En-têtes de réponse

La réponse de l'API inclut des en-têtes qui vous indiquent la limite de débit appliquée, l'utilisation actuelle et le moment où la limite sera réinitialisée.

Les en-têtes suivants sont renvoyés :

En-têteDescription
retry-afterLe nombre de secondes à attendre avant de pouvoir réessayer la requête. Les tentatives antérieures échoueront.
anthropic-ratelimit-requests-limitLe nombre maximal de requêtes autorisées dans toute période de limite de débit.
anthropic-ratelimit-requests-remainingLe nombre de requêtes restantes avant d'être limité en débit.
anthropic-ratelimit-requests-resetLe moment où la limite de débit des requêtes sera entièrement réapprovisionnée, fourni au format RFC 3339.
anthropic-ratelimit-tokens-limitLe nombre maximal de tokens autorisés dans toute période de limite de débit.
anthropic-ratelimit-tokens-remainingLe nombre de tokens restants (arrondi au millier le plus proche) avant d'être limité en débit.
anthropic-ratelimit-tokens-resetLe moment où la limite de débit des tokens sera entièrement réapprovisionnée, fourni au format RFC 3339.
anthropic-ratelimit-input-tokens-limitLe nombre maximal de tokens d'entrée autorisés dans toute période de limite de débit.
anthropic-ratelimit-input-tokens-remainingLe nombre de tokens d'entrée restants (arrondi au millier le plus proche) avant d'être limité en débit.
anthropic-ratelimit-input-tokens-resetLe moment où la limite de débit des tokens d'entrée sera entièrement réapprovisionnée, fourni au format RFC 3339.
anthropic-ratelimit-output-tokens-limitLe nombre maximal de tokens de sortie autorisés dans toute période de limite de débit.
anthropic-ratelimit-output-tokens-remainingLe nombre de tokens de sortie restants (arrondi au millier le plus proche) avant d'être limité en débit.
anthropic-ratelimit-output-tokens-resetLe moment où la limite de débit des tokens de sortie sera entièrement réapprovisionnée, fourni au format RFC 3339.
anthropic-priority-input-tokens-limitLe nombre maximal de tokens d'entrée du niveau Priority autorisés dans toute période de limite de débit. (Niveau Priority uniquement)
anthropic-priority-input-tokens-remainingLe nombre de tokens d'entrée du niveau Priority restants (arrondi au millier le plus proche) avant d'être limité en débit. (Niveau Priority uniquement)
anthropic-priority-input-tokens-resetLe moment où la limite de débit des tokens d'entrée du niveau Priority sera entièrement réapprovisionnée, fourni au format RFC 3339. (Niveau Priority uniquement)
anthropic-priority-output-tokens-limitLe nombre maximal de tokens de sortie du niveau Priority autorisés dans toute période de limite de débit. (Niveau Priority uniquement)
anthropic-priority-output-tokens-remainingLe nombre de tokens de sortie du niveau Priority restants (arrondi au millier le plus proche) avant d'être limité en débit. (Niveau Priority uniquement)
anthropic-priority-output-tokens-resetLe moment où la limite de débit des tokens de sortie du niveau Priority sera entièrement réapprovisionnée, fourni au format RFC 3339. (Niveau Priority uniquement)

Les en-têtes anthropic-ratelimit-tokens-* affichent les valeurs de la limite la plus restrictive actuellement en vigueur. Par exemple, si vous avez dépassé la limite de tokens par minute de l'espace de travail, les en-têtes contiendront les valeurs de limite de débit de tokens par minute de l'espace de travail. Si les limites d'espace de travail ne s'appliquent pas, les en-têtes renverront le total des tokens restants, où le total est la somme des tokens d'entrée et de sortie. Cette approche garantit que vous avez une visibilité sur la contrainte la plus pertinente concernant votre utilisation actuelle de l'API.

Was this page helpful?

  • À propos des limites de débit
  • Limites de dépenses
  • Conditions requises pour progresser de niveau
  • Augmenter vos limites de dépenses
  • Limites de dépenses définies par le client
  • Limites de dépenses imposées par le niveau
  • Limites de débit
  • ITPM tenant compte du cache
  • API Message Batches
  • Agents gérés
  • Limites de débit du mode rapide
  • Surveiller vos limites de débit dans la Console
  • Définir des limites inférieures pour les espaces de travail
  • En-têtes de réponse