Claude Platform sur AWS : Les limites de débit de cette page s'appliquent. La facturation et les limites de dépenses diffèrent : les limites de dépenses ne sont pas disponibles, et la facturation s'effectue via AWS Marketplace (et non par achat de crédits Anthropic). Les organisations commencent au niveau 1. Les augmentations de limites de débit passent par votre représentant de compte Anthropic ; il n'y a pas de progression automatique de niveau, et la configuration des limites de débit par espace de travail n'est pas disponible. Le mode rapide n'est pas disponible sur Claude Platform sur AWS.
Il existe deux types de limites :
L'API applique des limites configurées par le service au niveau de l'organisation, mais vous pouvez également définir des limites configurables par l'utilisateur pour les espaces de travail de votre organisation.
Ces limites s'appliquent à la fois à l'utilisation du niveau Standard et du niveau Priority. Pour plus d'informations sur le niveau Priority, qui offre des niveaux de service améliorés en échange d'un engagement de dépenses, consultez Niveaux de service.
Chaque niveau d'utilisation a une limite sur le montant que vous pouvez dépenser sur l'API chaque mois civil. Une fois que vous atteignez la limite de dépenses de votre niveau, jusqu'à ce que vous soyez éligible au niveau suivant, vous devrez attendre le mois suivant pour pouvoir utiliser à nouveau l'API.
Pour être éligible au niveau suivant, vous devez satisfaire à une exigence de dépôt. Pour minimiser le risque de surfinancement de votre compte, vous ne pouvez pas déposer plus que votre limite de dépenses mensuelle.
| Niveau d'utilisation | Achat de crédits | Achat de crédits max. | Limite de dépenses mensuelle |
|---|---|---|---|
| Niveau 1 | 5 $ | 500 $ | 500 $ |
| Niveau 2 | 40 $ | 500 $ | 500 $ |
| Niveau 3 | 200 $ | 1 000 $ | 1 000 $ |
| Niveau 4 | 400 $ | 200 000 $ | 200 000 $ |
| Facturation mensuelle | N/A | N/A | Aucune limite |
Achat de crédits indique les achats cumulés de crédits (hors taxes) requis pour progresser vers ce niveau. Vous progressez immédiatement dès que vous atteignez le seuil.
Achat de crédits max. limite le montant maximal que vous pouvez ajouter à votre compte en une seule transaction afin d'éviter le surfinancement du compte.
Limite de dépenses mensuelle est le montant maximal que vous pouvez dépenser sur l'API chaque mois civil à ce niveau.
Votre organisation dispose de deux types de limites de dépenses : une limite définie par le client que vous contrôlez directement, et un plafond imposé par le niveau défini par votre niveau d'utilisation. Chacune a un processus différent pour être augmentée.
Vous pouvez définir une limite de dépenses inférieure au plafond de votre niveau pour contrôler les coûts. Pour l'ajuster :
Accédez à la page Limites
Rendez-vous sur Paramètres > Limites dans la Claude Console.
Ouvrez l'éditeur de limite de dépenses
Dans la section Spend limits, cliquez sur Change Limit (ou Set spend limit si aucune limite n'est actuellement définie).
Ajustez votre limite de dépenses
Saisissez une nouvelle valeur. Votre limite définie par le client ne peut pas dépasser la limite de votre niveau actuel.
Lorsque vous avez besoin d'une limite supérieure au plafond de votre niveau (le plafond du niveau 4 est de 200 000 $ par mois), cliquez sur Contact Sales sur la page Limites. Cela ouvre le formulaire de contact dans un nouvel onglet, et un membre de l'équipe commerciale vous contactera par e-mail lorsque votre organisation sera mise à niveau.
La facturation mensuelle supprime entièrement le plafond de dépenses mensuel et utilise par défaut des conditions de paiement à 30 jours nets.
Le support peut également augmenter les limites imposées par le niveau. Pour les besoins urgents, contactez le support.
Les limites de débit pour l'API Messages sont mesurées en requêtes par minute (RPM), en tokens d'entrée par minute (ITPM) et en tokens de sortie par minute (OTPM) pour chaque classe de modèle.
Si vous dépassez l'une des limites de débit, vous obtiendrez une erreur 429 décrivant quelle limite de débit a été dépassée, ainsi qu'un en-tête retry-after indiquant combien de temps attendre.
Vous pourriez également rencontrer des erreurs 429 en raison de limites d'accélération sur l'API si votre organisation connaît une forte augmentation d'utilisation. Pour éviter d'atteindre les limites d'accélération, augmentez progressivement votre trafic et maintenez des schémas d'utilisation cohérents.
De nombreux fournisseurs d'API utilisent une limite combinée de « tokens par minute » (TPM) qui peut inclure tous les tokens, mis en cache ou non, d'entrée et de sortie. Pour la plupart des modèles Claude, seuls les tokens d'entrée non mis en cache comptent dans vos limites de débit ITPM. Il s'agit d'un avantage clé qui rend les limites de débit effectivement plus élevées qu'elles ne le paraissent initialement.
Les limites de débit ITPM sont estimées au début de chaque requête, et l'estimation est ajustée pendant la requête pour refléter le nombre réel de tokens d'entrée utilisés.
Voici ce qui compte dans l'ITPM :
input_tokens (tokens après le dernier point de rupture de cache) ✓ Comptent dans l'ITPMcache_creation_input_tokens (tokens en cours d'écriture dans le cache) ✓ Comptent dans l'ITPMcache_read_input_tokens (tokens lus depuis le cache) ✗ Ne comptent PAS dans l'ITPM pour la plupart des modèlesLe champ input_tokens représente uniquement les tokens qui apparaissent après votre dernier point de rupture de cache, et non tous les tokens d'entrée de votre requête. Pour calculer le total des tokens d'entrée :
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensCela signifie que lorsque vous avez du contenu mis en cache, input_tokens sera généralement beaucoup plus petit que votre entrée totale. Par exemple, avec un document mis en cache de 200 000 tokens et une question utilisateur de 50 tokens, vous verriez input_tokens: 50 même si l'entrée totale est de 200 050 tokens.
Pour les besoins de limite de débit sur la plupart des modèles, seuls input_tokens + cache_creation_input_tokens comptent dans votre limite ITPM, ce qui fait de la mise en cache des prompts un moyen efficace d'augmenter votre débit effectif.
Exemple : Avec une limite ITPM de 2 000 000 et un taux de succès de cache de 80 %, vous pourriez effectivement traiter 10 000 000 de tokens d'entrée au total par minute (2 M non mis en cache + 8 M mis en cache), car les tokens mis en cache ne comptent pas dans votre limite de débit.
Claude Haiku 3.5 (marqué d'un † dans les tableaux de limites de débit suivants) compte également cache_read_input_tokens dans les limites de débit ITPM.
Pour tous les modèles sans le marqueur †, les tokens d'entrée mis en cache ne comptent pas dans les limites de débit et sont facturés à un tarif réduit (10 % du prix de base des tokens d'entrée). Cela signifie que vous pouvez obtenir un débit effectif nettement plus élevé en utilisant la mise en cache des prompts.
Maximisez vos limites de débit avec la mise en cache des prompts
Pour tirer le meilleur parti de vos limites de débit, utilisez la mise en cache des prompts pour le contenu répété tel que :
Avec une mise en cache efficace, vous pouvez augmenter considérablement votre débit réel sans augmenter vos limites de débit. Surveillez votre taux de succès de cache sur la page Utilisation pour optimiser votre stratégie de mise en cache.
Les limites de débit OTPM sont évaluées en temps réel à mesure que les tokens de sortie sont produits, en ne comptant que les tokens réellement générés. Le paramètre max_tokens n'entre pas dans les calculs de limite de débit OTPM, il n'y a donc aucun inconvénient en termes de limite de débit à définir une valeur max_tokens plus élevée.
Les limites de débit sont appliquées séparément pour chaque modèle ; vous pouvez donc utiliser différents modèles jusqu'à leurs limites respectives simultanément. Vous pouvez vérifier vos limites de débit actuelles et leur comportement dans la Claude Console, ou lire les limites configurées par programmation avec l'API Rate Limits.
Les limites de débit sont actuellement partagées entre toutes les valeurs inference_geo. Les requêtes avec inference_geo: "us" et inference_geo: "global" puisent dans le même pool de limites de débit.
* - La limite de débit Opus est une limite totale qui s'applique au trafic combiné de Claude Opus 4.8, Opus 4.7, Opus 4.6, Opus 4.5 et Opus 4.1 (obsolète).
** - La limite de débit Sonnet 4.x est une limite totale qui s'applique au trafic combiné de Sonnet 4.6 et Sonnet 4.5.
† - La limite compte cache_read_input_tokens dans l'utilisation ITPM.
L'API Message Batches dispose de son propre ensemble de limites de débit qui sont partagées entre tous les modèles. Celles-ci incluent une limite de requêtes par minute (RPM) pour tous les points de terminaison de l'API et une limite sur le nombre de requêtes de lot pouvant se trouver dans la file d'attente de traitement en même temps. Une « requête de lot » fait ici référence à une partie d'un Message Batch. Vous pouvez créer un Message Batch contenant des milliers de requêtes de lot, chacune comptant dans cette limite. Une requête de lot est considérée comme faisant partie de la file d'attente de traitement lorsqu'elle n'a pas encore été traitée avec succès par le modèle.
Les points de terminaison des agents gérés Claude sont soumis à des limites de débit par organisation. Ces limites sont distinctes des limites de débit de l'API Messages ci-dessus.
| Opération | Limite |
|---|---|
| Points de terminaison de création (par exemple, agents, sessions et environnements) | 300 requêtes par minute |
| Points de terminaison de lecture (par exemple, récupération, liste et streaming) | 600 requêtes par minute |
Lorsque vous utilisez le mode rapide (aperçu de recherche) avec speed: "fast" sur Claude Opus 4.8, Opus 4.7 ou Opus 4.6, des limites de débit dédiées s'appliquent, distinctes des limites de débit Opus standard. Lorsque les limites de débit du mode rapide sont dépassées, l'API renvoie une erreur 429 avec un en-tête retry-after.
La réponse inclut des en-têtes anthropic-fast-* qui indiquent l'état de votre limite de débit en mode rapide. Consultez Mode rapide pour plus de détails sur ces en-têtes.
Vous pouvez surveiller votre utilisation des limites de débit sur la page Utilisation de la Claude Console.
En plus de fournir des graphiques de tokens et de requêtes, la page Utilisation fournit deux graphiques distincts de limites de débit. Utilisez ces graphiques pour voir quelle marge de croissance vous avez, quand vous pourriez atteindre un pic d'utilisation, mieux comprendre quelles limites de débit demander, ou comment vous pouvez améliorer vos taux de mise en cache. Les graphiques visualisent un certain nombre de métriques pour une limite de débit donnée (par exemple, par modèle) :
Pour en savoir plus sur les espaces de travail, consultez Espaces de travail.
Pour protéger les espaces de travail de votre organisation contre une surutilisation potentielle, vous pouvez définir des limites de dépenses et de débit personnalisées par espace de travail.
Exemple : Si la limite de votre organisation est de 40 000 tokens d'entrée par minute et de 8 000 tokens de sortie par minute, vous pourriez limiter un espace de travail à 30 000 tokens d'entrée par minute. Cela protège les autres espaces de travail contre une surutilisation potentielle et assure une répartition plus équitable des ressources au sein de votre organisation. Les tokens par minute restants non utilisés (ou plus, si cet espace de travail n'utilise pas la limite) sont alors disponibles pour les autres espaces de travail.
Remarque :
Pour lire vos limites de débit actuelles d'organisation et d'espace de travail par programmation, utilisez l'API Rate Limits.
La réponse de l'API inclut des en-têtes qui vous indiquent la limite de débit appliquée, l'utilisation actuelle et le moment où la limite sera réinitialisée.
Les en-têtes suivants sont renvoyés :
| En-tête | Description |
|---|---|
retry-after | Le nombre de secondes à attendre avant de pouvoir réessayer la requête. Les tentatives antérieures échoueront. |
anthropic-ratelimit-requests-limit | Le nombre maximal de requêtes autorisées dans toute période de limite de débit. |
anthropic-ratelimit-requests-remaining | Le nombre de requêtes restantes avant d'être limité en débit. |
anthropic-ratelimit-requests-reset | Le moment où la limite de débit des requêtes sera entièrement réapprovisionnée, fourni au format RFC 3339. |
anthropic-ratelimit-tokens-limit | Le nombre maximal de tokens autorisés dans toute période de limite de débit. |
anthropic-ratelimit-tokens-remaining | Le nombre de tokens restants (arrondi au millier le plus proche) avant d'être limité en débit. |
anthropic-ratelimit-tokens-reset | Le moment où la limite de débit des tokens sera entièrement réapprovisionnée, fourni au format RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Le nombre maximal de tokens d'entrée autorisés dans toute période de limite de débit. |
anthropic-ratelimit-input-tokens-remaining | Le nombre de tokens d'entrée restants (arrondi au millier le plus proche) avant d'être limité en débit. |
anthropic-ratelimit-input-tokens-reset | Le moment où la limite de débit des tokens d'entrée sera entièrement réapprovisionnée, fourni au format RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Le nombre maximal de tokens de sortie autorisés dans toute période de limite de débit. |
anthropic-ratelimit-output-tokens-remaining | Le nombre de tokens de sortie restants (arrondi au millier le plus proche) avant d'être limité en débit. |
anthropic-ratelimit-output-tokens-reset | Le moment où la limite de débit des tokens de sortie sera entièrement réapprovisionnée, fourni au format RFC 3339. |
anthropic-priority-input-tokens-limit | Le nombre maximal de tokens d'entrée du niveau Priority autorisés dans toute période de limite de débit. (Niveau Priority uniquement) |
anthropic-priority-input-tokens-remaining | Le nombre de tokens d'entrée du niveau Priority restants (arrondi au millier le plus proche) avant d'être limité en débit. (Niveau Priority uniquement) |
anthropic-priority-input-tokens-reset | Le moment où la limite de débit des tokens d'entrée du niveau Priority sera entièrement réapprovisionnée, fourni au format RFC 3339. (Niveau Priority uniquement) |
anthropic-priority-output-tokens-limit | Le nombre maximal de tokens de sortie du niveau Priority autorisés dans toute période de limite de débit. (Niveau Priority uniquement) |
anthropic-priority-output-tokens-remaining | Le nombre de tokens de sortie du niveau Priority restants (arrondi au millier le plus proche) avant d'être limité en débit. (Niveau Priority uniquement) |
anthropic-priority-output-tokens-reset | Le moment où la limite de débit des tokens de sortie du niveau Priority sera entièrement réapprovisionnée, fourni au format RFC 3339. (Niveau Priority uniquement) |
Les en-têtes anthropic-ratelimit-tokens-* affichent les valeurs de la limite la plus restrictive actuellement en vigueur. Par exemple, si vous avez dépassé la limite de tokens par minute de l'espace de travail, les en-têtes contiendront les valeurs de limite de débit de tokens par minute de l'espace de travail. Si les limites d'espace de travail ne s'appliquent pas, les en-têtes renverront le total des tokens restants, où le total est la somme des tokens d'entrée et de sortie. Cette approche garantit que vous avez une visibilité sur la contrainte la plus pertinente concernant votre utilisation actuelle de l'API.
Was this page helpful?