Claude Platform on AWS: このページのレート制限が適用されます。請求と支出制限は異なります。支出制限は利用できず、請求はAWS Marketplace経由で行われます(Anthropicのクレジット購入ではありません)。組織はTier 1から開始します。レート制限の引き上げはAnthropicのアカウント担当者を通じて行われます。自動的なティア昇格はなく、ワークスペースごとのレート制限設定も利用できません。高速モードはClaude Platform on AWSでは利用できません。
制限には2種類あります。
APIは組織レベルでサービス設定の制限を適用しますが、組織のワークスペースに対してユーザー設定可能な制限を設定することもできます。
これらの制限は、Standard TierとPriority Tierの両方の使用に適用されます。コミットされた支出と引き換えに強化されたサービスレベルを提供するPriority Tierの詳細については、サービスティアを参照してください。
各使用ティアには、暦月ごとにAPIに支出できる金額の制限があります。ティアの支出制限に達すると、次のティアの資格を得るまで、翌月までAPIを再度使用できるようになるのを待つ必要があります。
次のティアの資格を得るには、デポジット要件を満たす必要があります。アカウントへの過剰入金のリスクを最小限に抑えるため、月間支出制限を超える金額をデポジットすることはできません。
| 使用ティア | クレジット購入 | 最大クレジット購入 | 月間支出制限 |
|---|---|---|---|
| Tier 1 | $5 | $500 | $500 |
| Tier 2 | $40 | $500 | $500 |
| Tier 3 | $200 | $1,000 | $1,000 |
| Tier 4 | $400 | $200,000 | $200,000 |
| 月次請求 | N/A | N/A | 制限なし |
クレジット購入は、そのティアに昇格するために必要な累積クレジット購入額(税抜き)を示しています。しきい値に達すると即座に昇格します。
最大クレジット購入は、アカウントへの過剰入金を防ぐために、1回の取引でアカウントに追加できる最大金額を制限します。
月間支出制限は、そのティアで暦月ごとにAPIに支出できる最大金額です。
組織には2種類の支出制限があります。直接管理できる顧客設定の制限と、使用ティアによって設定されるティア適用の上限です。それぞれ引き上げのプロセスが異なります。
コストを管理するために、ティアの上限よりも低い支出制限を設定できます。調整するには:
Limitsページに移動する
Claude ConsoleのSettings > Limitsに移動します。
支出制限エディターを開く
Spend limitsセクションで、Change Limit(または現在制限が設定されていない場合はSet spend limit)をクリックします。
支出制限を調整する
新しい値を入力します。顧客設定の制限は、現在のティアの制限を超えることはできません。
ティアの上限(Tier 4の上限は月額$200,000)よりも高い制限が必要な場合は、LimitsページでContact Salesをクリックします。これにより、新しいタブでお問い合わせフォームが開き、組織がアップグレードされると営業チームのメンバーがメールでフォローアップします。
月次請求では月間支出上限が完全に撤廃され、デフォルトでNet-30の支払い条件が使用されます。
サポートもティア適用の制限を引き上げることができます。緊急のニーズがある場合は、サポートにお問い合わせください。
Messages APIのレート制限は、各モデルクラスごとに「requests per minute」(1分あたりのリクエスト数)、すなわちRPM、「input tokens per minute」(1分あたりの入力トークン数)、すなわちITPM、および「output tokens per minute」(1分あたりの出力トークン数)、すなわちOTPMで測定されます。
いずれかのレート制限を超えると、どのレート制限を超えたかを説明する429エラーが、待機時間を示すretry-afterヘッダーとともに返されます。
組織の使用量が急激に増加した場合、APIのアクセラレーション制限により429エラーが発生することもあります。アクセラレーション制限に達しないようにするには、トラフィックを徐々に増やし、一貫した使用パターンを維持してください。
多くのAPIプロバイダーは、キャッシュされたトークンとキャッシュされていないトークン、入力と出力のすべてのトークンを含む可能性のある、統合された「tokens per minute」(1分あたりのトークン数)、すなわちTPM制限を使用しています。ほとんどのClaudeモデルでは、キャッシュされていない入力トークンのみがITPMレート制限にカウントされます。 これは、レート制限が最初に見えるよりも実質的に高くなる重要な利点です。
ITPMレート制限は各リクエストの開始時に推定され、その推定値はリクエスト中に実際に使用された入力トークン数を反映するように調整されます。
ITPMにカウントされるものは以下のとおりです。
input_tokens(最後のキャッシュブレークポイント以降のトークン)✓ ITPMにカウントされますcache_creation_input_tokens(キャッシュに書き込まれるトークン)✓ ITPMにカウントされますcache_read_input_tokens(キャッシュから読み取られるトークン)✗ ほとんどのモデルではITPMにカウントされませんinput_tokensフィールドは、リクエスト内のすべての入力トークンではなく、最後のキャッシュブレークポイント以降に現れるトークンのみを表します。合計入力トークンを計算するには:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensこれは、キャッシュされたコンテンツがある場合、input_tokensは通常、合計入力よりもはるかに小さくなることを意味します。たとえば、200kトークンのキャッシュされたドキュメントと50トークンのユーザー質問がある場合、合計入力が200,050トークンであってもinput_tokens: 50と表示されます。
ほとんどのモデルのレート制限の目的では、input_tokens + cache_creation_input_tokensのみがITPM制限にカウントされるため、プロンプトキャッシングは実効スループットを向上させる効果的な方法です。
例:2,000,000 ITPMの制限と80%のキャッシュヒット率がある場合、キャッシュされたトークンはレート制限にカウントされないため、実質的に1分あたり合計10,000,000の入力トークン(キャッシュされていない2M + キャッシュされた8M)を処理できます。
Claude Haiku 3.5(以下のレート制限表で†マークが付いているもの)は、cache_read_input_tokensもITPMレート制限にカウントします。
†マークのないすべてのモデルでは、キャッシュされた入力トークンはレート制限にカウントされず、割引料金(基本入力トークン価格の10%)で請求されます。これは、プロンプトキャッシングを使用することで、大幅に高い実効スループットを達成できることを意味します。
プロンプトキャッシングでレート制限を最大限に活用する
レート制限を最大限に活用するには、以下のような繰り返しコンテンツにプロンプトキャッシングを使用してください。
効果的なキャッシングにより、レート制限を増やすことなく実際のスループットを大幅に向上させることができます。Usageページでキャッシュヒット率を監視して、キャッシング戦略を最適化してください。
OTPMレート制限は、出力トークンが生成されるにつれてリアルタイムで評価され、実際に生成されたトークンのみがカウントされます。max_tokensパラメータはOTPMレート制限の計算に影響しないため、より高いmax_tokens値を設定してもレート制限上のデメリットはありません。
レート制限はモデルごとに個別に適用されるため、異なるモデルをそれぞれの制限まで同時に使用できます。 現在のレート制限と動作はClaude Consoleで確認できます。また、Rate Limits APIを使用して設定された制限をプログラムで読み取ることもできます。
レート制限は現在、すべてのinference_geo値で共有されています。inference_geo: "us"とinference_geo: "global"のリクエストは、同じレート制限プールから消費されます。
* - Opusのレート制限は、Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5、Opus 4.1(非推奨)、およびOpus 4(非推奨)の合計トラフィックに適用される合計制限です。
** - Sonnet 4.xのレート制限は、Sonnet 4.6、Sonnet 4.5、およびSonnet 4(非推奨)の合計トラフィックに適用される合計制限です。
† - この制限はcache_read_input_tokensをITPM使用量にカウントします。
Message Batches APIには、すべてのモデルで共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントに対する1分あたりのリクエスト数(RPM)制限と、同時に処理キューに入れることができるバッチリクエスト数の制限が含まれます。ここでの「バッチリクエスト」とは、Message Batchの一部を指します。数千のバッチリクエストを含むMessage Batchを作成でき、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによってまだ正常に処理されていない場合、処理キューの一部と見なされます。
Claude Managed Agentsのエンドポイントは、組織ごとにレート制限されます。これらの制限は、上記のMessages APIのレート制限とは別です。
| 操作 | 制限 |
|---|---|
| 作成エンドポイント(例:エージェント、セッション、環境) | 1分あたり300リクエスト |
| 読み取りエンドポイント(例:取得、一覧、ストリーム) | 1分あたり600リクエスト |
Claude Opus 4.8、Opus 4.7、またはOpus 4.6でspeed: "fast"を指定して高速モード(リサーチプレビュー)を使用する場合、標準のOpusレート制限とは別の専用レート制限が適用されます。高速モードのレート制限を超えると、APIはretry-afterヘッダーとともに429エラーを返します。
レスポンスには、高速モードのレート制限ステータスを示すanthropic-fast-*ヘッダーが含まれます。これらのヘッダーの詳細については、高速モードを参照してください。
Claude ConsoleのUsageページでレート制限の使用状況を監視できます。
トークンとリクエストのチャートに加えて、Usageページには2つの個別のレート制限チャートが用意されています。これらのチャートを使用して、成長の余地、ピーク使用に達している可能性のあるタイミング、リクエストすべきレート制限、またはキャッシング率を改善する方法をより深く理解できます。チャートは、特定のレート制限(たとえば、モデルごと)に対する多数のメトリクスを視覚化します。
ワークスペースの詳細については、ワークスペースを参照してください。
組織内のワークスペースを潜在的な過剰使用から保護するために、ワークスペースごとにカスタムの支出制限とレート制限を設定できます。
例:組織の制限が1分あたり40,000入力トークンと1分あたり8,000出力トークンの場合、1つのワークスペースを1分あたり30,000入力トークンに制限できます。これにより、他のワークスペースを潜在的な過剰使用から保護し、組織全体でリソースをより公平に分配できます。残りの未使用の1分あたりのトークン(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースで使用できます。
注意:
現在の組織およびワークスペースのレート制限をプログラムで読み取るには、Rate Limits APIを使用してください。
APIレスポンスには、適用されたレート制限、現在の使用状況、および制限がリセットされるタイミングを示すヘッダーが含まれます。
以下のヘッダーが返されます。
| ヘッダー | 説明 |
|---|---|
retry-after | リクエストを再試行できるようになるまで待機する秒数。それより早い再試行は失敗します。 |
anthropic-ratelimit-requests-limit | 任意のレート制限期間内で許可される最大リクエスト数。 |
anthropic-ratelimit-requests-remaining | レート制限されるまでの残りリクエスト数。 |
anthropic-ratelimit-requests-reset | リクエストのレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-tokens-limit | 任意のレート制限期間内で許可される最大トークン数。 |
anthropic-ratelimit-tokens-remaining | レート制限されるまでの残りトークン数(千単位に丸められます)。 |
anthropic-ratelimit-tokens-reset | トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-input-tokens-limit | 任意のレート制限期間内で許可される最大入力トークン数。 |
anthropic-ratelimit-input-tokens-remaining | レート制限されるまでの残り入力トークン数(千単位に丸められます)。 |
anthropic-ratelimit-input-tokens-reset | 入力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-output-tokens-limit | 任意のレート制限期間内で許可される最大出力トークン数。 |
anthropic-ratelimit-output-tokens-remaining | レート制限されるまでの残り出力トークン数(千単位に丸められます)。 |
anthropic-ratelimit-output-tokens-reset | 出力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-priority-input-tokens-limit | 任意のレート制限期間内で許可されるPriority Tier入力トークンの最大数。(Priority Tierのみ) |
anthropic-priority-input-tokens-remaining | レート制限されるまでの残りPriority Tier入力トークン数(千単位に丸められます)。(Priority Tierのみ) |
anthropic-priority-input-tokens-reset | Priority Tier入力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ) |
anthropic-priority-output-tokens-limit | 任意のレート制限期間内で許可されるPriority Tier出力トークンの最大数。(Priority Tierのみ) |
anthropic-priority-output-tokens-remaining | レート制限されるまでの残りPriority Tier出力トークン数(千単位に丸められます)。(Priority Tierのみ) |
anthropic-priority-output-tokens-reset | Priority Tier出力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ) |
anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限の厳しい制限の値を表示します。たとえば、ワークスペースの1分あたりのトークン制限を超えた場合、ヘッダーにはワークスペースの1分あたりのトークンレート制限値が含まれます。ワークスペースの制限が適用されない場合、ヘッダーは残りの合計トークン数を返します。ここで合計とは入力トークンと出力トークンの合計です。このアプローチにより、現在のAPI使用に対する最も関連性の高い制約を把握できます。
Was this page helpful?