• メッセージ
  • マネージドエージェント
  • 管理
Search...
⌘K
Log in
レート制限
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
APIリファレンス/サポートと設定

レート制限

APIの不正使用を軽減し、キャパシティを管理するために、組織がClaude APIを使用できる量には制限が設けられています。

Claude Platform on AWS: このページのレート制限が適用されます。請求と支出制限は異なります。支出制限は利用できず、請求はAWS Marketplace経由で行われます(Anthropicのクレジット購入ではありません)。組織はTier 1から開始します。レート制限の引き上げはAnthropicのアカウント担当者を通じて行われます。自動的なティア昇格はなく、ワークスペースごとのレート制限設定も利用できません。高速モードはClaude Platform on AWSでは利用できません。

制限には2種類あります。

  1. 支出制限は、組織がAPI使用に対して発生させることができる月間最大コストを設定します。
  2. レート制限は、組織が一定期間内に実行できるAPIリクエストの最大数を設定します。

APIは組織レベルでサービス設定の制限を適用しますが、組織のワークスペースに対してユーザー設定可能な制限を設定することもできます。

これらの制限は、Standard TierとPriority Tierの両方の使用に適用されます。コミットされた支出と引き換えに強化されたサービスレベルを提供するPriority Tierの詳細については、サービスティアを参照してください。

レート制限について

  • 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの不正使用を防ぐように設計されています。
  • 制限は使用ティアによって定義され、各ティアは異なる支出制限とレート制限のセットに関連付けられています。
  • APIの使用中に特定のしきい値に達すると、組織は自動的にティアが上がります。 制限は組織レベルで設定されます。組織の制限は、Claude ConsoleのLimitsページで確認できます。
  • より短い時間間隔でレート制限に達する場合があります。たとえば、1分あたり60リクエスト(RPM)のレートは、1秒あたり1リクエストとして適用される場合があります。短時間のリクエストバーストは制限を超え、レート制限エラーを引き起こす可能性があります。
  • 以下に示す制限は標準ティアの制限です。より高いカスタム制限や、強化されたサービスレベルのためのPriority Tierをお求めの場合は、Limitsページから営業担当にお問い合わせください。
  • APIはトークンバケットアルゴリズムを使用してレート制限を行います。これは、固定間隔でリセットされるのではなく、キャパシティが最大制限まで継続的に補充されることを意味します。
  • ここで説明するすべての制限は、保証された最小値ではなく、許可される最大使用量を表しています。これらの制限は、意図しない過剰支出を減らし、ユーザー間でリソースを公平に分配することを目的としています。

支出制限

各使用ティアには、暦月ごとにAPIに支出できる金額の制限があります。ティアの支出制限に達すると、次のティアの資格を得るまで、翌月までAPIを再度使用できるようになるのを待つ必要があります。

次のティアの資格を得るには、デポジット要件を満たす必要があります。アカウントへの過剰入金のリスクを最小限に抑えるため、月間支出制限を超える金額をデポジットすることはできません。

ティア昇格の要件

使用ティアクレジット購入最大クレジット購入月間支出制限
Tier 1$5$500$500
Tier 2$40$500$500
Tier 3$200$1,000$1,000
Tier 4$400$200,000$200,000
月次請求N/AN/A制限なし

クレジット購入は、そのティアに昇格するために必要な累積クレジット購入額(税抜き)を示しています。しきい値に達すると即座に昇格します。

最大クレジット購入は、アカウントへの過剰入金を防ぐために、1回の取引でアカウントに追加できる最大金額を制限します。

月間支出制限は、そのティアで暦月ごとにAPIに支出できる最大金額です。

支出制限の引き上げ

組織には2種類の支出制限があります。直接管理できる顧客設定の制限と、使用ティアによって設定されるティア適用の上限です。それぞれ引き上げのプロセスが異なります。

顧客設定の支出制限

コストを管理するために、ティアの上限よりも低い支出制限を設定できます。調整するには:

  1. 1

    Limitsページに移動する

    Claude ConsoleのSettings > Limitsに移動します。

  2. 2

    支出制限エディターを開く

    Spend limitsセクションで、Change Limit(または現在制限が設定されていない場合はSet spend limit)をクリックします。

  3. 3

    支出制限を調整する

    新しい値を入力します。顧客設定の制限は、現在のティアの制限を超えることはできません。

ティア適用の支出制限

ティアの上限(Tier 4の上限は月額$200,000)よりも高い制限が必要な場合は、LimitsページでContact Salesをクリックします。これにより、新しいタブでお問い合わせフォームが開き、組織がアップグレードされると営業チームのメンバーがメールでフォローアップします。

月次請求では月間支出上限が完全に撤廃され、デフォルトでNet-30の支払い条件が使用されます。

サポートもティア適用の制限を引き上げることができます。緊急のニーズがある場合は、サポートにお問い合わせください。

レート制限

Messages APIのレート制限は、各モデルクラスごとに「requests per minute」(1分あたりのリクエスト数)、すなわちRPM、「input tokens per minute」(1分あたりの入力トークン数)、すなわちITPM、および「output tokens per minute」(1分あたりの出力トークン数)、すなわちOTPMで測定されます。 いずれかのレート制限を超えると、どのレート制限を超えたかを説明する429エラーが、待機時間を示すretry-afterヘッダーとともに返されます。

組織の使用量が急激に増加した場合、APIのアクセラレーション制限により429エラーが発生することもあります。アクセラレーション制限に達しないようにするには、トラフィックを徐々に増やし、一貫した使用パターンを維持してください。

キャッシュ対応ITPM

多くのAPIプロバイダーは、キャッシュされたトークンとキャッシュされていないトークン、入力と出力のすべてのトークンを含む可能性のある、統合された「tokens per minute」(1分あたりのトークン数)、すなわちTPM制限を使用しています。ほとんどのClaudeモデルでは、キャッシュされていない入力トークンのみがITPMレート制限にカウントされます。 これは、レート制限が最初に見えるよりも実質的に高くなる重要な利点です。

ITPMレート制限は各リクエストの開始時に推定され、その推定値はリクエスト中に実際に使用された入力トークン数を反映するように調整されます。

ITPMにカウントされるものは以下のとおりです。

  • input_tokens(最後のキャッシュブレークポイント以降のトークン)✓ ITPMにカウントされます
  • cache_creation_input_tokens(キャッシュに書き込まれるトークン)✓ ITPMにカウントされます
  • cache_read_input_tokens(キャッシュから読み取られるトークン)✗ ほとんどのモデルではITPMにカウントされません

input_tokensフィールドは、リクエスト内のすべての入力トークンではなく、最後のキャッシュブレークポイント以降に現れるトークンのみを表します。合計入力トークンを計算するには:

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

これは、キャッシュされたコンテンツがある場合、input_tokensは通常、合計入力よりもはるかに小さくなることを意味します。たとえば、200kトークンのキャッシュされたドキュメントと50トークンのユーザー質問がある場合、合計入力が200,050トークンであってもinput_tokens: 50と表示されます。

ほとんどのモデルのレート制限の目的では、input_tokens + cache_creation_input_tokensのみがITPM制限にカウントされるため、プロンプトキャッシングは実効スループットを向上させる効果的な方法です。

例:2,000,000 ITPMの制限と80%のキャッシュヒット率がある場合、キャッシュされたトークンはレート制限にカウントされないため、実質的に1分あたり合計10,000,000の入力トークン(キャッシュされていない2M + キャッシュされた8M)を処理できます。

Claude Haiku 3.5(以下のレート制限表で†マークが付いているもの)は、cache_read_input_tokensもITPMレート制限にカウントします。

†マークのないすべてのモデルでは、キャッシュされた入力トークンはレート制限にカウントされず、割引料金(基本入力トークン価格の10%)で請求されます。これは、プロンプトキャッシングを使用することで、大幅に高い実効スループットを達成できることを意味します。

プロンプトキャッシングでレート制限を最大限に活用する

レート制限を最大限に活用するには、以下のような繰り返しコンテンツにプロンプトキャッシングを使用してください。

  • システム指示とプロンプト
  • 大きなコンテキストドキュメント
  • ツール定義
  • 会話履歴

効果的なキャッシングにより、レート制限を増やすことなく実際のスループットを大幅に向上させることができます。Usageページでキャッシュヒット率を監視して、キャッシング戦略を最適化してください。

OTPMレート制限は、出力トークンが生成されるにつれてリアルタイムで評価され、実際に生成されたトークンのみがカウントされます。max_tokensパラメータはOTPMレート制限の計算に影響しないため、より高いmax_tokens値を設定してもレート制限上のデメリットはありません。

レート制限はモデルごとに個別に適用されるため、異なるモデルをそれぞれの制限まで同時に使用できます。 現在のレート制限と動作はClaude Consoleで確認できます。また、Rate Limits APIを使用して設定された制限をプログラムで読み取ることもできます。

レート制限は現在、すべてのinference_geo値で共有されています。inference_geo: "us"とinference_geo: "global"のリクエストは、同じレート制限プールから消費されます。

* - Opusのレート制限は、Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5、Opus 4.1(非推奨)、およびOpus 4(非推奨)の合計トラフィックに適用される合計制限です。

** - Sonnet 4.xのレート制限は、Sonnet 4.6、Sonnet 4.5、およびSonnet 4(非推奨)の合計トラフィックに適用される合計制限です。

† - この制限はcache_read_input_tokensをITPM使用量にカウントします。

Message Batches API

Message Batches APIには、すべてのモデルで共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントに対する1分あたりのリクエスト数(RPM)制限と、同時に処理キューに入れることができるバッチリクエスト数の制限が含まれます。ここでの「バッチリクエスト」とは、Message Batchの一部を指します。数千のバッチリクエストを含むMessage Batchを作成でき、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによってまだ正常に処理されていない場合、処理キューの一部と見なされます。

マネージドエージェント

Claude Managed Agentsのエンドポイントは、組織ごとにレート制限されます。これらの制限は、上記のMessages APIのレート制限とは別です。

操作制限
作成エンドポイント(例:エージェント、セッション、環境)1分あたり300リクエスト
読み取りエンドポイント(例:取得、一覧、ストリーム)1分あたり600リクエスト

高速モードのレート制限

Claude Opus 4.8、Opus 4.7、またはOpus 4.6でspeed: "fast"を指定して高速モード(リサーチプレビュー)を使用する場合、標準のOpusレート制限とは別の専用レート制限が適用されます。高速モードのレート制限を超えると、APIはretry-afterヘッダーとともに429エラーを返します。

レスポンスには、高速モードのレート制限ステータスを示すanthropic-fast-*ヘッダーが含まれます。これらのヘッダーの詳細については、高速モードを参照してください。

Consoleでのレート制限の監視

Claude ConsoleのUsageページでレート制限の使用状況を監視できます。

トークンとリクエストのチャートに加えて、Usageページには2つの個別のレート制限チャートが用意されています。これらのチャートを使用して、成長の余地、ピーク使用に達している可能性のあるタイミング、リクエストすべきレート制限、またはキャッシング率を改善する方法をより深く理解できます。チャートは、特定のレート制限(たとえば、モデルごと)に対する多数のメトリクスを視覚化します。

  • Rate Limit - Input Tokensチャートには以下が含まれます。
    • 1時間ごとの1分あたりの最大キャッシュされていない入力トークン数
    • 現在の1分あたりの入力トークン数のレート制限
    • 入力トークンのキャッシュ率(つまり、キャッシュから読み取られた入力トークンの割合)
  • Rate Limit - Output Tokensチャートには以下が含まれます。
    • 1時間ごとの1分あたりの最大出力トークン数
    • 現在の1分あたりの出力トークン数のレート制限

ワークスペースに対するより低い制限の設定

ワークスペースの詳細については、ワークスペースを参照してください。

組織内のワークスペースを潜在的な過剰使用から保護するために、ワークスペースごとにカスタムの支出制限とレート制限を設定できます。

例:組織の制限が1分あたり40,000入力トークンと1分あたり8,000出力トークンの場合、1つのワークスペースを1分あたり30,000入力トークンに制限できます。これにより、他のワークスペースを潜在的な過剰使用から保護し、組織全体でリソースをより公平に分配できます。残りの未使用の1分あたりのトークン(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースで使用できます。

注意:

  • デフォルトのワークスペースには制限を設定できません。
  • 設定されていない場合、ワークスペースの制限は組織の制限と一致します。
  • ワークスペースの制限は、リミッタータイプごと(1分あたりのリクエスト数、1分あたりの入力トークン数、1分あたりの出力トークン数など)に設定されます。
  • ワークスペースの制限の合計がそれを超える場合でも、組織全体の制限は常に適用されます。

現在の組織およびワークスペースのレート制限をプログラムで読み取るには、Rate Limits APIを使用してください。

レスポンスヘッダー

APIレスポンスには、適用されたレート制限、現在の使用状況、および制限がリセットされるタイミングを示すヘッダーが含まれます。

以下のヘッダーが返されます。

ヘッダー説明
retry-afterリクエストを再試行できるようになるまで待機する秒数。それより早い再試行は失敗します。
anthropic-ratelimit-requests-limit任意のレート制限期間内で許可される最大リクエスト数。
anthropic-ratelimit-requests-remainingレート制限されるまでの残りリクエスト数。
anthropic-ratelimit-requests-resetリクエストのレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-ratelimit-tokens-limit任意のレート制限期間内で許可される最大トークン数。
anthropic-ratelimit-tokens-remainingレート制限されるまでの残りトークン数(千単位に丸められます)。
anthropic-ratelimit-tokens-resetトークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-ratelimit-input-tokens-limit任意のレート制限期間内で許可される最大入力トークン数。
anthropic-ratelimit-input-tokens-remainingレート制限されるまでの残り入力トークン数(千単位に丸められます)。
anthropic-ratelimit-input-tokens-reset入力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-ratelimit-output-tokens-limit任意のレート制限期間内で許可される最大出力トークン数。
anthropic-ratelimit-output-tokens-remainingレート制限されるまでの残り出力トークン数(千単位に丸められます)。
anthropic-ratelimit-output-tokens-reset出力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。
anthropic-priority-input-tokens-limit任意のレート制限期間内で許可されるPriority Tier入力トークンの最大数。(Priority Tierのみ)
anthropic-priority-input-tokens-remainingレート制限されるまでの残りPriority Tier入力トークン数(千単位に丸められます)。(Priority Tierのみ)
anthropic-priority-input-tokens-resetPriority Tier入力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ)
anthropic-priority-output-tokens-limit任意のレート制限期間内で許可されるPriority Tier出力トークンの最大数。(Priority Tierのみ)
anthropic-priority-output-tokens-remainingレート制限されるまでの残りPriority Tier出力トークン数(千単位に丸められます)。(Priority Tierのみ)
anthropic-priority-output-tokens-resetPriority Tier出力トークンのレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ)

anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限の厳しい制限の値を表示します。たとえば、ワークスペースの1分あたりのトークン制限を超えた場合、ヘッダーにはワークスペースの1分あたりのトークンレート制限値が含まれます。ワークスペースの制限が適用されない場合、ヘッダーは残りの合計トークン数を返します。ここで合計とは入力トークンと出力トークンの合計です。このアプローチにより、現在のAPI使用に対する最も関連性の高い制約を把握できます。

Was this page helpful?

  • レート制限について
  • 支出制限
  • ティア昇格の要件
  • 支出制限の引き上げ
  • 顧客設定の支出制限
  • ティア適用の支出制限
  • レート制限
  • キャッシュ対応ITPM
  • Message Batches API
  • マネージドエージェント
  • 高速モードのレート制限
  • Consoleでのレート制限の監視
  • ワークスペースに対するより低い制限の設定
  • レスポンスヘッダー