APIリファレンスサポートと設定

サービスティア

異なるサービスティアにより、アプリケーションのニーズに基づいて可用性、パフォーマンス、予測可能なコストのバランスを取ることができます。

Anthropicは3つのサービスティアを提供しています。

Priority Tier： 時間、可用性、予測可能な価格設定が重要な本番環境にデプロイされたワークフローに最適
Standard： パイロット運用と日常的なユースケースのスケーリングの両方に対応するデフォルトティア
Batch： 待機可能な非同期ワークフロー、または通常のキャパシティ外で処理することでメリットが得られるワークフローに最適

Standardティア

Standardティアは、すべてのAPIリクエストのデフォルトのサービスティアです。APIはこれらのリクエストを他のすべてのリクエストと同様に優先順位付けし、ベストエフォートの可用性で処理します。

Priority Tier

APIはこのティアのリクエストを他のすべてのリクエストよりも優先します。この優先順位付けにより、ピーク時であっても「サーバー過負荷」エラーを最小限に抑えることができます。

詳細については、Priority Tierを始めるを参照してください。

リクエストへのティア割り当ての仕組み

リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します。

組織に十分なPriority Tierキャパシティの入力トークン/分がある
組織に十分なPriority Tierキャパシティの出力トークン/分がある

AnthropicはPriority Tierキャパシティに対する使用量を以下のようにカウントします。

入力トークン

キャッシュ読み取りは、キャッシュから読み取られたトークン1つにつき0.1トークンとしてカウント
5分TTLでのキャッシュ書き込みは、キャッシュに書き込まれたトークン1つにつき1.25トークンとしてカウント
1時間TTLでのキャッシュ書き込みは、キャッシュに書き込まれたトークン1つにつき2.00トークンとしてカウント
Claude Opus 4.6、Claude Sonnet 4.6、およびそれ以降のモデルでの米国限定推論（inference_geo: "us"）リクエストの場合、入力トークンは1トークンにつき1.1トークンとしてカウント
その他すべての入力トークンは1トークンにつき1トークンとしてカウント

出力トークン

Claude Opus 4.6、Claude Sonnet 4.6、およびそれ以降のモデルでの米国限定推論（inference_geo: "us"）リクエストの場合、出力トークンは1トークンにつき1.1トークンとしてカウント
その他すべての出力トークンは1トークンにつき1トークンとしてカウント

それ以外の場合、リクエストはStandardティアで処理されます。

これらの消費レートは、各トークンタイプの相対的な価格設定を反映しています。たとえば、米国限定推論はOpus 4.6、Sonnet 4.6、およびそれ以降のモデルで1.1倍の価格設定となっているため、inference_geo: "us"で消費される各トークンは、Priority Tierキャパシティから1.1トークン分を消費します。

Priority Tierに割り当てられたリクエストは、Priority Tierキャパシティと通常のレート制限の両方から消費されます。リクエストの処理がレート制限を超える場合、そのリクエストは拒否されます。

サービスティアの使用

service_tierパラメータを設定することで、リクエストに使用できるサービスティアを制御できます。

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

service_tierパラメータは以下の値を受け付けます。

"auto"（デフォルト） - 利用可能な場合はPriority Tierキャパシティを使用し、利用できない場合は他のキャパシティにフォールバックします
"standard_only" - Standardティアのキャパシティのみを使用します。Priority Tierキャパシティを使用したくない場合に便利です

レスポンスのusageオブジェクトには、リクエストに割り当てられたサービスティアも含まれます。

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

これにより、リクエストにどのサービスティアが割り当てられたかを確認できます。

Priority Tierコミットメントがあるモデルでservice_tier="auto"をリクエストした場合、以下のレスポンスヘッダーが情報を提供します。

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

これらのヘッダーの有無を確認することで、制限を超えていた場合でも、リクエストがPriority Tierの対象であったかどうかを検出できます。

Priority Tierを始める

以下に関心がある場合は、Priority Tierキャパシティへのコミットを検討することをお勧めします。

より高い可用性： 優先的な計算リソースにより99.5%の稼働率を目標
コスト管理： 予測可能な支出と、より長期のコミットメントに対する割引
柔軟なオーバーフロー： コミットしたキャパシティを超えた場合、自動的にStandardティアにフォールバック

Priority Tierへのコミットには、以下を決定する必要があります。

1分あたりの入力トークン数
1分あたりの出力トークン数
コミットメント期間（1、3、6、または12か月）
特定のモデルバージョン

購入する入力トークンと出力トークンの比率は重要です。Priority Tierキャパシティを実際のトラフィックパターンに合わせてサイジングすることで、購入したトークンの利用率を最大化できます。

サポートされているモデル

Priority Tierは、Claude Mythos PreviewおよびClaude Mythos 5を除く、利用可能なすべてのClaudeモデル（Claude Fable 5およびClaude Opus 4.8を含む）でサポートされています。

利用可能なモデルの詳細については、モデルの概要を確認してください。

Priority Tierへのアクセス方法

Priority Tierの使用を開始するには：

営業担当にお問い合わせいただき、プロビジョニングを完了します。
（オプション）APIリクエストを更新して、service_tierパラメータをautoに設定します。
レスポンスヘッダーとClaude Consoleを通じて使用状況を監視します。

Was this page helpful?

APIリファレンスサポートと設定

サービスティア

Anthropicは3つのサービスティアを提供しています。

Priority Tier： 時間、可用性、予測可能な価格設定が重要な本番環境にデプロイされたワークフローに最適
Standard： パイロット運用と日常的なユースケースのスケーリングの両方に対応するデフォルトティア
Batch： 待機可能な非同期ワークフロー、または通常のキャパシティ外で処理することでメリットが得られるワークフローに最適

Standardティア

Priority Tier

詳細については、Priority Tierを始めるを参照してください。

リクエストへのティア割り当ての仕組み

リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します。

組織に十分なPriority Tierキャパシティの入力トークン/分がある
組織に十分なPriority Tierキャパシティの出力トークン/分がある

AnthropicはPriority Tierキャパシティに対する使用量を以下のようにカウントします。

入力トークン

キャッシュ読み取りは、キャッシュから読み取られたトークン1つにつき0.1トークンとしてカウント
5分TTLでのキャッシュ書き込みは、キャッシュに書き込まれたトークン1つにつき1.25トークンとしてカウント
1時間TTLでのキャッシュ書き込みは、キャッシュに書き込まれたトークン1つにつき2.00トークンとしてカウント
Claude Opus 4.6、Claude Sonnet 4.6、およびそれ以降のモデルでの米国限定推論（inference_geo: "us"）リクエストの場合、入力トークンは1トークンにつき1.1トークンとしてカウント
その他すべての入力トークンは1トークンにつき1トークンとしてカウント

出力トークン

Claude Opus 4.6、Claude Sonnet 4.6、およびそれ以降のモデルでの米国限定推論（inference_geo: "us"）リクエストの場合、出力トークンは1トークンにつき1.1トークンとしてカウント
その他すべての出力トークンは1トークンにつき1トークンとしてカウント

それ以外の場合、リクエストはStandardティアで処理されます。

サービスティアの使用

service_tierパラメータを設定することで、リクエストに使用できるサービスティアを制御できます。

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

service_tierパラメータは以下の値を受け付けます。

"auto"（デフォルト） - 利用可能な場合はPriority Tierキャパシティを使用し、利用できない場合は他のキャパシティにフォールバックします
"standard_only" - Standardティアのキャパシティのみを使用します。Priority Tierキャパシティを使用したくない場合に便利です

レスポンスのusageオブジェクトには、リクエストに割り当てられたサービスティアも含まれます。

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

これにより、リクエストにどのサービスティアが割り当てられたかを確認できます。

Priority Tierコミットメントがあるモデルでservice_tier="auto"をリクエストした場合、以下のレスポンスヘッダーが情報を提供します。

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

これらのヘッダーの有無を確認することで、制限を超えていた場合でも、リクエストがPriority Tierの対象であったかどうかを検出できます。

Priority Tierを始める

以下に関心がある場合は、Priority Tierキャパシティへのコミットを検討することをお勧めします。

より高い可用性： 優先的な計算リソースにより99.5%の稼働率を目標
コスト管理： 予測可能な支出と、より長期のコミットメントに対する割引
柔軟なオーバーフロー： コミットしたキャパシティを超えた場合、自動的にStandardティアにフォールバック

Priority Tierへのコミットには、以下を決定する必要があります。

1分あたりの入力トークン数
1分あたりの出力トークン数
コミットメント期間（1、3、6、または12か月）
特定のモデルバージョン

サポートされているモデル

利用可能なモデルの詳細については、モデルの概要を確認してください。

Priority Tierへのアクセス方法

Priority Tierの使用を開始するには：

営業担当にお問い合わせいただき、プロビジョニングを完了します。
（オプション）APIリクエストを更新して、service_tierパラメータをautoに設定します。
レスポンスヘッダーとClaude Consoleを通じて使用状況を監視します。

Was this page helpful?

Standardティア

Priority Tier

リクエストへのティア割り当ての仕組み

サービスティアの使用

Priority Tierを始める

サポートされているモデル

Priority Tierへのアクセス方法

Standardティア

Priority Tier

リクエストへのティア割り当ての仕組み

サービスティアの使用

Priority Tierを始める

サポートされているモデル

Priority Tierへのアクセス方法

Standardティア

Priority Tier

リクエストへのティア割り当ての仕組み

サービスティアの使用

Priority Tierを始める

サポートされているモデル

Priority Tierへのアクセス方法

Standardティア

Priority Tier

リクエストへのティア割り当ての仕組み

サービスティアの使用

Priority Tierを始める

サポートされているモデル

Priority Tierへのアクセス方法