API 參考支援與設定

服務層級

不同的服務層級讓您能夠根據應用程式的需求，在可用性、效能和可預測的成本之間取得平衡。

Anthropic 提供三種服務層級：

Priority Tier（優先層級）： 最適合部署於生產環境的工作流程，其中時間、可用性和可預測的定價至關重要
Standard（標準層級）： 用於試行和擴展日常使用案例的預設層級
Batch（批次層級）： 最適合可以等待或受益於在您正常容量之外執行的非同步工作流程

標準層級

標準層級是所有 API 請求的預設服務層級。API 會以盡力而為的可用性，將這些請求與所有其他請求一併排定優先順序。

優先層級

API 會將此層級的請求優先於所有其他請求處理。這種優先處理有助於將「伺服器過載」錯誤降至最低，即使在尖峰時段也是如此。

如需更多資訊，請參閱開始使用優先層級

請求如何被指派層級

在處理請求時，Anthropic 會在以下情況下決定將請求指派至優先層級：

您的組織擁有足夠的優先層級輸入 token 每分鐘容量
您的組織擁有足夠的優先層級輸出 token 每分鐘容量

Anthropic 依照以下方式計算優先層級容量的使用量：

輸入 Token

快取讀取以每個從快取讀取的 token 計為 0.1 個 token
快取寫入（5 分鐘 TTL）以每個寫入快取的 token 計為 1.25 個 token
快取寫入（1 小時 TTL）以每個寫入快取的 token 計為 2.00 個 token
對於在 Claude Opus 4.6、Claude Sonnet 4.6 及更新模型上使用僅限美國推論（inference_geo: "us"）的請求，輸入 token 以每個 token 計為 1.1 個 token
所有其他輸入 token 以每個 token 計為 1 個 token

輸出 Token

對於在 Claude Opus 4.6、Claude Sonnet 4.6 及更新模型上使用僅限美國推論（inference_geo: "us"）的請求，輸出 token 以每個 token 計為 1.1 個 token
所有其他輸出 token 以每個 token 計為 1 個 token

否則，請求將以標準層級進行處理。

這些消耗率反映了每種 token 類型的相對定價。例如，在 Opus 4.6、Sonnet 4.6 及更新模型上，僅限美國推論的定價為 1.1 倍，因此每個使用 inference_geo: "us" 消耗的 token 會從您的優先層級容量中扣除 1.1 個 token。

被指派為優先層級的請求會同時從優先層級容量和一般速率限制中扣除。如果處理該請求會超過速率限制，則該請求將被拒絕。

使用服務層級

您可以透過設定 service_tier 參數來控制請求可使用的服務層級：

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

service_tier 參數接受以下值：

"auto"（預設）- 如果有可用的優先層級容量則使用之，若無則回退至您的其他容量
"standard_only" - 僅使用標準層級容量，當您不想使用優先層級容量時很有用

回應的 usage 物件也包含指派給該請求的服務層級：

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

這讓您能夠判斷該請求被指派了哪個服務層級。

當對具有優先層級承諾的模型請求 service_tier="auto" 時，以下回應標頭可提供相關資訊：

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

您可以利用這些標頭的存在與否，來偵測您的請求是否符合優先層級的資格，即使該請求已超過限制。

開始使用優先層級

如果您對以下內容感興趣，您可能會想要承諾購買優先層級容量：

更高的可用性： 以優先的運算資源為目標，達到 99.5% 的正常運作時間
成本控制： 可預測的支出，以及較長期承諾的折扣
彈性溢流： 當您超過承諾容量時，自動回退至標準層級

承諾購買優先層級需要決定：

每分鐘的輸入 token 數量
每分鐘的輸出 token 數量
承諾期限（1、3、6 或 12 個月）
特定的模型版本

您購買的輸入與輸出 token 比例很重要。將您的優先層級容量調整至符合實際流量模式，有助於您最大化已購買 token 的使用率。

支援的模型

優先層級支援所有可用的 Claude 模型（包括 Claude Fable 5 和 Claude Opus 4.8），但 Claude Mythos Preview 和 Claude Mythos 5 除外。

請查看模型概覽以取得更多關於可用模型的詳細資訊。

如何存取優先層級

若要開始使用優先層級：

聯絡銷售團隊以完成配置。
（選用）更新您的 API 請求，將 service_tier 參數設定為 auto。
透過回應標頭和 Claude Console 監控您的使用情況。

Was this page helpful?

API 參考支援與設定

服務層級

不同的服務層級讓您能夠根據應用程式的需求，在可用性、效能和可預測的成本之間取得平衡。

Anthropic 提供三種服務層級：

Priority Tier（優先層級）： 最適合部署於生產環境的工作流程，其中時間、可用性和可預測的定價至關重要
Standard（標準層級）： 用於試行和擴展日常使用案例的預設層級
Batch（批次層級）： 最適合可以等待或受益於在您正常容量之外執行的非同步工作流程

標準層級

標準層級是所有 API 請求的預設服務層級。API 會以盡力而為的可用性，將這些請求與所有其他請求一併排定優先順序。

優先層級

API 會將此層級的請求優先於所有其他請求處理。這種優先處理有助於將「伺服器過載」錯誤降至最低，即使在尖峰時段也是如此。

如需更多資訊，請參閱開始使用優先層級

請求如何被指派層級

在處理請求時，Anthropic 會在以下情況下決定將請求指派至優先層級：

您的組織擁有足夠的優先層級輸入 token 每分鐘容量
您的組織擁有足夠的優先層級輸出 token 每分鐘容量

Anthropic 依照以下方式計算優先層級容量的使用量：

輸入 Token

快取讀取以每個從快取讀取的 token 計為 0.1 個 token
快取寫入（5 分鐘 TTL）以每個寫入快取的 token 計為 1.25 個 token
快取寫入（1 小時 TTL）以每個寫入快取的 token 計為 2.00 個 token
對於在 Claude Opus 4.6、Claude Sonnet 4.6 及更新模型上使用僅限美國推論（inference_geo: "us"）的請求，輸入 token 以每個 token 計為 1.1 個 token
所有其他輸入 token 以每個 token 計為 1 個 token

輸出 Token

對於在 Claude Opus 4.6、Claude Sonnet 4.6 及更新模型上使用僅限美國推論（inference_geo: "us"）的請求，輸出 token 以每個 token 計為 1.1 個 token
所有其他輸出 token 以每個 token 計為 1 個 token

否則，請求將以標準層級進行處理。

被指派為優先層級的請求會同時從優先層級容量和一般速率限制中扣除。如果處理該請求會超過速率限制，則該請求將被拒絕。

使用服務層級

您可以透過設定 service_tier 參數來控制請求可使用的服務層級：

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

service_tier 參數接受以下值：

"auto"（預設）- 如果有可用的優先層級容量則使用之，若無則回退至您的其他容量
"standard_only" - 僅使用標準層級容量，當您不想使用優先層級容量時很有用

回應的 usage 物件也包含指派給該請求的服務層級：

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

這讓您能夠判斷該請求被指派了哪個服務層級。

當對具有優先層級承諾的模型請求 service_tier="auto" 時，以下回應標頭可提供相關資訊：

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

您可以利用這些標頭的存在與否，來偵測您的請求是否符合優先層級的資格，即使該請求已超過限制。

開始使用優先層級

如果您對以下內容感興趣，您可能會想要承諾購買優先層級容量：

更高的可用性： 以優先的運算資源為目標，達到 99.5% 的正常運作時間
成本控制： 可預測的支出，以及較長期承諾的折扣
彈性溢流： 當您超過承諾容量時，自動回退至標準層級

承諾購買優先層級需要決定：

每分鐘的輸入 token 數量
每分鐘的輸出 token 數量
承諾期限（1、3、6 或 12 個月）
特定的模型版本

您購買的輸入與輸出 token 比例很重要。將您的優先層級容量調整至符合實際流量模式，有助於您最大化已購買 token 的使用率。

支援的模型

優先層級支援所有可用的 Claude 模型（包括 Claude Fable 5 和 Claude Opus 4.8），但 Claude Mythos Preview 和 Claude Mythos 5 除外。

請查看模型概覽以取得更多關於可用模型的詳細資訊。

如何存取優先層級

若要開始使用優先層級：

聯絡銷售團隊以完成配置。
（選用）更新您的 API 請求，將 service_tier 參數設定為 auto。
透過回應標頭和 Claude Console 監控您的使用情況。

Was this page helpful?

標準層級

優先層級

請求如何被指派層級

使用服務層級

開始使用優先層級

支援的模型

如何存取優先層級

標準層級

優先層級

請求如何被指派層級

使用服務層級

開始使用優先層級

支援的模型

如何存取優先層級

標準層級

優先層級

請求如何被指派層級

使用服務層級

開始使用優先層級

支援的模型

如何存取優先層級

標準層級

優先層級

請求如何被指派層級

使用服務層級

開始使用優先層級

支援的模型

如何存取優先層級