Anthropic 提供三種服務層級:
標準層級是所有 API 請求的預設服務層級。API 會以盡力而為的可用性,將這些請求與所有其他請求一併排定優先順序。
API 會將此層級的請求優先於所有其他請求處理。這種優先處理有助於將「伺服器過載」錯誤降至最低,即使在尖峰時段也是如此。
如需更多資訊,請參閱開始使用優先層級
在處理請求時,Anthropic 會在以下情況下決定將請求指派至優先層級:
Anthropic 依照以下方式計算優先層級容量的使用量:
輸入 Token
inference_geo: "us")的請求,輸入 token 以每個 token 計為 1.1 個 token輸出 Token
inference_geo: "us")的請求,輸出 token 以每個 token 計為 1.1 個 token否則,請求將以標準層級進行處理。
這些消耗率反映了每種 token 類型的相對定價。例如,在 Opus 4.6、Sonnet 4.6 及更新模型上,僅限美國推論的定價為 1.1 倍,因此每個使用 inference_geo: "us" 消耗的 token 會從您的優先層級容量中扣除 1.1 個 token。
被指派為優先層級的請求會同時從優先層級容量和一般速率限制中扣除。 如果處理該請求會超過速率限制,則該請求將被拒絕。
您可以透過設定 service_tier 參數來控制請求可使用的服務層級:
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello, Claude!"}],
service_tier="auto", # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)service_tier 參數接受以下值:
"auto"(預設)- 如果有可用的優先層級容量則使用之,若無則回退至您的其他容量"standard_only" - 僅使用標準層級容量,當您不想使用優先層級容量時很有用回應的 usage 物件也包含指派給該請求的服務層級:
{
"usage": {
"input_tokens": 410,
"cache_creation_input_tokens": 0,
"cache_read_input_tokens": 0,
"output_tokens": 585,
"service_tier": "priority"
}
}這讓您能夠判斷該請求被指派了哪個服務層級。
當對具有優先層級承諾的模型請求 service_tier="auto" 時,以下回應標頭可提供相關資訊:
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z您可以利用這些標頭的存在與否,來偵測您的請求是否符合優先層級的資格,即使該請求已超過限制。
如果您對以下內容感興趣,您可能會想要承諾購買優先層級容量:
承諾購買優先層級需要決定:
您購買的輸入與輸出 token 比例很重要。將您的優先層級容量調整至符合實際流量模式,有助於您最大化已購買 token 的使用率。
優先層級支援所有可用的 Claude 模型(包括 Claude Fable 5 和 Claude Opus 4.8),但 Claude Mythos Preview 和 Claude Mythos 5 除外。
請查看模型概覽以取得更多關於可用模型的詳細資訊。
若要開始使用優先層級:
service_tier 參數設定為 auto。Was this page helpful?