Anthropic 提供三种服务层级:
标准层级是所有 API 请求的默认服务层级。API 会将这些请求与所有其他请求一同按优先级处理,并尽力提供可用性。
API 会将此层级的请求优先于所有其他请求进行处理。这种优先级处理有助于最大限度地减少"服务器过载"错误,即使在高峰时段也是如此。
如需了解更多信息,请参阅开始使用优先层级
在处理请求时,Anthropic 会在以下情况下将请求分配到优先层级:
Anthropic 按以下方式计算优先层级容量的使用量:
输入令牌
inference_geo: "us")的请求,输入令牌按每个令牌计 1.1 个令牌输出令牌
inference_geo: "us")的请求,输出令牌按每个令牌计 1.1 个令牌否则,请求将按标准层级处理。
这些消耗率反映了每种令牌类型的相对定价。例如,在 Opus 4.6、Sonnet 4.6 及更高版本模型上,仅限美国推理的定价为 1.1 倍,因此使用 inference_geo: "us" 消耗的每个令牌会从您的优先层级容量中扣除 1.1 个令牌。
被分配到优先层级的请求会同时消耗优先层级容量和常规速率限制。 如果处理该请求会超出速率限制,则该请求将被拒绝。
您可以通过设置 service_tier 参数来控制请求可以使用哪些服务层级:
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello, Claude!"}],
service_tier="auto", # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)service_tier 参数接受以下值:
"auto"(默认)- 如果优先层级容量可用则使用,否则回退到您的其他容量"standard_only" - 仅使用标准层级容量,当您不想使用优先层级容量时非常有用响应中的 usage 对象也包含分配给该请求的服务层级:
{
"usage": {
"input_tokens": 410,
"cache_creation_input_tokens": 0,
"cache_read_input_tokens": 0,
"output_tokens": 585,
"service_tier": "priority"
}
}这使您能够确定该请求被分配到了哪个服务层级。
当对已承诺优先层级的模型请求 service_tier="auto" 时,以下响应标头可提供相关信息:
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z您可以通过这些标头的存在来检测您的请求是否符合优先层级的条件,即使该请求已超出限制。
如果您对以下方面感兴趣,可以考虑承诺购买优先层级容量:
承诺购买优先层级需要确定以下内容:
您购买的输入与输出令牌的比例非常重要。根据您的实际流量模式来确定优先层级容量的规模,有助于最大限度地利用您已购买的令牌。
优先层级支持所有可用的 Claude 模型(包括 Claude Fable 5 和 Claude Opus 4.8),但 Claude Mythos Preview 和 Claude Mythos 5 除外。
有关可用模型的更多详细信息,请查看模型概览。
要开始使用优先层级:
service_tier 参数设置为 auto。Was this page helpful?