快速模式以高级定价为 Claude Opus 4.8、Claude Opus 4.7 和 Claude Opus 4.6 提供显著更快的输出令牌生成速度。在您的 API 请求中设置 speed: "fast" 即可启用。快速模式可使同一模型的每秒输出令牌数提升至最高 2.5 倍。
快速模式目前处于研究预览阶段。请联系您的客户经理申请访问权限。如果您没有客户经理,请加入等候名单以申请快速模式。
此功能符合零数据保留(ZDR)的条件。当您的组织签订了 ZDR 协议时,通过此功能发送的数据在 API 响应返回后不会被存储。
快速模式支持以下模型:
Claude Opus 4.8 的快速模式仅作为研究预览版在 Claude API(包括 Claude Managed Agents)上推出。它不适用于第三方平台,包括 Vertex AI、Amazon Bedrock 和 Microsoft Foundry。
自 Claude Opus 4.8 发布起,Claude Opus 4.6 的快速模式已被弃用,并将在大约 30 天后移除。移除后,对 claude-opus-4-6 使用 speed: "fast" 的请求将回退到标准速度并按标准定价计费,而不会返回错误。请迁移到 Claude Opus 4.8 或 Claude Opus 4.7 的快速模式以继续获得加速效果。
快速模式使用更快的推理配置运行相同的模型。智能或能力不会发生任何变化。
快速模式的定价是在标准费率基础上按模型应用倍数,适用于整个上下文窗口,包括超过 20 万输入令牌的请求。下表显示了每个受支持模型的快速模式定价:
| 模型 | 输入 | 输出 |
|---|---|---|
| Claude Opus 4.6 / Claude Opus 4.7 | $30 / 百万令牌 | $150 / 百万令牌 |
| Claude Opus 4.8 | $10 / 百万令牌 | $50 / 百万令牌 |
快速模式定价可与其他定价调整项叠加:
有关完整的定价详情,请参阅定价页面。
快速模式拥有独立于标准 Opus 速率限制的专用速率限制。当您的快速模式速率限制被超出时,API 会返回 429 错误,并附带 retry-after 标头,指示何时有可用容量。
响应中包含指示您的快速模式速率限制状态的标头:
| 标头 | 描述 |
|---|---|
anthropic-fast-input-tokens-limit | 每分钟快速模式输入令牌的最大数量 |
anthropic-fast-input-tokens-remaining | 剩余的快速模式输入令牌数 |
anthropic-fast-input-tokens-reset | 快速模式输入令牌限制重置的时间 |
anthropic-fast-output-tokens-limit | 每分钟快速模式输出令牌的最大数量 |
anthropic-fast-output-tokens-remaining | 剩余的快速模式输出令牌数 |
anthropic-fast-output-tokens-reset | 快速模式输出令牌限制重置的时间 |
有关各层级的具体速率限制,请参阅速率限制页面。
响应的 usage 对象包含一个 speed 字段,指示使用了哪种速度,值为 "fast" 或 "standard":
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 8,
"output_tokens": 12,
"speed": "fast"
}
}要跟踪整个组织的快速模式使用情况和成本,请参阅使用情况和成本 API。
当快速模式速率限制被超出时,API 会返回带有 retry-after 标头的 429 错误。Anthropic SDK 默认会自动重试这些请求最多 2 次(可通过 max_retries 配置),每次重试前会等待服务器指定的延迟时间。由于快速模式使用连续令牌补充机制,retry-after 延迟通常很短,一旦有可用容量,请求即可成功。
如果您希望回退到标准速度而不是等待快速模式容量,可以捕获速率限制错误并在不设置 speed: "fast" 的情况下重试。在初始快速请求中将 max_retries 设置为 0,以跳过自动重试并在遇到速率限制错误时立即失败。
从快速模式回退到标准速度将导致提示缓存未命中。不同速度的请求不共享缓存前缀。
由于将 max_retries 设置为 0 也会禁用对其他瞬时错误(过载、内部服务器错误)的重试,下面的示例会针对这些情况使用默认重试设置重新发出原始请求。
speed: "fast" 会返回错误。Was this page helpful?
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
try:
return client.with_options(max_retries=max_retries).beta.messages.create(
**params
)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(max_retries=max_retries, **params)
raise
except (
anthropic.APIStatusError,
anthropic.APIConnectionError,
) as error:
if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
raise
if max_attempts > 1:
return create_message_with_fast_fallback(
max_retries=max_retries, max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)