• 消息
  • 托管智能体
  • 管理

Search...
⌘K
第一步
Claude 简介快速入门
使用 Claude 构建
功能概览使用 Messages API停止原因与回退拒绝与回退回退额度
模型能力
扩展思考自适应思考努力程度任务预算(测试版)快速模式(研究预览)结构化输出引用流式传输消息批量处理搜索结果流式传输拒绝多语言支持嵌入
工具
概览工具使用的工作原理教程:构建使用工具的智能体定义工具处理工具调用并行工具使用工具运行器(SDK)严格工具使用工具使用与提示缓存服务器工具故障排除网络搜索工具网页抓取工具代码执行工具顾问工具记忆工具Bash 工具计算机使用工具文本编辑器工具
工具基础设施
工具参考管理工具上下文工具组合工具搜索编程式工具调用细粒度工具流式传输
上下文管理
上下文窗口压缩上下文编辑提示缓存对话中系统消息构建编排模式缓存诊断(测试版)令牌计数
处理文件
Files APIPDF 支持图像与视觉
技能
概览快速入门最佳实践企业技能API 中的技能
MCP
远程 MCP 服务器MCP 连接器
云平台上的 Claude
Amazon BedrockAmazon Bedrock(旧版)AWS 上的 Claude PlatformMicrosoft FoundryVertex AI

Log in
快速模式(研究预览)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
消息/模型能力

快速模式(研究预览版)

为受支持的 Claude Opus 模型提供更高的输出速度,为对延迟敏感的工作流和智能体工作流提供显著更快的令牌生成。

快速模式以高级定价为 Claude Opus 4.8、Claude Opus 4.7 和 Claude Opus 4.6 提供显著更快的输出令牌生成速度。在您的 API 请求中设置 speed: "fast" 即可启用。快速模式可使同一模型的每秒输出令牌数提升至最高 2.5 倍。



快速模式目前处于研究预览阶段。请联系您的客户经理申请访问权限。如果您没有客户经理,请加入等候名单以申请快速模式。



此功能符合零数据保留(ZDR)的条件。当您的组织签订了 ZDR 协议时,通过此功能发送的数据在 API 响应返回后不会被存储。

支持的模型

快速模式支持以下模型:

  • Claude Opus 4.8(claude-opus-4-8)
  • Claude Opus 4.7(claude-opus-4-7)
  • Claude Opus 4.6(claude-opus-4-6)


Claude Opus 4.8 的快速模式仅作为研究预览版在 Claude API(包括 Claude Managed Agents)上推出。它不适用于第三方平台,包括 Vertex AI、Amazon Bedrock 和 Microsoft Foundry。



自 Claude Opus 4.8 发布起,Claude Opus 4.6 的快速模式已被弃用,并将在大约 30 天后移除。移除后,对 claude-opus-4-6 使用 speed: "fast" 的请求将回退到标准速度并按标准定价计费,而不会返回错误。请迁移到 Claude Opus 4.8 或 Claude Opus 4.7 的快速模式以继续获得加速效果。

快速模式的工作原理

快速模式使用更快的推理配置运行相同的模型。智能或能力不会发生任何变化。

  • 与标准速度相比,每秒输出令牌数最高可提升 2.5 倍
  • 速度优势主要体现在每秒输出令牌数("output tokens per second",即 OTPS),而非首个令牌生成时间("time to first token",即 TTFT)
  • 相同的模型权重和行为(并非不同的模型)

基本用法

定价

快速模式的定价是在标准费率基础上按模型应用倍数,适用于整个上下文窗口,包括超过 20 万输入令牌的请求。下表显示了每个受支持模型的快速模式定价:

模型输入输出
Claude Opus 4.6 / Claude Opus 4.7$30 / 百万令牌$150 / 百万令牌
Claude Opus 4.8$10 / 百万令牌$50 / 百万令牌

快速模式定价可与其他定价调整项叠加:

  • 提示缓存倍数在快速模式定价基础上叠加应用
  • 数据驻留倍数在快速模式定价基础上叠加应用

有关完整的定价详情,请参阅定价页面。

速率限制

快速模式拥有独立于标准 Opus 速率限制的专用速率限制。当您的快速模式速率限制被超出时,API 会返回 429 错误,并附带 retry-after 标头,指示何时有可用容量。

响应中包含指示您的快速模式速率限制状态的标头:

标头描述
anthropic-fast-input-tokens-limit每分钟快速模式输入令牌的最大数量
anthropic-fast-input-tokens-remaining剩余的快速模式输入令牌数
anthropic-fast-input-tokens-reset快速模式输入令牌限制重置的时间
anthropic-fast-output-tokens-limit每分钟快速模式输出令牌的最大数量
anthropic-fast-output-tokens-remaining剩余的快速模式输出令牌数
anthropic-fast-output-tokens-reset快速模式输出令牌限制重置的时间

有关各层级的具体速率限制,请参阅速率限制页面。

检查使用了哪种速度

响应的 usage 对象包含一个 speed 字段,指示使用了哪种速度,值为 "fast" 或 "standard":

Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

要跟踪整个组织的快速模式使用情况和成本,请参阅使用情况和成本 API。

重试和回退

自动重试

当快速模式速率限制被超出时,API 会返回带有 retry-after 标头的 429 错误。Anthropic SDK 默认会自动重试这些请求最多 2 次(可通过 max_retries 配置),每次重试前会等待服务器指定的延迟时间。由于快速模式使用连续令牌补充机制,retry-after 延迟通常很短,一旦有可用容量,请求即可成功。

回退到标准速度

如果您希望回退到标准速度而不是等待快速模式容量,可以捕获速率限制错误并在不设置 speed: "fast" 的情况下重试。在初始快速请求中将 max_retries 设置为 0,以跳过自动重试并在遇到速率限制错误时立即失败。



从快速模式回退到标准速度将导致提示缓存未命中。不同速度的请求不共享缓存前缀。

由于将 max_retries 设置为 0 也会禁用对其他瞬时错误(过载、内部服务器错误)的重试,下面的示例会针对这些情况使用默认重试设置重新发出原始请求。

注意事项

  • 提示缓存: 在快速和标准速度之间切换会使提示缓存失效。不同速度的请求不共享缓存前缀。
  • 支持的模型: 快速模式支持 Claude Opus 4.8、Claude Opus 4.7 和 Claude Opus 4.6。对不支持的模型发送 speed: "fast" 会返回错误。
  • TTFT: 快速模式的优势主要体现在每秒输出令牌数(OTPS),而非首个令牌生成时间(TTFT)。
  • 批处理 API: 快速模式不适用于批处理 API。
  • 优先级层级: 快速模式不适用于优先级层级。
  • AWS 上的 Claude Platform: 快速模式目前不适用于 AWS 上的 Claude Platform。

后续步骤

定价

查看详细的快速模式定价信息。

速率限制

查看快速模式的速率限制层级。

Effort 参数

使用 effort 参数控制令牌使用量。

Was this page helpful?

  • 支持的模型
  • 快速模式的工作原理
  • 基本用法
  • 定价
  • 速率限制
  • 检查使用了哪种速度
  • 重试和回退
  • 自动重试
  • 回退到标准速度
  • 注意事项
  • 后续步骤
client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)
response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)