Loading...
  • 构建
  • 管理
  • 模型与定价
  • 客户端 SDK
  • API 参考
Search...
⌘K
Log in
降低延迟
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
构建/测试与评估

降低延迟

了解如何测量和降低 Claude API 的延迟,包括选择合适的模型、优化提示词长度和利用流式传输。

延迟是指模型处理提示词并生成输出所需的时间。延迟可能受多种因素影响,例如模型的大小、提示词的复杂性以及支持模型和交互点的底层基础设施。

最好先设计一个在没有模型或提示词约束的情况下运行良好的提示词,然后再尝试延迟降低策略。过早尝试降低延迟可能会阻止你发现最佳性能的样子。


如何测量延迟

在讨论延迟时,你可能会遇到几个术语和测量方法:

  • 基线延迟:这是模型处理提示词并生成响应所需的时间,不考虑每秒的输入和输出令牌。它提供了模型速度的一般概念。
  • 首个令牌时间 (TTFT):此指标测量从发送提示词到模型生成响应的第一个令牌所需的时间。当你使用流式传输(稍后会详细介绍)并想为用户提供响应式体验时,这特别相关。

如需更深入地了解这些术语,请查看我们的词汇表。


如何降低延迟

1. 选择合适的模型

降低延迟最直接的方法之一是为你的用例选择合适的模型。Anthropic 提供了一系列模型,具有不同的功能和性能特征。考虑你的具体需求,并选择在速度和输出质量方面最适合你需求的模型。

对于对速度要求严格的应用,Claude Haiku 4.5 提供最快的响应时间,同时保持高智能水平:

Python
import anthropic

client = anthropic.Anthropic()

# 对于时间敏感的应用,使用 Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "用 2 句话总结这个客户反馈:[feedback text]",
        }
    ],
)

有关模型指标的更多详情,请参阅我们的模型概览页面。

2. 优化提示词和输出长度

最小化输入提示词和预期输出中的令牌数量,同时仍保持高性能。模型需要处理和生成的令牌越少,响应速度就越快。

以下是一些帮助你优化提示词和输出的提示:

  • 清晰但简洁:在提示词中清晰而简洁地传达你的意图。避免不必要的细节或冗余信息,同时记住 Claude 缺乏你用例的上下文,如果指令不清楚,可能无法进行预期的逻辑推断。
  • 要求更短的响应:直接要求 Claude 简洁。Claude 3 系列模型相比之前的版本改进了可控性。如果 Claude 输出的长度不符合要求,要求 Claude 减少啰嗦。
    由于 LLM 计算令牌而不是单词的方式,要求精确的字数或字数限制不如要求段落或句子数量限制有效。
  • 设置适当的输出限制:使用 max_tokens 参数设置生成响应的最大长度的硬限制。这可以防止 Claude 生成过长的输出。

    注意:当响应达到 max_tokens 个令牌时,响应将被截断,可能在句子中间或单词中间,所以这是一种粗暴的技术,可能需要后处理,通常最适合用于多选或简答题,其中答案出现在最开始。

  • 尝试不同的温度:temperature 参数控制输出的随机性。较低的值(例如 0.2)有时会导致更集中和更短的响应,而较高的值(例如 0.8)可能会导致更多样化但可能更长的输出。

找到提示词清晰度、输出质量和令牌数量之间的正确平衡可能需要一些实验。

3. 利用流式传输

流式传输是一项功能,允许模型在完整输出完成之前开始发送回其响应。这可以显著改善应用的感知响应性,因为用户可以实时看到模型的输出。

启用流式传输后,你可以在模型输出到达时处理它,并行更新用户界面或执行其他任务。这可以大大增强用户体验,使应用感觉更具交互性和响应性。

访问流式传输消息以了解如何为你的用例实现流式传输。

Was this page helpful?

  • 1. 选择合适的模型
  • 2. 优化提示词和输出长度
  • 3. 利用流式传输