Loading...
    • 构建
    • 管理
    • 模型和定价
    • 客户端 SDK
    • API 参考
    Search...
    ⌘K
    第一步
    Claude 简介快速开始
    使用 Claude 构建
    功能概览使用 Messages APIClaude API 技能处理停止原因
    模型能力
    扩展思考自适应思考工作量任务预算(测试版)快速模式(测试版:研究预览)结构化输出引用流式消息批量处理搜索结果流式拒绝多语言支持嵌入
    工具
    概览工具使用原理网络搜索工具网络获取工具代码执行工具顾问工具内存工具Bash 工具计算机使用工具文本编辑器工具
    工具基础设施
    工具参考工具搜索程序化工具调用细粒度工具流式传输
    上下文管理
    上下文窗口压缩上下文编辑提示缓存Token 计数
    处理文件
    Files APIPDF 支持图像和视觉
    技能
    概览快速开始最佳实践企业技能API 中的技能
    MCP
    远程 MCP 服务器MCP 连接器
    提示工程
    概览提示最佳实践Console 提示工具
    测试和评估
    定义成功并构建评估在 Console 中使用评估工具降低延迟
    加强防护栏
    减少幻觉提高输出一致性缓解越狱减少提示泄露
    资源
    术语表
    发布说明
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    测试和评估

    降低延迟

    了解如何测量和降低 Claude API 的延迟,包括选择合适的模型、优化提示词长度和利用流式传输。

    延迟是指模型处理提示词并生成输出所需的时间。延迟可能受多种因素影响,例如模型的大小、提示词的复杂性以及支持模型和交互点的底层基础设施。

    最好先设计一个在没有模型或提示词约束的情况下运行良好的提示词,然后再尝试延迟降低策略。过早尝试降低延迟可能会阻止你发现最佳性能的样子。


    如何测量延迟

    在讨论延迟时,你可能会遇到几个术语和测量方法:

    • 基线延迟:这是模型处理提示词并生成响应所需的时间,不考虑每秒的输入和输出令牌。它提供了模型速度的一般概念。
    • 首个令牌时间 (TTFT):此指标测量从发送提示词到模型生成响应的第一个令牌所需的时间。当你使用流式传输(稍后会详细介绍)并想为用户提供响应式体验时,这特别相关。

    如需更深入地了解这些术语,请查看我们的词汇表。


    如何降低延迟

    1. 选择合适的模型

    降低延迟最直接的方法之一是为你的用例选择合适的模型。Anthropic 提供了一系列模型,具有不同的功能和性能特征。考虑你的具体需求,并选择在速度和输出质量方面最适合你需求的模型。

    对于对速度要求严格的应用,Claude Haiku 4.5 提供最快的响应时间,同时保持高智能水平:

    Python
    import anthropic
    
    client = anthropic.Anthropic()
    
    # 对于时间敏感的应用,使用 Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[
            {
                "role": "user",
                "content": "用 2 句话总结这个客户反馈:[feedback text]",
            }
        ],
    )

    有关模型指标的更多详情,请参阅我们的模型概览页面。

    2. 优化提示词和输出长度

    最小化输入提示词和预期输出中的令牌数量,同时仍保持高性能。模型需要处理和生成的令牌越少,响应速度就越快。

    以下是一些帮助你优化提示词和输出的提示:

    • 清晰但简洁:在提示词中清晰而简洁地传达你的意图。避免不必要的细节或冗余信息,同时记住 Claude 缺乏你用例的上下文,如果指令不清楚,可能无法进行预期的逻辑推断。
    • 要求更短的响应:直接要求 Claude 简洁。Claude 3 系列模型相比之前的版本改进了可控性。如果 Claude 输出的长度不符合要求,要求 Claude 减少啰嗦。
      由于 LLM 计算令牌而不是单词的方式,要求精确的字数或字数限制不如要求段落或句子数量限制有效。
    • 设置适当的输出限制:使用 max_tokens 参数设置生成响应的最大长度的硬限制。这可以防止 Claude 生成过长的输出。

      注意:当响应达到 max_tokens 个令牌时,响应将被截断,可能在句子中间或单词中间,所以这是一种粗暴的技术,可能需要后处理,通常最适合用于多选或简答题,其中答案出现在最开始。

    • 尝试不同的温度:temperature 参数控制输出的随机性。较低的值(例如 0.2)有时会导致更集中和更短的响应,而较高的值(例如 0.8)可能会导致更多样化但可能更长的输出。

    找到提示词清晰度、输出质量和令牌数量之间的正确平衡可能需要一些实验。

    3. 利用流式传输

    流式传输是一项功能,允许模型在完整输出完成之前开始发送回其响应。这可以显著改善应用的感知响应性,因为用户可以实时看到模型的输出。

    启用流式传输后,你可以在模型输出到达时处理它,并行更新用户界面或执行其他任务。这可以大大增强用户体验,使应用感觉更具交互性和响应性。

    访问流式传输消息以了解如何为你的用例实现流式传输。

    Was this page helpful?

    • 1. 选择合适的模型
    • 2. 优化提示词和输出长度
    • 3. 利用流式传输