Loading...
  • 建構
  • 管理
  • 模型與定價
  • 客戶端 SDK
  • API 參考
Search...
⌘K
Log in
降低延遲
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
建構/測試與評估

降低延遲

了解如何測量和降低 Claude API 的延遲

Was this page helpful?

  • 1. 選擇合適的模型
  • 2. 優化提示詞和輸出長度
  • 3. 利用串流

延遲是指模型處理提示詞並生成輸出所需的時間。延遲可能受到各種因素的影響,例如模型的大小、提示詞的複雜性以及支持模型和交互點的基礎設施。

最好先設計一個在沒有模型或提示詞限制的情況下運作良好的提示詞,然後再嘗試延遲降低策略。過早嘗試降低延遲可能會阻止您發現最佳性能的樣子。


如何測量延遲

在討論延遲時,您可能會遇到幾個術語和測量方法:

  • 基線延遲:這是模型處理提示詞並生成回應所需的時間,不考慮每秒的輸入和輸出令牌。它提供了模型速度的一般概念。
  • 首個令牌時間 (TTFT):此指標測量模型從發送提示詞時開始生成回應的第一個令牌所需的時間。當您使用串流(稍後會詳細介紹)並想為用戶提供響應式體驗時,這特別相關。

如需更深入地了解這些術語,請查看我們的詞彙表。


如何降低延遲

1. 選擇合適的模型

降低延遲最直接的方法之一是為您的使用案例選擇適當的模型。Anthropic 提供了一系列模型,具有不同的功能和性能特徵。考慮您的具體需求,並選擇最適合您在速度和輸出品質方面需求的模型。

對於對速度要求高的應用程式,Claude Haiku 4.5 提供最快的回應時間,同時保持高度的智能:

Python
import anthropic

client = anthropic.Anthropic()

# 對於時間敏感的應用程式,使用 Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "用 2 句話總結此客戶反饋:[feedback text]",
        }
    ],
)

有關模型指標的更多詳細信息,請參閱我們的模型概述頁面。

2. 優化提示詞和輸出長度

最小化輸入提示詞和預期輸出中的令牌數量,同時仍保持高性能。模型需要處理和生成的令牌越少,回應就越快。

以下是一些幫助您優化提示詞和輸出的提示:

  • 清晰但簡潔:在提示詞中清晰而簡潔地傳達您的意圖。避免不必要的細節或冗餘信息,同時記住 Claude 缺乏您使用案例的上下文,如果指示不清楚,可能無法做出預期的邏輯跳躍。
  • 要求更短的回應:直接要求 Claude 簡潔。Claude 3 系列模型相比之前的版本提高了可操控性。如果 Claude 輸出了不需要的長度,要求 Claude 控制其冗長性。
    由於 LLM 計算令牌而不是單詞的方式,要求確切的字數或字數限制不如要求段落或句子計數限制有效。
  • 設置適當的輸出限制:使用 max_tokens 參數設置生成回應的最大長度的硬限制。這可以防止 Claude 生成過長的輸出。

    注意:當回應達到 max_tokens 令牌時,回應將被截斷,可能在句子中間或單詞中間,因此這是一種粗糙的技術,可能需要後處理,通常最適合用於答案出現在開始位置的多選或簡短答案回應。

  • 嘗試溫度參數:temperature 參數控制輸出的隨機性。較低的值(例如 0.2)有時可能導致更集中和更短的回應,而較高的值(例如 0.8)可能導致更多樣化但可能更長的輸出。

在提示詞清晰度、輸出品質和令牌計數之間找到正確的平衡可能需要一些實驗。

3. 利用串流

串流是一項功能,允許模型在完整輸出完成之前開始發送回應。這可以顯著改善應用程式的感知響應性,因為用戶可以實時看到模型的輸出。

啟用串流後,您可以在模型輸出到達時進行處理,並行更新用戶界面或執行其他任務。這可以大大增強用戶體驗,使您的應用程式感覺更具互動性和響應性。

訪問串流消息以了解如何為您的使用案例實現串流。