Claude Platform Docs
  • Messages
  • Managed Agents
  • 管理

Search...
⌘K
使用案例
概覽工單路由客戶支援代理內容審核法律摘要
提示工程
概覽提示最佳實務Claude Fable 5 提示技巧Claude Opus 4.8 提示技巧Console 提示工具
測試與評估
定義成功並建構評估在 Console 中使用評估工具降低延遲
強化防護措施
減少幻覺提高輸出一致性緩解越獄減少提示洩漏
參考
詞彙表

Log in
降低延遲
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
最佳實務/測試與評估

降低延遲

「Latency」(延遲)是指模型處理提示並生成輸出所需的時間。延遲可能受到多種因素影響,例如模型的大小、提示的複雜度,以及支援模型和互動端點的底層基礎設施。



最好先設計出一個在沒有模型或提示限制下也能良好運作的提示,然後再嘗試降低延遲的策略。過早嘗試降低延遲可能會讓您無法發現最佳效能的樣貌。


如何測量延遲

在討論延遲時,您可能會遇到幾個術語和測量指標:

  • 基準延遲(Baseline latency):這是模型處理提示並生成回應所需的時間,不考慮每秒輸入和輸出的 token 數量。它提供了模型速度的一般概念。
  • 首個 token 時間(Time to first token,TTFT):此指標測量從發送提示開始,模型生成回應的第一個 token 所需的時間。當您使用串流(稍後會詳細說明)並希望為使用者提供即時回應體驗時,這個指標特別重要。

如需更深入了解這些術語,請查看我們的詞彙表。


如何降低延遲

1. 選擇合適的模型

降低延遲最直接的方法之一是為您的使用案例選擇適當的模型。Anthropic 提供一系列模型,具有不同的功能和效能特性。請考量您的具體需求,並選擇在速度和輸出品質方面最符合您需求的模型。

對於速度至關重要的應用程式,Claude Haiku 4.5 在保持高智慧水準的同時提供最快的回應時間:

Python
import anthropic

client = anthropic.Anthropic()

# 對於時間敏感的應用程式,請使用 Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

如需更多關於模型指標的詳細資訊,請參閱我們的模型概覽頁面。

2. 最佳化提示和輸出長度

在保持高效能的同時,盡量減少輸入提示和預期輸出中的 token 數量。模型需要處理和生成的 token 越少,回應速度就越快。

以下是一些幫助您最佳化提示和輸出的技巧:

  • 清晰但簡潔:力求在提示中清晰簡潔地傳達您的意圖。避免不必要的細節或冗餘資訊,同時請記住 Claude 缺乏關於您使用案例的背景資訊,如果指示不清楚,可能無法做出預期的邏輯推斷。
  • 要求較短的回應:直接要求 Claude 保持簡潔。Claude 3 系列模型相較於前幾代具有更好的可控性。如果 Claude 輸出的內容過長,請要求 Claude 減少冗長的表達。
    
    由於 LLM 計算的是 token 而非字詞,要求精確的字數或字數限制並不如要求段落或句子數量限制來得有效。
  • 設定適當的輸出限制:使用 max_tokens 參數為生成回應的最大長度設定硬性限制。這可以防止 Claude 生成過長的輸出。

    注意:當回應達到 max_tokens 個 token 時,回應將被截斷,可能會在句子或單字中間被切斷,因此這是一種較為粗略的技術,可能需要後續處理,通常最適合用於答案出現在開頭的選擇題或簡答題回應。

  • 嘗試調整 temperature:temperature 參數控制輸出的隨機性。較低的值(例如 0.2)有時會產生更聚焦且較短的回應,而較高的值(例如 0.8)可能會產生更多樣化但可能更長的輸出。

在提示清晰度、輸出品質和 token 數量之間找到適當的平衡可能需要一些實驗。

3. 善用串流

「Streaming」(串流)是一項功能,允許模型在完整輸出完成之前就開始傳回其回應。這可以顯著改善應用程式的感知回應速度,因為使用者可以即時看到模型的輸出。

啟用串流後,您可以在模型輸出到達時即時處理,同時更新使用者介面或並行執行其他任務。這可以大幅提升使用者體驗,讓您的應用程式感覺更具互動性和回應性。

請造訪串流 Messages 以了解如何為您的使用案例實作串流。

Was this page helpful?

  • 如何測量延遲
  • 如何降低延遲
  • 1. 選擇合適的模型
  • 2. 最佳化提示和輸出長度
  • 3. 善用串流