• 訊息
  • 託管代理
  • 管理

Search...
⌘K
使用案例
概覽工單路由客戶支援代理內容審核法律摘要
提示工程
概覽提示最佳實務Claude Fable 5 提示技巧Claude Opus 4.8 提示技巧Console 提示工具
測試與評估
定義成功並建構評估在 Console 中使用評估工具降低延遲
強化防護措施
減少幻覺提高輸出一致性緩解越獄減少提示洩漏
參考
詞彙表

Log in
定義成功並建構評估
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
最佳實務/測試與評估

定義成功標準並建立評估

建立成功的 LLM 應用程式,首先要清楚定義您的成功標準,然後設計評估來衡量相對於這些標準的表現。這個循環是提示工程的核心。

提示工程流程圖:測試案例、初步提示、反覆測試與改進、最終驗證、發布

定義您的成功標準

良好的成功標準應具備以下特性:

  • 具體(Specific): 清楚定義您想要達成的目標。與其說「良好的表現」,不如具體說明「準確的情感分類」。

  • 可衡量(Measurable): 使用量化指標或定義明確的質化量表。數字能提供清晰度和可擴展性,但如果能與量化指標一併持續應用,質化衡量也很有價值。

    • 即使是倫理和安全等「模糊」的主題也可以量化:
      安全標準
      不佳安全的輸出
      良好在 10,000 次試驗中,被我們的內容過濾器標記為有毒的輸出少於 0.1%。

  • 可達成(Achievable): 根據產業基準、先前實驗、AI 研究或專家知識來設定目標。您的成功指標不應超出當前前沿模型能力的現實範圍。

  • 相關(Relevant): 使您的標準與應用程式的目的和使用者需求保持一致。高度的引用準確性對醫療應用程式可能至關重要,但對休閒聊天機器人則不那麼重要。

常見的成功標準

以下是一些可能對您的使用案例很重要的標準。此清單並非詳盡無遺。

大多數使用案例都需要沿著多個成功標準進行多維度評估。


建立評估

評估設計原則

  1. 針對任務設計: 設計能反映您真實世界任務分布的評估。別忘了將邊緣案例納入考量!

  2. 盡可能自動化: 將問題結構化以便進行自動評分(例如:選擇題、字串比對、程式碼評分、LLM 評分)。
  3. 數量優先於品質: 大量問題搭配訊號稍低的自動評分,優於少量問題搭配高品質的人工手動評分。

評估範例


手動撰寫數百個測試案例可能很困難!讓 Claude 協助您從一組基準範例測試案例生成更多案例。

如果您不知道哪些評估方法可能有助於評估您的成功標準,您也可以與 Claude 一起腦力激盪!

為您的評估評分

在決定使用哪種方法為評估評分時,請選擇最快速、最可靠、最具擴展性的方法:

  1. 基於程式碼的評分: 最快速且最可靠,極具擴展性,但對於需要較少規則剛性的複雜判斷,缺乏細緻度。

    • 精確比對:output == golden_answer
    • 字串比對:key_phrase in output
  2. 人工評分: 最靈活且品質最高,但速度慢且成本高。盡可能避免。

  3. 基於 LLM 的評分: 快速且靈活,具擴展性且適合複雜判斷。請先測試以確保可靠性,然後再擴展。

基於 LLM 評分的技巧

  • 制定詳細、清晰的評分標準:「答案應始終在第一句中提及『Acme Inc.』。如果沒有,該答案將自動評為『不正確』。」
    
    特定的使用案例,甚至該使用案例的特定成功標準,可能需要多個評分標準才能進行全面評估。
  • 實證或具體: 例如,指示 LLM 僅輸出「正確」或「不正確」,或以 1-5 的量表進行判斷。純質化的評估難以快速且大規模地進行評估。
  • 鼓勵推理: 要求 LLM 在決定評估分數之前先進行思考,然後捨棄推理過程。這能提升評估表現,特別是對於需要複雜判斷的任務。

後續步驟


腦力激盪標準


在 claude.ai 上與 Claude 一起為您的使用案例腦力激盪成功標準。

提示:將此頁面放入對話中作為 Claude 的指引!


評估 Cookbook


更多人工評分、程式碼評分和 LLM 評分評估的程式碼範例。

Was this page helpful?

  • 定義您的成功標準
  • 常見的成功標準
  • 建立評估
  • 評估設計原則
  • 評估範例
  • 為您的評估評分
  • 基於 LLM 評分的技巧
  • 後續步驟