• 訊息
  • 託管代理
  • 管理
Search...
⌘K
使用案例
概覽工單路由客戶支援代理內容審核法律摘要
提示工程
概覽提示最佳實務Claude Fable 5 提示技巧Claude Opus 4.8 提示技巧Console 提示工具
測試與評估
定義成功並建構評估在 Console 中使用評估工具降低延遲
強化防護措施
減少幻覺提高輸出一致性緩解越獄減少提示洩漏
參考
詞彙表
Log in
定義成功並建構評估
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
最佳實務/測試與評估

定義成功標準並建立評估

建立成功的 LLM 應用程式,首先要清楚定義您的成功標準,然後設計評估來衡量相對於這些標準的表現。這個循環是提示工程的核心。

提示工程流程圖:測試案例、初步提示、反覆測試與改進、最終驗證、發布

定義您的成功標準

良好的成功標準應具備以下特性:

  • 具體(Specific): 清楚定義您想要達成的目標。與其說「良好的表現」,不如具體說明「準確的情感分類」。

  • 可衡量(Measurable): 使用量化指標或定義明確的質化量表。數字能提供清晰度和可擴展性,但如果能與量化指標一併持續應用,質化衡量也很有價值。

    • 即使是倫理和安全等「模糊」的主題也可以量化:
      安全標準
      不佳安全的輸出
      良好在 10,000 次試驗中,被我們的內容過濾器標記為有毒的輸出少於 0.1%。

  • 可達成(Achievable): 根據產業基準、先前實驗、AI 研究或專家知識來設定目標。您的成功指標不應超出當前前沿模型能力的現實範圍。

  • 相關(Relevant): 使您的標準與應用程式的目的和使用者需求保持一致。高度的引用準確性對醫療應用程式可能至關重要,但對休閒聊天機器人則不那麼重要。

常見的成功標準

以下是一些可能對您的使用案例很重要的標準。此清單並非詳盡無遺。

大多數使用案例都需要沿著多個成功標準進行多維度評估。


建立評估

評估設計原則

  1. 針對任務設計: 設計能反映您真實世界任務分布的評估。別忘了將邊緣案例納入考量!

  2. 盡可能自動化: 將問題結構化以便進行自動評分(例如:選擇題、字串比對、程式碼評分、LLM 評分)。
  3. 數量優先於品質: 大量問題搭配訊號稍低的自動評分,優於少量問題搭配高品質的人工手動評分。

評估範例

手動撰寫數百個測試案例可能很困難!讓 Claude 協助您從一組基準範例測試案例生成更多案例。
如果您不知道哪些評估方法可能有助於評估您的成功標準,您也可以與 Claude 一起腦力激盪!

為您的評估評分

在決定使用哪種方法為評估評分時,請選擇最快速、最可靠、最具擴展性的方法:

  1. 基於程式碼的評分: 最快速且最可靠,極具擴展性,但對於需要較少規則剛性的複雜判斷,缺乏細緻度。

    • 精確比對:output == golden_answer
    • 字串比對:key_phrase in output
  2. 人工評分: 最靈活且品質最高,但速度慢且成本高。盡可能避免。

  3. 基於 LLM 的評分: 快速且靈活,具擴展性且適合複雜判斷。請先測試以確保可靠性,然後再擴展。

基於 LLM 評分的技巧

  • 制定詳細、清晰的評分標準:「答案應始終在第一句中提及『Acme Inc.』。如果沒有,該答案將自動評為『不正確』。」
    特定的使用案例,甚至該使用案例的特定成功標準,可能需要多個評分標準才能進行全面評估。
  • 實證或具體: 例如,指示 LLM 僅輸出「正確」或「不正確」,或以 1-5 的量表進行判斷。純質化的評估難以快速且大規模地進行評估。
  • 鼓勵推理: 要求 LLM 在決定評估分數之前先進行思考,然後捨棄推理過程。這能提升評估表現,特別是對於需要複雜判斷的任務。

後續步驟

腦力激盪標準

在 claude.ai 上與 Claude 一起為您的使用案例腦力激盪成功標準。

提示:將此頁面放入對話中作為 Claude 的指引!

Was this page helpful?

  • 定義您的成功標準
  • 常見的成功標準
  • 建立評估
  • 評估設計原則
  • 評估範例
  • 為您的評估評分
  • 基於 LLM 評分的技巧
  • 後續步驟

評估 Cookbook

更多人工評分、程式碼評分和 LLM 評分評估的程式碼範例。