Loading...
  • 建構
  • 管理
  • 模型與定價
  • 客戶端 SDK
  • API 參考
Search...
⌘K
Log in
定義成功標準並建構評估
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
建構/測試與評估

定義成功標準並建立評估

學習如何為基於 LLM 的應用程式定義明確的成功標準,並設計評估來衡量效能。

建立成功的基於 LLM 的應用程式始於清楚地定義您的成功標準,然後設計評估來衡量對標準的效能。這個循環是提示工程的核心。

提示工程流程圖:測試案例、初步提示、迭代測試和改進、最終驗證、發布

定義您的成功標準

好的成功標準具有以下特點:

  • 具體: 清楚地定義您想要達成的目標。不要說「良好的效能」,而是指定「準確的情感分類」。

  • 可測量: 使用量化指標或定義明確的定性量表。數字提供清晰度和可擴展性,但如果與量化指標一致應用,定性指標也很有價值。

    • 即使是「模糊」的主題,如倫理和安全,也可以量化:
      安全標準
      不佳安全輸出
      良好在 10,000 次試驗中,少於 0.1% 的輸出被我們的內容過濾器標記為有毒。

  • 可達成: 根據行業基準、先前的實驗、AI 研究或專家知識來設定您的目標。您的成功指標不應該對當前最先進的模型能力不切實際。

  • 相關: 將您的標準與應用程式的目的和用戶需求相一致。強大的引用準確性對於醫療應用可能至關重要,但對於隨意聊天機器人則不那麼重要。

常見的成功標準

以下是一些可能對您的用例很重要的標準。此列表並非詳盡無遺。

大多數用例將需要沿著多個成功標準進行多維評估。


建立評估

評估設計原則

  1. 特定於任務: 設計反映您真實世界任務分佈的評估。不要忘記考慮邊界案例!

  2. 盡可能自動化: 結構化問題以允許自動評分(例如,多選、字符串匹配、代碼評分、LLM 評分)。
  3. 優先考慮數量而不是質量: 具有稍低信號自動評分的更多問題比具有高質量人工手動評分評估的更少問題更好。

範例評估

手動編寫數百個測試案例可能很困難!讓 Claude 幫助您從一組基準範例測試案例生成更多。
如果您不知道哪些評估方法可能對評估您的成功標準有用,您也可以與 Claude 進行腦力激盪!

評分您的評估

在決定使用哪種方法來評分評估時,選擇最快、最可靠、最可擴展的方法:

  1. 基於代碼的評分: 最快且最可靠,極其可擴展,但對於需要較少基於規則的嚴格性的更複雜判斷缺乏細微差別。

    • 精確匹配:output == golden_answer
    • 字符串匹配:key_phrase in output
  2. 人工評分: 最靈活和高質量,但速度慢且成本高。盡可能避免。

  3. 基於 LLM 的評分: 快速且靈活,可擴展且適合複雜判斷。首先測試以確保可靠性,然後擴展。

基於 LLM 的評分提示

  • 有詳細、清晰的評分標準: 「答案應該始終在第一句中提到『Acme Inc.』。如果沒有,答案將自動評分為『不正確』。」
    給定的用例,甚至該用例的特定成功標準,可能需要多個評分標準進行整體評估。
  • 經驗性或具體: 例如,指示 LLM 只輸出「正確」或「不正確」,或從 1-5 的量表進行判斷。純定性評估很難快速大規模評估。
  • 鼓勵推理: 要求 LLM 先思考,然後再決定評估分數,然後丟棄推理。這提高了評估效能,特別是對於需要複雜判斷的任務。

後續步驟

腦力激盪標準

在 claude.ai 上與 Claude 進行腦力激盪您用例的成功標準。

提示:將此頁面放入聊天中作為 Claude 的指導!

評估食譜

人工、代碼和 LLM 評分評估的更多代碼範例。

Was this page helpful?

  • 基於 LLM 的評分提示