測試與評估

建立強健的實證評估

學習如何設計評估來衡量 LLM 效能，包括測試案例設計、評分方法和自動化評估策略。

在定義成功標準之後，下一步是設計評估來衡量 LLM 相對於這些標準的表現。這是提示工程循環中至關重要的一部分。

提示工程流程圖：測試案例、初步提示、迭代測試與改進、最終驗證、上線

本指南著重於如何開發您的測試案例。

建立評估和測試案例

評估設計原則

針對特定任務：設計能反映您真實世界任務分佈的評估。別忘了考慮邊界案例！
盡可能自動化：將問題結構化以允許自動評分（例如，多選題、字串匹配、程式碼評分、LLM 評分）。
數量優先於品質：更多問題搭配訊號稍低的自動評分，優於較少問題搭配高品質的人工手動評分評估。

評估範例

手動撰寫數百個測試案例可能很困難！讓 Claude 幫助您從基準範例測試案例集生成更多測試案例。

如果您不確定哪些評估方法可能對評估您的成功標準有用，您也可以與 Claude 進行腦力激盪！

評估評分

在決定使用哪種方法對評估進行評分時，選擇最快、最可靠、最具擴展性的方法：

基於程式碼的評分：最快且最可靠，極具擴展性，但對於需要較少基於規則的嚴格性的更複雜判斷缺乏細微差別。
- 精確匹配：output == golden_answer
- 字串匹配：key_phrase in output
人工評分：最靈活且品質最高，但速度慢且成本高。盡可能避免使用。
基於 LLM 的評分：快速且靈活，具擴展性且適合複雜判斷。先測試以確保可靠性，然後再擴展規模。

基於 LLM 評分的技巧

制定詳細、清晰的評分標準：「答案應始終在第一句中提到 'Acme Inc.'。如果沒有，答案將自動被評為『不正確』。」
特定的使用案例，甚至該使用案例的特定成功標準，可能需要多個評分標準進行全面評估。
實證或具體：例如，指示 LLM 僅輸出 'correct' 或 'incorrect'，或從 1-5 的量表進行判斷。純粹的定性評估難以快速且大規模地進行評估。
鼓勵推理：要求 LLM 在決定評估分數之前先進行思考，然後丟棄推理過程。這能提高評估表現，特別是對於需要複雜判斷的任務。

後續步驟

腦力激盪評估方案

學習如何撰寫提示以最大化您的評估分數。

評估指南手冊

更多人工、程式碼和 LLM 評分評估的程式碼範例。

Was this page helpful?

建立評估和測試案例

評估設計原則

針對特定任務：設計能反映您真實世界任務分佈的評估。別忘了考慮邊界案例！

盡可能自動化：將問題結構化以允許自動評分（例如，多選題、字串匹配、程式碼評分、LLM 評分）。

數量優先於品質：更多問題搭配訊號稍低的自動評分，優於較少問題搭配高品質的人工手動評分評估。

評估範例

手動撰寫數百個測試案例可能很困難！讓 Claude 幫助您從基準範例測試案例集生成更多測試案例。

如果您不確定哪些評估方法可能對評估您的成功標準有用，您也可以與 Claude 進行腦力激盪！

評估評分

在決定使用哪種方法對評估進行評分時，選擇最快、最可靠、最具擴展性的方法：

基於程式碼的評分：最快且最可靠，極具擴展性，但對於需要較少基於規則的嚴格性的更複雜判斷缺乏細微差別。

精確匹配：output == golden_answer
字串匹配：key_phrase in output

人工評分：最靈活且品質最高，但速度慢且成本高。盡可能避免使用。

基於 LLM 的評分：快速且靈活，具擴展性且適合複雜判斷。先測試以確保可靠性，然後再擴展規模。

基於 LLM 評分的技巧

制定詳細、清晰的評分標準：「答案應始終在第一句中提到 'Acme Inc.'。如果沒有，答案將自動被評為『不正確』。」

特定的使用案例，甚至該使用案例的特定成功標準，可能需要多個評分標準進行全面評估。

實證或具體：例如，指示 LLM 僅輸出 'correct' 或 'incorrect'，或從 1-5 的量表進行判斷。純粹的定性評估難以快速且大規模地進行評估。

鼓勵推理：要求 LLM 在決定評估分數之前先進行思考，然後丟棄推理過程。這能提高評估表現，特別是對於需要複雜判斷的任務。

建立評估和測試案例

評估設計原則

邊界案例範例

評估範例

任務忠實度（情感分析）- 精確匹配評估

一致性（FAQ 機器人）- 餘弦相似度評估

相關性與連貫性（摘要）- ROUGE-L 評估

語氣與風格（客戶服務）- 基於 LLM 的李克特量表

隱私保護（醫療聊天機器人）- 基於 LLM 的二元分類

上下文利用（對話助手）- 基於 LLM 的序數量表

評估評分

基於 LLM 評分的技巧

範例：基於 LLM 的評分

後續步驟

建立評估和測試案例

評估設計原則

邊界案例範例

評估範例

任務忠實度（情感分析）- 精確匹配評估

一致性（FAQ 機器人）- 餘弦相似度評估

相關性與連貫性（摘要）- ROUGE-L 評估

語氣與風格（客戶服務）- 基於 LLM 的李克特量表

隱私保護（醫療聊天機器人）- 基於 LLM 的二元分類

上下文利用（對話助手）- 基於 LLM 的序數量表

評估評分

基於 LLM 評分的技巧

範例：基於 LLM 的評分

後續步驟