測試與評估
建立強大的實證評估
學習如何開發測試案例來衡量 LLM 性能並建立有效的評估方法。
在定義成功標準後,下一步是設計評估來衡量 LLM 相對於這些標準的性能。這是提示工程循環的重要組成部分。

本指南專注於如何開發您的測試案例。
建立評估和測試案例
建立評估和測試案例
評估設計原則
評估設計原則
- 針對特定任務:設計能夠反映您真實世界任務分佈的評估。別忘了考慮邊緣案例!
- 盡可能自動化:結構化問題以允許自動評分(例如,多選題、字符串匹配、代碼評分、LLM 評分)。
- 優先考慮數量而非質量:更多問題配合稍低信號的自動評分,比更少問題配合高質量人工評分更好。
評估範例
評估範例
手動編寫數百個測試案例可能很困難!讓 Claude 幫助您從基準範例測試案例集合中生成更多案例。
如果您不知道哪些評估方法可能對評估您的成功標準有用,您也可以與 Claude 進行腦力激盪!
評分評估
評分評估
在決定使用哪種方法來評分評估時,選擇最快、最可靠、最可擴展的方法:
-
基於代碼的評分:最快且最可靠,極其可擴展,但對於需要較少基於規則剛性的更複雜判斷缺乏細微差別。
- 精確匹配:
output == golden_answer - 字符串匹配:
key_phrase in output
- 精確匹配:
-
人工評分:最靈活且高質量,但緩慢且昂貴。如果可能的話應避免。
-
基於 LLM 的評分:快速且靈活,可擴展且適合複雜判斷。首先測試以確保可靠性,然後擴展。
基於 LLM 評分的技巧
基於 LLM 評分的技巧
- 有詳細、清晰的評分標準:"答案應該總是在第一句中提到 'Acme Inc.'。如果沒有,答案自動被評為'不正確'。"
給定的用例,甚至該用例的特定成功標準,可能需要多個評分標準來進行全面評估。
- 實證或具體:例如,指示 LLM 僅輸出'正確'或'不正確',或從 1-5 的量表進行判斷。純定性評估很難快速且大規模地評估。
- 鼓勵推理:要求 LLM 在決定評估分數之前先思考,然後丟棄推理。這提高了評估性能,特別是對於需要複雜判斷的任務。
下一步
下一步