Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
在定義成功標準後,下一步是設計評估來衡量 LLM 相對於這些標準的性能。這是提示工程循環的重要組成部分。

本指南專注於如何開發您的測試案例。
在決定使用哪種方法來評分評估時,選擇最快、最可靠、最可擴展的方法:
基於代碼的評分:最快且最可靠,極其可擴展,但對於需要較少基於規則剛性的更複雜判斷缺乏細微差別。
output == golden_answerkey_phrase in output人工評分:最靈活且高質量,但緩慢且昂貴。如果可能的話應避免。
基於 LLM 的評分:快速且靈活,可擴展且適合複雜判斷。首先測試以確保可靠性,然後擴展。
更多人工、代碼和 LLM 評分評估的代碼範例。