Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
在定义成功标准后,下一步是设计评估来衡量LLM相对于这些标准的性能。这是提示工程周期的重要组成部分。

本指南重点介绍如何开发测试用例。
在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:
基于代码的评分:最快且最可靠,极其可扩展,但对于需要较少基于规则的严格性的更复杂判断缺乏细致入微。
output == golden_answerkey_phrase in output人工评分:最灵活且高质量,但缓慢且昂贵。如果可能请避免。
基于LLM的评分:快速且灵活,可扩展且适合复杂判断。首先测试以确保可靠性,然后扩展。