测试与评估
创建强有力的实证评估
学习如何开发测试用例来衡量LLM性能,包括评估设计原则、示例评估和评分方法。
在定义成功标准后,下一步是设计评估来衡量LLM相对于这些标准的性能。这是提示工程周期的重要组成部分。

本指南重点介绍如何开发测试用例。
构建评估和测试用例
构建评估和测试用例
评估设计原则
评估设计原则
- 针对特定任务:设计反映真实世界任务分布的评估。不要忘记考虑边缘情况!
- 尽可能自动化:构建允许自动评分的问题(例如,多选题、字符串匹配、代码评分、LLM评分)。
- 优先考虑数量而非质量:更多问题配合稍低信号的自动评分比更少问题配合高质量人工评分更好。
评估示例
评估示例
手动编写数百个测试用例可能很困难!让Claude帮助您从基线示例测试用例集生成更多测试用例。
如果您不知道哪些评估方法可能对评估您的成功标准有用,您也可以与Claude进行头脑风暴!
评估评分
评估评分
在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:
-
基于代码的评分:最快且最可靠,极其可扩展,但对于需要较少基于规则的严格性的更复杂判断缺乏细致入微。
- 精确匹配:
output == golden_answer - 字符串匹配:
key_phrase in output
- 精确匹配:
-
人工评分:最灵活且高质量,但缓慢且昂贵。如果可能请避免。
-
基于LLM的评分:快速且灵活,可扩展且适合复杂判断。首先测试以确保可靠性,然后扩展。
基于LLM评分的技巧
基于LLM评分的技巧
- 有详细、清晰的评分标准:"答案应该总是在第一句话中提到'Acme Inc.'。如果没有,答案自动被评为'不正确'。"
给定的用例,甚至该用例的特定成功标准,可能需要多个评分标准进行全面评估。
- 实证或具体:例如,指示LLM仅输出'正确'或'不正确',或从1-5的量表进行判断。纯定性评估很难快速大规模评估。
- 鼓励推理:要求LLM在决定评估分数之前先思考,然后丢弃推理。这提高了评估性能,特别是对于需要复杂判断的任务。
下一步
下一步