测试与评估

创建强有力的实证评估

学习如何设计评估来衡量 LLM 在您定义的成功标准下的表现。

在定义成功标准之后，下一步是设计评估来衡量 LLM 相对于这些标准的表现。这是提示工程循环中至关重要的一部分。

提示工程流程图：测试用例、初步提示、迭代测试和优化、最终验证、发布

本指南重点介绍如何开发您的测试用例。

构建评估和测试用例

评估设计原则

针对特定任务：设计能反映真实世界任务分布的评估。不要忘记考虑边缘情况！
尽可能自动化：构建允许自动评分的问题（例如，多项选择、字符串匹配、代码评分、LLM 评分）。
数量优先于质量：更多数量但信号略低的自动评分问题，优于更少数量但高质量的人工手动评分评估。

评估示例

手动编写数百个测试用例可能很困难！让 Claude 帮助您从一组基准示例测试用例中生成更多用例。

如果您不知道哪些评估方法可能对评估您的成功标准有用，您也可以与 Claude 进行头脑风暴！

评估评分

在决定使用哪种方法对评估进行评分时，选择最快、最可靠、最可扩展的方法：

基于代码的评分：最快且最可靠，极具可扩展性，但对于需要较少基于规则的严格性的更复杂判断缺乏细微差别。
- 精确匹配：output == golden_answer
- 字符串匹配：key_phrase in output
人工评分：最灵活且质量最高，但速度慢且成本高。尽可能避免使用。
基于 LLM 的评分：快速且灵活，可扩展且适合复杂判断。先测试以确保可靠性，然后再扩展规模。

基于 LLM 评分的技巧

制定详细、清晰的评分标准："答案应始终在第一句中提到 'Acme Inc.'。如果没有，答案将自动被评为'不正确'。"
给定的用例，甚至该用例的特定成功标准，可能需要多个评分标准进行全面评估。
实证或具体：例如，指示 LLM 仅输出"正确"或"不正确"，或从 1-5 的量表进行判断。纯定性评估难以快速且大规模地进行评估。
鼓励推理：要求 LLM 在决定评估分数之前先进行思考，然后丢弃推理过程。这可以提高评估性能，特别是对于需要复杂判断的任务。

后续步骤

头脑风暴评估方案

了解如何编写提示以最大化您的评估分数。

评估实践手册

更多人工评分、代码评分和 LLM 评分评估的代码示例。

Was this page helpful?

构建评估和测试用例

评估设计原则

针对特定任务：设计能反映真实世界任务分布的评估。不要忘记考虑边缘情况！

尽可能自动化：构建允许自动评分的问题（例如，多项选择、字符串匹配、代码评分、LLM 评分）。

数量优先于质量：更多数量但信号略低的自动评分问题，优于更少数量但高质量的人工手动评分评估。

评估示例

手动编写数百个测试用例可能很困难！让 Claude 帮助您从一组基准示例测试用例中生成更多用例。

如果您不知道哪些评估方法可能对评估您的成功标准有用，您也可以与 Claude 进行头脑风暴！

评估评分

在决定使用哪种方法对评估进行评分时，选择最快、最可靠、最可扩展的方法：

基于代码的评分：最快且最可靠，极具可扩展性，但对于需要较少基于规则的严格性的更复杂判断缺乏细微差别。

精确匹配：output == golden_answer
字符串匹配：key_phrase in output

人工评分：最灵活且质量最高，但速度慢且成本高。尽可能避免使用。

基于 LLM 的评分：快速且灵活，可扩展且适合复杂判断。先测试以确保可靠性，然后再扩展规模。

基于 LLM 评分的技巧

制定详细、清晰的评分标准："答案应始终在第一句中提到 'Acme Inc.'。如果没有，答案将自动被评为'不正确'。"

给定的用例，甚至该用例的特定成功标准，可能需要多个评分标准进行全面评估。

实证或具体：例如，指示 LLM 仅输出"正确"或"不正确"，或从 1-5 的量表进行判断。纯定性评估难以快速且大规模地进行评估。

鼓励推理：要求 LLM 在决定评估分数之前先进行思考，然后丢弃推理过程。这可以提高评估性能，特别是对于需要复杂判断的任务。

构建评估和测试用例

评估设计原则

边缘情况示例

评估示例

任务保真度（情感分析）- 精确匹配评估

一致性（FAQ 机器人）- 余弦相似度评估

相关性和连贯性（摘要生成）- ROUGE-L 评估

语气和风格（客户服务）- 基于 LLM 的李克特量表

隐私保护（医疗聊天机器人）- 基于 LLM 的二元分类

上下文利用（对话助手）- 基于 LLM 的序数量表

评估评分

基于 LLM 评分的技巧

示例：基于 LLM 的评分

后续步骤

构建评估和测试用例

评估设计原则

边缘情况示例

评估示例

任务保真度（情感分析）- 精确匹配评估

一致性（FAQ 机器人）- 余弦相似度评估

相关性和连贯性（摘要生成）- ROUGE-L 评估

语气和风格（客户服务）- 基于 LLM 的李克特量表

隐私保护（医疗聊天机器人）- 基于 LLM 的二元分类

上下文利用（对话助手）- 基于 LLM 的序数量表

评估评分

基于 LLM 评分的技巧

示例：基于 LLM 的评分

后续步骤