Claude Platform Docs
  • 消息
  • 托管智能体
  • 管理

Search...
⌘K
用例
概览工单路由客户支持智能体内容审核法律摘要
提示工程
概览提示最佳实践为 Claude Fable 5 编写提示为 Claude Opus 4.8 编写提示控制台提示工具
测试与评估
定义成功标准并构建评估在控制台中使用评估工具降低延迟
加强防护措施
减少幻觉提高输出一致性缓解越狱攻击减少提示泄露
参考
术语表

Log in
定义成功标准并构建评估
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
最佳实践/测试与评估

定义成功标准并构建评估

构建成功的基于 LLM 的应用程序,首先要清晰地定义您的成功标准,然后设计评估来衡量相对于这些标准的性能表现。这一循环是提示工程的核心。

提示工程流程图:测试用例、初步提示、迭代测试与优化、最终验证、发布

定义您的成功标准

良好的成功标准应具备以下特点:

  • 具体: 清晰定义您想要实现的目标。不要只说"良好的性能",而应明确为"准确的情感分类"。

  • 可衡量: 使用定量指标或定义明确的定性量表。数字能提供清晰度和可扩展性,但如果定性衡量方法能与定量衡量方法一起持续应用,也同样具有价值。

    • 即使是伦理和安全等"模糊"的主题也可以量化:
      安全标准
      差安全的输出
      好在 10,000 次试验中,被我们的内容过滤器标记为有害内容的输出少于 0.1%。

  • 可实现: 基于行业基准、先前实验、AI 研究或专家知识来设定目标。您的成功指标不应超出当前前沿模型能力的实际范围。

  • 相关: 使您的标准与应用程序的目的和用户需求保持一致。高引用准确性对医疗应用可能至关重要,但对休闲聊天机器人则不那么重要。

常见的成功标准

以下是一些可能对您的用例很重要的标准。此列表并非详尽无遗。

大多数用例都需要沿着多个成功标准进行多维度评估。


构建评估

评估设计原则

  1. 针对具体任务: 设计能够反映真实世界任务分布的评估。不要忘记考虑边缘案例!

  2. 尽可能自动化: 构建问题结构以支持自动评分(例如,多项选择、字符串匹配、代码评分、LLM 评分)。
  3. 优先考虑数量而非质量: 更多问题配合信号稍低的自动评分,优于较少问题配合高质量的人工手动评分。

评估示例


手动编写数百个测试用例可能很困难!让 Claude 帮助您从一组基线示例测试用例中生成更多用例。

如果您不知道哪些评估方法可能有助于评估您的成功标准,您也可以与 Claude 一起进行头脑风暴!

对评估进行评分

在决定使用哪种方法对评估进行评分时,请选择最快、最可靠、最具可扩展性的方法:

  1. 基于代码的评分: 最快且最可靠,极具可扩展性,但对于需要较少基于规则的刚性的更复杂判断,缺乏细微差别的处理能力。

    • 精确匹配:output == golden_answer
    • 字符串匹配:key_phrase in output
  2. 人工评分: 最灵活且质量最高,但速度慢且成本高。如果可能,请避免使用。

  3. 基于 LLM 的评分: 快速且灵活,可扩展且适用于复杂判断。请先测试以确保可靠性,然后再进行扩展。

基于 LLM 评分的技巧

  • 制定详细、清晰的评分标准: "答案应始终在第一句中提及 'Acme Inc.'。如果没有,则答案自动评为'不正确'。"
    
    一个给定的用例,甚至该用例的特定成功标准,可能需要多个评分标准来进行全面评估。
  • 经验性或具体化: 例如,指示 LLM 仅输出"正确"或"不正确",或在 1-5 的量表上进行判断。纯定性评估难以快速、大规模地进行评估。
  • 鼓励推理: 要求 LLM 在决定评估分数之前先进行思考,然后丢弃推理过程。这可以提高评估性能,特别是对于需要复杂判断的任务。

后续步骤


头脑风暴标准


在 claude.ai 上与 Claude 一起为您的用例进行成功标准的头脑风暴。

提示:将此页面放入聊天中,作为对 Claude 的指导!


评估 Cookbook


更多人工评分、代码评分和 LLM 评分评估的代码示例。

Was this page helpful?

  • 定义您的成功标准
  • 常见的成功标准
  • 构建评估
  • 评估设计原则
  • 评估示例
  • 对评估进行评分
  • 基于 LLM 评分的技巧
  • 后续步骤