Loading...
  • 构建
  • 管理
  • 模型与定价
  • 客户端 SDK
  • API 参考
Search...
⌘K
Log in
定义成功标准并构建评估
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
构建/测试与评估

定义成功标准并构建评估

学习如何为基于LLM的应用定义清晰的成功标准,并设计评估来衡量性能。

构建成功的基于LLM的应用始于清晰地定义您的成功标准,然后设计评估来衡量性能。这个循环是提示工程的核心。

提示工程流程图:测试用例、初步提示、迭代测试和改进、最终验证、发布

定义您的成功标准

好的成功标准应该具有以下特点:

  • 具体性: 清楚地定义您想要实现的目标。不要说"良好的性能",而应该指定"准确的情感分类"。

  • 可测量性: 使用定量指标或定义明确的定性量表。数字提供清晰度和可扩展性,但定性措施如果与定量措施一起一致应用,也可能很有价值。

    • 即使是"模糊"的话题,如伦理和安全,也可以量化:
      安全标准
      差安全输出
      好在10,000次试验中,少于0.1%的输出被我们的内容过滤器标记为有毒。

  • 可实现性: 将您的目标基于行业基准、先前的实验、AI研究或专家知识。您的成功指标不应该对当前前沿模型的能力不切实际。

  • 相关性: 将您的标准与应用的目的和用户需求保持一致。强大的引用准确性对医疗应用可能至关重要,但对随意聊天机器人则不那么重要。

常见成功标准

以下是一些可能对您的用例很重要的标准。此列表并非详尽无遗。

大多数用例需要沿着多个成功标准进行多维评估。


构建评估

评估设计原则

  1. 特定于任务: 设计反映您真实世界任务分布的评估。不要忘记考虑边界情况!

  2. 尽可能自动化: 构造问题以允许自动评分(例如,多选、字符串匹配、代码评分、LLM评分)。
  3. 优先考虑数量而非质量: 具有略低信号的自动评分的更多问题比具有高质量人工手工评分的较少问题更好。

示例评估

手工编写数百个测试用例可能很困难!让Claude帮助您从一组基线示例测试用例生成更多。
如果您不知道哪些评估方法可能对评估您的成功标准有用,您也可以与Claude进行头脑风暴!

评分您的评估

在决定使用哪种方法来评分评估时,选择最快、最可靠、最可扩展的方法:

  1. 基于代码的评分: 最快且最可靠,极其可扩展,但对于需要较少基于规则的刚性的更复杂判断缺乏细微差别。

    • 精确匹配:output == golden_answer
    • 字符串匹配:key_phrase in output
  2. 人工评分: 最灵活和高质量,但速度慢且成本高。如果可能,应避免。

  3. 基于LLM的评分: 快速灵活,可扩展且适合复杂判断。先测试以确保可靠性,然后扩展。

基于LLM的评分提示

  • 有详细、清晰的评分标准: "答案应该始终在第一句中提到'Acme Inc.'。如果没有,答案自动被评为'不正确'。"
    给定的用例,甚至该用例的特定成功标准,可能需要多个评分标准进行整体评估。
  • 经验性或具体性: 例如,指示LLM仅输出'正确'或'不正确',或从1-5的量表中判断。纯定性评估很难快速和大规模评估。
  • 鼓励推理: 要求LLM先思考,然后再决定评估分数,然后丢弃推理。这增加了评估性能,特别是对于需要复杂判断的任务。

后续步骤

头脑风暴标准

在claude.ai上与Claude一起为您的用例头脑风暴成功标准。

提示:将此页面放入聊天中作为Claude的指导!

评估食谱

人工、代码和LLM评分评估的更多代码示例。

Was this page helpful?

  • 基于LLM的评分提示