Loading...
    • 构建
    • 管理
    • 模型与定价
    • 客户端 SDK
    • API 参考
    Search...
    ⌘K
    入门步骤
    Claude 简介快速入门
    使用 Claude 构建
    功能概览使用 Messages API处理停止原因
    模型能力
    扩展思考自适应思考努力程度快速模式(测试版:研究预览)结构化输出引用流式消息批量处理搜索结果流式拒绝多语言支持嵌入
    工具
    概览工具使用原理网页搜索工具网页抓取工具代码执行工具记忆工具Bash 工具计算机使用工具文本编辑器工具
    工具基础设施
    工具搜索程序化工具调用细粒度工具流式传输
    上下文管理
    上下文窗口压缩上下文编辑提示词缓存Token 计数
    文件处理
    Files APIPDF 支持图像与视觉
    技能
    概览快速入门最佳实践企业级技能API 中的技能
    MCP
    远程 MCP 服务器MCP 连接器
    提示词工程
    概览提示词最佳实践Console 提示词工具
    测试与评估
    定义成功标准并构建评估在 Console 中使用评估工具降低延迟
    加强安全护栏
    减少幻觉提高输出一致性防范越狱减少提示词泄露
    资源
    术语表
    发布说明
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    测试与评估

    创建强有力的实证评估

    学习如何设计评估来衡量 LLM 在您定义的成功标准下的表现。

    Was this page helpful?

    • 基于 LLM 评分的技巧

    在定义成功标准之后,下一步是设计评估来衡量 LLM 相对于这些标准的表现。这是提示工程循环中至关重要的一部分。

    提示工程流程图:测试用例、初步提示、迭代测试和优化、最终验证、发布

    本指南重点介绍如何开发您的测试用例。

    构建评估和测试用例

    评估设计原则

    1. 针对特定任务:设计能反映真实世界任务分布的评估。不要忘记考虑边缘情况!

    2. 尽可能自动化:构建允许自动评分的问题(例如,多项选择、字符串匹配、代码评分、LLM 评分)。
    3. 数量优先于质量:更多数量但信号略低的自动评分问题,优于更少数量但高质量的人工手动评分评估。

    评估示例

    手动编写数百个测试用例可能很困难!让 Claude 帮助您从一组基准示例测试用例中生成更多用例。
    如果您不知道哪些评估方法可能对评估您的成功标准有用,您也可以与 Claude 进行头脑风暴!

    评估评分

    在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:

    1. 基于代码的评分:最快且最可靠,极具可扩展性,但对于需要较少基于规则的严格性的更复杂判断缺乏细微差别。

      • 精确匹配:output == golden_answer
      • 字符串匹配:key_phrase in output
    2. 人工评分:最灵活且质量最高,但速度慢且成本高。尽可能避免使用。

    3. 基于 LLM 的评分:快速且灵活,可扩展且适合复杂判断。先测试以确保可靠性,然后再扩展规模。

    基于 LLM 评分的技巧

    • 制定详细、清晰的评分标准:"答案应始终在第一句中提到 'Acme Inc.'。如果没有,答案将自动被评为'不正确'。"
      给定的用例,甚至该用例的特定成功标准,可能需要多个评分标准进行全面评估。
    • 实证或具体:例如,指示 LLM 仅输出"正确"或"不正确",或从 1-5 的量表进行判断。纯定性评估难以快速且大规模地进行评估。
    • 鼓励推理:要求 LLM 在决定评估分数之前先进行思考,然后丢弃推理过程。这可以提高评估性能,特别是对于需要复杂判断的任务。

    后续步骤

    头脑风暴评估方案

    了解如何编写提示以最大化您的评估分数。

    评估实践手册

    更多人工评分、代码评分和 LLM 评分评估的代码示例。