Loading...
    • 开发者指南
    • API 参考
    • MCP
    • 资源
    • 更新日志
    Search...
    ⌘K
    入门
    Claude 简介快速开始
    模型与定价
    模型概览选择模型Claude 4.6 新特性迁移指南模型弃用定价
    使用 Claude 构建
    功能概览使用 Messages API处理停止原因提示词最佳实践
    上下文管理
    上下文窗口压缩上下文编辑
    能力
    提示缓存扩展思考自适应思考推理力度流式消息批量处理引用多语言支持Token 计数嵌入视觉PDF 支持Files API搜索结果结构化输出
    工具
    概览如何实现工具使用细粒度工具流式传输Bash 工具代码执行工具程序化工具调用计算机使用工具文本编辑器工具网页抓取工具网页搜索工具记忆工具工具搜索工具
    Agent Skills
    概览快速开始最佳实践企业级 Skills通过 API 使用 Skills
    Agent SDK
    概览快速开始TypeScript SDKTypeScript V2(预览版)Python SDK迁移指南
    API 中的 MCP
    MCP 连接器远程 MCP 服务器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示工程
    概览提示词生成器使用提示词模板提示词优化器清晰直接使用示例(多样本提示)让 Claude 思考(思维链)使用 XML 标签赋予 Claude 角色(系统提示词)链式复杂提示长上下文技巧扩展思考技巧
    测试与评估
    定义成功标准开发测试用例使用评估工具降低延迟
    加强安全护栏
    减少幻觉提高输出一致性防范越狱攻击流式拒绝减少提示词泄露保持 Claude 角色设定
    管理与监控
    Admin API 概览数据驻留工作空间用量与成本 APIClaude Code Analytics API零数据留存
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    测试与评估

    创建强有力的实证评估

    学习如何设计评估来衡量 LLM 在您定义的成功标准下的表现。

    在定义成功标准之后,下一步是设计评估来衡量 LLM 相对于这些标准的表现。这是提示工程循环中至关重要的一部分。

    提示工程流程图:测试用例、初步提示、迭代测试和优化、最终验证、发布

    本指南重点介绍如何开发您的测试用例。

    构建评估和测试用例

    评估设计原则

    1. 针对特定任务:设计能反映真实世界任务分布的评估。不要忘记考虑边缘情况!

    2. 尽可能自动化:构建允许自动评分的问题(例如,多项选择、字符串匹配、代码评分、LLM 评分)。
    3. 数量优先于质量:更多数量但信号略低的自动评分问题,优于更少数量但高质量的人工手动评分评估。

    评估示例

    手动编写数百个测试用例可能很困难!让 Claude 帮助您从一组基准示例测试用例中生成更多用例。
    如果您不知道哪些评估方法可能对评估您的成功标准有用,您也可以与 Claude 进行头脑风暴!

    评估评分

    在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:

    1. 基于代码的评分:最快且最可靠,极具可扩展性,但对于需要较少基于规则的严格性的更复杂判断缺乏细微差别。

      • 精确匹配:output == golden_answer
      • 字符串匹配:key_phrase in output
    2. 人工评分:最灵活且质量最高,但速度慢且成本高。尽可能避免使用。

    3. 基于 LLM 的评分:快速且灵活,可扩展且适合复杂判断。先测试以确保可靠性,然后再扩展规模。

    基于 LLM 评分的技巧

    • 制定详细、清晰的评分标准:"答案应始终在第一句中提到 'Acme Inc.'。如果没有,答案将自动被评为'不正确'。"
      给定的用例,甚至该用例的特定成功标准,可能需要多个评分标准进行全面评估。
    • 实证或具体:例如,指示 LLM 仅输出"正确"或"不正确",或从 1-5 的量表进行判断。纯定性评估难以快速且大规模地进行评估。
    • 鼓励推理:要求 LLM 在决定评估分数之前先进行思考,然后丢弃推理过程。这可以提高评估性能,特别是对于需要复杂判断的任务。

    后续步骤

    头脑风暴评估方案

    了解如何编写提示以最大化您的评估分数。

    评估实践手册

    更多人工评分、代码评分和 LLM 评分评估的代码示例。

    Was this page helpful?

    • 基于 LLM 评分的技巧