Loading...
    • 构建
    • 管理
    • 模型与定价
    • 客户端 SDK
    • API 参考
    Search...
    ⌘K
    Log in
    在 Console 中使用评估工具
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    构建/测试与评估

    使用评估工具

    Claude Console 功能中的评估工具允许您在各种场景下测试您的提示词。

    Was this page helpful?

    访问评估功能

    要开始使用评估工具:

    1. 打开 Claude Console 并导航到提示词编辑器。
    2. 编写完提示词后,在屏幕顶部查找"Evaluate"选项卡。

    访问评估功能

    确保您的提示词至少包含 1-2 个使用双大括号语法的动态变量:{{variable}}。这是创建评估测试集所必需的。

    生成提示词

    Console 提供了由 Claude Opus 4.1 驱动的内置提示词生成器:

    1. 1

      点击'生成提示词'

      点击"生成提示词"辅助工具将打开一个模态框,允许您输入任务信息。

    2. 2

      描述您的任务

      描述您所需的任务(例如,"对入站客户支持请求进行分类"),可以提供尽可能多或尽可能少的详细信息。您包含的上下文越多,Claude 就能更好地根据您的具体需求定制生成的提示词。

    3. 3

      生成您的提示词

      点击底部的橙色"生成提示词"按钮,Claude 将为您生成高质量的提示词。然后,您可以使用 Console 中的评估屏幕进一步改进这些提示词。

    此功能使创建具有适当变量语法的提示词以进行评估变得更加容易。

    提示词生成器

    创建测试用例

    当您访问评估屏幕时,您有多个选项来创建测试用例:

    1. 点击左下角的"+ 添加行"按钮以手动添加用例。
    2. 使用"生成测试用例"功能让 Claude 自动为您生成测试用例。
    3. 从 CSV 文件导入测试用例。

    要使用"生成测试用例"功能:

    1. 1

      点击'生成测试用例'

      Claude 将为您生成测试用例,每次点击按钮时生成一行。

    2. 2

      编辑生成逻辑(可选)

      您也可以通过点击"生成测试用例"按钮右侧的箭头下拉菜单,然后点击弹出的变量窗口顶部的"显示生成逻辑"来编辑测试用例生成逻辑。您可能需要点击此窗口右上角的"生成"来填充初始生成逻辑。

      编辑这个允许您自定义和微调 Claude 生成的测试用例,以获得更高的精度和特异性。

    以下是一个包含多个测试用例的已填充评估屏幕的示例:

    已填充的评估屏幕

    如果您更新原始提示词文本,您可以针对新提示词重新运行整个评估套件,以查看更改如何影响所有测试用例的性能。

    有效评估的提示

    使用 Console 中的"生成提示词"辅助工具快速创建具有适当变量语法的提示词以进行评估。

    理解和比较结果

    评估工具提供了多个功能来帮助您改进提示词:

    1. 并排比较:比较两个或多个提示词的输出,快速查看更改的影响。
    2. 质量评分:在 5 分制上对响应质量进行评分,以跟踪每个提示词响应质量的改进。
    3. 提示词版本控制:创建提示词的新版本并重新运行测试套件,以快速迭代和改进结果。

    通过审查测试用例中的结果并比较不同的提示词版本,您可以发现模式并更有效地对提示词进行有根据的调整。

    立即开始评估您的提示词,使用 Claude 构建更强大的 AI 应用程序!