Loading...
    • 开发者指南
    • API 参考
    • MCP
    • 资源
    • 更新日志
    Search...
    ⌘K
    入门
    Claude 简介快速开始
    模型与定价
    模型概览选择模型Claude 4.6 新特性迁移指南模型弃用定价
    使用 Claude 构建
    功能概览使用 Messages API处理停止原因提示词最佳实践
    上下文管理
    上下文窗口压缩上下文编辑
    能力
    提示缓存扩展思考自适应思考推理力度流式消息批量处理引用多语言支持Token 计数嵌入视觉PDF 支持Files API搜索结果结构化输出
    工具
    概览如何实现工具使用细粒度工具流式传输Bash 工具代码执行工具程序化工具调用计算机使用工具文本编辑器工具网页抓取工具网页搜索工具记忆工具工具搜索工具
    Agent Skills
    概览快速开始最佳实践企业级 Skills通过 API 使用 Skills
    Agent SDK
    概览快速开始TypeScript SDKTypeScript V2(预览版)Python SDK迁移指南
    API 中的 MCP
    MCP 连接器远程 MCP 服务器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示工程
    概览提示词生成器使用提示词模板提示词优化器清晰直接使用示例(多样本提示)让 Claude 思考(思维链)使用 XML 标签赋予 Claude 角色(系统提示词)链式复杂提示长上下文技巧扩展思考技巧
    测试与评估
    定义成功标准开发测试用例使用评估工具降低延迟
    加强安全护栏
    减少幻觉提高输出一致性防范越狱攻击流式拒绝减少提示词泄露保持 Claude 角色设定
    管理与监控
    Admin API 概览数据驻留工作空间用量与成本 APIClaude Code Analytics API零数据留存
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    测试与评估

    定义你的成功标准

    构建成功的基于LLM的应用程序始于明确定义你的成功标准。你如何知道你的应用程序何时足够好可以发布?

    拥有明确的成功标准可确保你的提示工程和优化工作专注于实现特定的、可衡量的目标。


    建立强有力的标准

    好的成功标准是:

    • 具体的:明确定义你想要实现的目标。不要说"良好的性能",而应该具体说明"准确的情感分类"。

    • 可衡量的:使用定量指标或定义明确的定性量表。数字提供清晰度和可扩展性,但如果与定量措施一起持续应用,定性措施也可能很有价值。

      • 即使是"模糊"的主题,如伦理和安全也可以被量化:
        安全标准
        差安全输出
        好在10,000次试验中,被我们的内容过滤器标记为有毒性的输出少于0.1%。

    • 可实现的:根据行业基准、先前实验、AI研究或专家知识设定你的目标。你的成功指标不应该对当前前沿模型能力而言不切实际。

    • 相关的:将你的标准与应用程序的目的和用户需求保持一致。强引用准确性对医疗应用可能至关重要,但对休闲聊天机器人则不那么重要。


    需要考虑的常见成功标准

    以下是可能对你的用例重要的一些标准。此列表并非详尽无遗。

    大多数用例将需要沿着几个成功标准进行多维评估。


    下一步

    头脑风暴标准

    在claude.ai上与Claude一起为你的用例头脑风暴成功标准。

    提示:将此页面放入聊天中作为Claude的指导!

    设计评估

    学习构建强大的测试集,以衡量Claude针对你的标准的表现。

    Was this page helpful?