Loading...
    • 开发者指南
    • API 参考
    • MCP
    • 资源
    • 发布说明
    Search...
    ⌘K

    第一步

    Claude 简介快速开始

    模型与定价

    模型概览选择模型Claude 4.5 的新功能迁移到 Claude 4.5模型弃用定价

    使用 Claude 构建

    功能概览使用 Messages API上下文窗口提示词最佳实践

    功能

    提示词缓存上下文编辑扩展思考流式消息批处理引用多语言支持Token 计数嵌入向量视觉PDF 支持Files API搜索结果Google Sheets 插件

    工具

    概述如何实现工具使用令牌高效的工具使用细粒度工具流式传输Bash 工具代码执行工具计算机使用工具文本编辑器工具Web fetch 工具网络搜索工具记忆工具

    代理技能

    概述在 API 中开始使用 Agent Skills技能创作最佳实践通过 API 使用 Agent Skills

    Agent SDK

    概览TypeScript SDKPython SDK

    指南

    流式输入处理权限会话管理托管 Agent SDK修改系统提示词SDK 中的 MCP自定义工具SDK 中的子代理SDK 中的斜杠命令SDK 中的代理技能跟踪成本和使用情况待办事项列表SDK 中的插件

    API 中的 MCP

    MCP 连接器远程 MCP 服务器

    Claude 在第三方平台上

    Amazon BedrockVertex AI

    提示词工程

    概述提示词生成器使用提示模板提示词改进器保持清晰和直接使用示例(多示例提示)让 Claude 思考(思维链)使用XML标签给Claude分配角色(系统提示)预填充 Claude 的响应链式复杂提示长文本技巧扩展思考技巧

    测试与评估

    定义成功标准开发测试用例使用评估工具减少延迟

    加强防护措施

    减少幻觉提高输出一致性缓解越狱handle-streaming-refusals减少提示词泄露保持Claude的角色特征

    管理和监控

    Admin API 概述使用量和成本 APIClaude Code 分析 API
    Console
    测试与评估

    创建强有力的实证评估

    学习如何开发测试用例来衡量LLM性能,包括评估设计原则、示例评估和评分方法。

    在定义成功标准后,下一步是设计评估来衡量LLM相对于这些标准的性能。这是提示工程周期的重要组成部分。

    本指南重点介绍如何开发测试用例。

    构建评估和测试用例

    评估设计原则

    1. 针对特定任务:设计反映真实世界任务分布的评估。不要忘记考虑边缘情况!

    2. 尽可能自动化:构建允许自动评分的问题(例如,多选题、字符串匹配、代码评分、LLM评分)。
    3. 优先考虑数量而非质量:更多问题配合稍低信号的自动评分比更少问题配合高质量人工评分更好。

    评估示例

    手动编写数百个测试用例可能很困难!让Claude帮助您从基线示例测试用例集生成更多测试用例。
    如果您不知道哪些评估方法可能对评估您的成功标准有用,您也可以与Claude进行头脑风暴!

    评估评分

    在决定使用哪种方法对评估进行评分时,选择最快、最可靠、最可扩展的方法:

    1. 基于代码的评分:最快且最可靠,极其可扩展,但对于需要较少基于规则的严格性的更复杂判断缺乏细致入微。

      • 精确匹配:output == golden_answer
      • 字符串匹配:key_phrase in output
    2. 人工评分:最灵活且高质量,但缓慢且昂贵。如果可能请避免。

    3. 基于LLM的评分:快速且灵活,可扩展且适合复杂判断。首先测试以确保可靠性,然后扩展。

    基于LLM评分的技巧

    • 有详细、清晰的评分标准:"答案应该总是在第一句话中提到'Acme Inc.'。如果没有,答案自动被评为'不正确'。"
      给定的用例,甚至该用例的特定成功标准,可能需要多个评分标准进行全面评估。
    • 实证或具体:例如,指示LLM仅输出'正确'或'不正确',或从1-5的量表进行判断。纯定性评估很难快速大规模评估。
    • 鼓励推理:要求LLM在决定评估分数之前先思考,然后丢弃推理。这提高了评估性能,特别是对于需要复杂判断的任务。

    下一步

    头脑风暴评估

    学习如何制作最大化评估分数的提示。

    评估手册

    更多人工、代码和LLM评分评估的代码示例。

    • 基于LLM评分的技巧
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC