Loading...
    • 开发者指南
    • API 参考
    • MCP
    • 资源
    • 更新日志
    Search...
    ⌘K
    入门
    Claude 简介快速开始
    模型与定价
    模型概览选择模型Claude 4.6 新特性迁移指南模型弃用定价
    使用 Claude 构建
    功能概览使用 Messages API处理停止原因提示词最佳实践
    上下文管理
    上下文窗口压缩上下文编辑
    能力
    提示缓存扩展思考自适应思考推理力度流式消息批量处理引用多语言支持Token 计数嵌入视觉PDF 支持Files API搜索结果结构化输出
    工具
    概览如何实现工具使用细粒度工具流式传输Bash 工具代码执行工具程序化工具调用计算机使用工具文本编辑器工具网页抓取工具网页搜索工具记忆工具工具搜索工具
    Agent Skills
    概览快速开始最佳实践企业级 Skills通过 API 使用 Skills
    Agent SDK
    概览快速开始TypeScript SDKTypeScript V2(预览版)Python SDK迁移指南
    API 中的 MCP
    MCP 连接器远程 MCP 服务器
    第三方平台上的 Claude
    Amazon BedrockMicrosoft FoundryVertex AI
    提示工程
    概览提示词生成器使用提示词模板提示词优化器清晰直接使用示例(多样本提示)让 Claude 思考(思维链)使用 XML 标签赋予 Claude 角色(系统提示词)链式复杂提示长上下文技巧扩展思考技巧
    测试与评估
    定义成功标准开发测试用例使用评估工具降低延迟
    加强安全护栏
    减少幻觉提高输出一致性防范越狱攻击流式拒绝减少提示词泄露保持 Claude 角色设定
    管理与监控
    Admin API 概览数据驻留工作空间用量与成本 APIClaude Code Analytics API零数据留存
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    能力

    视觉

    Claude 的视觉功能使其能够理解和分析图像,为多模态交互开辟了令人兴奋的可能性。

    本指南介绍了如何在 Claude 中处理图像,包括最佳实践、代码示例以及需要注意的限制。


    如何使用视觉功能

    通过以下方式使用 Claude 的视觉功能:

    • claude.ai。像上传文件一样上传图像,或直接将图像拖放到聊天窗口中。
    • Console 工作台。每个用户消息块的右上角都有一个添加图像的按钮。
    • API 请求。请参阅本指南中的示例。

    上传之前

    基础知识和限制

    您可以在单个请求中包含多张图像(claude.ai 最多 20 张,API 请求最多 100 张)。Claude 在生成响应时会分析所有提供的图像。这对于比较或对比图像非常有帮助。

    如果您提交的图像大于 8000x8000 像素,将会被拒绝。如果您在一个 API 请求中提交超过 20 张图像,此限制为 2000x2000 像素。

    虽然 API 支持每个请求 100 张图像,但标准端点有 32MB 请求大小限制。

    评估图像大小

    为了获得最佳性能,如果图像太大,我们建议在上传前调整图像大小。如果图像的长边超过 1568 像素,或图像超过约 1,600 个 token,它将首先被缩小(保持宽高比),直到符合大小限制。

    如果您的输入图像太大需要调整大小,这将增加首个 token 响应时间的延迟,而不会带来任何额外的模型性能提升。任何边小于 200 像素的极小图像可能会降低性能。

    为了改善首个 token 响应时间,我们建议 将图像调整为不超过 1.15 百万像素(且两个维度均在 1568 像素以内)。

    以下是我们 API 接受的常见宽高比的最大图像尺寸表,这些尺寸不会被调整大小。使用 Claude Opus 4.6 时,这些图像大约使用 1,600 个 token,费用约为 $4.80/1K 张图像。

    宽高比图像尺寸
    1:11092x1092 px
    3:4951x1268 px
    2:3896x1344 px
    9:16819x1456 px
    1:2784x1568 px

    计算图像成本

    您在请求中包含的每张图像都会计入您的 token 使用量。要计算大致成本,请将图像 token 的大致数量乘以您所使用模型的每 token 价格。

    如果您的图像不需要调整大小,您可以通过以下算法估算使用的 token 数量:tokens = (width px * height px)/750

    以下是基于 Claude Opus 4.6 每百万输入 token $3 的价格,在我们 API 大小限制内不同图像尺寸的大致 token 化和成本示例:

    图像尺寸Token 数量每张图像成本每 1K 张图像成本
    200x200 px(0.04 百万像素)~54~$0.00016~$0.16
    1000x1000 px(1 百万像素)~1334~$0.004~$4.00
    1092x1092 px(1.19 百万像素)~1590~$0.0048~$4.80

    确保图像质量

    向 Claude 提供图像时,请注意以下几点以获得最佳效果:

    • 图像格式:使用支持的图像格式:JPEG、PNG、GIF 或 WebP。
    • 图像清晰度:确保图像清晰,不要太模糊或像素化。
    • 文本:如果图像包含重要文本,请确保文本清晰可读且不要太小。避免为了放大文本而裁剪掉关键的视觉上下文。

    提示词示例

    许多适用于与 Claude 进行文本交互的提示词技巧也可以应用于基于图像的提示词。

    这些示例展示了涉及图像的最佳实践提示词结构。

    与文档查询的放置方式类似,当图像放在文本之前时,Claude 的表现最佳。将图像放在文本之后或与文本交错放置仍然会有良好的表现,但如果您的用例允许,我们建议采用先图像后文本的结构。

    关于提示词示例

    以下示例演示了如何使用各种编程语言和方法来使用 Claude 的视觉功能。您可以通过三种方式向 Claude 提供图像:

    1. 在 image 内容块中作为 base64 编码的图像
    2. 作为在线托管图像的 URL 引用
    3. 使用 Files API(上传一次,多次使用)

    base64 示例提示词使用以下变量:

        # 对于基于 URL 的图像,您可以直接在 JSON 请求中使用 URL
        
        # 对于 base64 编码的图像,您需要先对图像进行编码
        # 在 bash 中将图像编码为 base64 的示例:
        BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
        
        # 编码后的数据现在可以在您的 API 调用中使用

    以下是如何在 Messages API 请求中使用 base64 编码图像和 URL 引用包含图像的示例:

    Base64 编码图像示例

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "base64",
                  "media_type": "image/jpeg",
                  "data": "'"$BASE64_IMAGE_DATA"'"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'

    基于 URL 的图像示例

    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "url",
                  "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'

    Files API 图像示例

    对于需要重复使用的图像或希望避免编码开销的情况,请使用 Files API:

    # 首先,将图像上传到 Files API
    curl -X POST https://api.anthropic.com/v1/files \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: files-api-2025-04-14" \
      -F "[email protected]"
    
    # 然后在消息中使用返回的 file_id
    curl https://api.anthropic.com/v1/messages \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: files-api-2025-04-14" \
      -H "content-type: application/json" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "messages": [
          {
            "role": "user",
            "content": [
              {
                "type": "image",
                "source": {
                  "type": "file",
                  "file_id": "file_abc123"
                }
              },
              {
                "type": "text",
                "text": "Describe this image."
              }
            ]
          }
        ]
      }'

    请参阅 Messages API 示例了解更多示例代码和参数详情。


    限制

    虽然 Claude 的图像理解能力处于前沿水平,但仍有一些需要注意的限制:

    • 人物识别:Claude 不能用于识别(即命名)图像中的人物,并且会拒绝这样做。
    • 准确性:Claude 在解读低质量、旋转或小于 200 像素的极小图像时可能会产生幻觉或犯错。
    • 空间推理:Claude 的空间推理能力有限。它可能在需要精确定位或布局的任务上遇到困难,例如读取模拟时钟表面或描述棋子的确切位置。
    • 计数:Claude 可以给出图像中物体的大致数量,但可能并不总是精确准确的,特别是对于大量小物体。
    • AI 生成的图像:Claude 不知道图像是否由 AI 生成,如果被问到可能会给出错误答案。不要依赖它来检测伪造或合成图像。
    • 不当内容:Claude 不会处理违反我们可接受使用政策的不当或露骨图像。
    • 医疗保健应用:虽然 Claude 可以分析一般的医学图像,但它并非设计用于解读复杂的诊断扫描,如 CT 或 MRI。Claude 的输出不应被视为专业医疗建议或诊断的替代品。

    请始终仔细审查和验证 Claude 的图像解读,特别是对于高风险用例。不要在没有人工监督的情况下将 Claude 用于需要完美精度或敏感图像分析的任务。


    常见问题


    深入了解视觉功能

    准备好使用 Claude 的图片功能开始构建了吗?以下是一些有用的资源:

    • 多模态手册:该手册包含图片入门和最佳实践技巧,以确保图片处理的最高质量表现。了解如何有效地使用图片提示 Claude 来执行任务,例如解读和分析图表或从表单中提取内容。
    • API 参考:访问我们的 Messages API 文档,包括涉及图片的 API 调用示例。

    如果您有任何其他问题,请随时联系我们的支持团队。您也可以加入我们的开发者社区,与其他创作者交流并获得 Anthropic 专家的帮助。

    Was this page helpful?

    • Base64 编码图像示例
    • 基于 URL 的图像示例
    • Files API 图像示例