视觉
本指南介绍如何在 Claude 中使用图像,包括最佳实践、代码示例和需要注意的限制。
如何使用视觉功能
通过以下方式使用 Claude 的视觉功能:
- claude.ai。上传图像就像上传文件一样,或者直接将图像拖放到聊天窗口中。
- Console Workbench。如果您选择接受图像的模型(仅限 Claude 3 和 4 模型),则在每个用户消息块的右上角会出现添加图像的按钮。
- API 请求。请参阅本指南中的示例。
上传前
基础知识和限制
您可以在单个请求中包含多个图像(claude.ai 最多 20 个,API 请求最多 100 个)。Claude 在制定响应时将分析所有提供的图像。这对于比较或对比图像很有帮助。
如果您提交的图像大于 8000x8000 像素,将被拒绝。如果您在一个 API 请求中提交超过 20 个图像,此限制为 2000x2000 像素。
虽然 API 支持每个请求 100 个图像,但标准端点的请求大小限制为 32MB。
评估图像大小
为了获得最佳性能,我们建议在上传前调整过大的图像大小。如果您的图像长边超过 1568 像素,或您的图像超过约 1,600 个令牌,它将首先按比例缩小,保持宽高比,直到符合大小限制。
如果您的输入图像过大需要调整大小,这将增加首个令牌的时间的延迟,而不会为您提供任何额外的模型性能。任何边小于 200 像素的非常小的图像可能会降低性能。
为了改进首个令牌的时间,我们建议 将图像调整为不超过 1.15 兆像素(且在两个维度上都不超过 1568 像素)。
以下是我们的 API 接受的最大图像大小表,这些图像不会因常见宽高比而被调整大小。使用 Claude Sonnet 3.7 模型,这些图像使用约 1,600 个令牌,每 1K 张图像约花费 $4.80。
| 宽高比 | 图像大小 |
|---|---|
| 1 | 1092x1092 px |
| 3 | 951x1268 px |
| 2 | 896x1344 px |
| 9 | 819x1456 px |
| 1 | 784x1568 px |
计算图像成本
您在请求中包含的每个图像都计入您的令牌使用量。要计算近似成本,请将近似图像令牌数乘以您使用的模型的每令牌价格。
如果您的图像不需要调整大小,您可以通过此算法估计使用的令牌数:tokens = (width px * height px)/750
以下是基于 Claude Sonnet 3.7 每百万输入令牌 $3 的价格,在我们 API 的大小限制内不同图像大小的近似令牌化和成本示例:
| 图像大小 | 令牌数 | 每张图像成本 | 每 1K 张图像成本 |
|---|---|---|---|
| 200x200 px(0.04 兆像素) | ~54 | ~$0.00016 | ~$0.16 |
| 1000x1000 px(1 兆像素) | ~1334 | ~$0.004 | ~$4.00 |
| 1092x1092 px(1.19 兆像素) | ~1590 | ~$0.0048 | ~$4.80 |
确保图像质量
向 Claude 提供图像时,请记住以下几点以获得最佳结果:
- 图像格式:使用支持的图像格式:JPEG、PNG、GIF 或 WebP。
- 图像清晰度:确保图像清晰,不会太模糊或像素化。
- 文本:如果图像包含重要文本,请确保其清晰易读且不会太小。避免仅为了放大文本而裁剪关键视觉背景。
提示示例
许多适用于与 Claude 进行基于文本交互的提示技术也可以应用于基于图像的提示。
这些示例演示了涉及图像的最佳实践提示结构。
就像文档查询放置一样,Claude 在图像位于文本之前时效果最好。 放置在文本之后或与文本交错的图像仍然会表现良好,但如果您的用例允许, 我们建议采用先图像后文本的结构。
关于提示示例
以下示例演示了如何使用各种编程语言和方法使用 Claude 的视觉功能。您可以通过三种方式向 Claude 提供图像:
- 作为
image内容块中的 base64 编码图像 - 作为托管在线图像的 URL 引用
- 使用文件 API(上传一次,多次使用)
base64 示例提示使用这些变量:
# 对于基于 URL 的图像,您可以直接在 JSON 请求中使用 URL
# 对于 base64 编码的图像,您需要先对图像进行编码
# 如何在 bash 中将图像编码为 base64 的示例:
BASE64_IMAGE_DATA=$(curl -s "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg" | base64)
# 编码的数据现在可以在您的 API 调用中使用import base64
import httpx
# 对于 base64 编码的图像
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")
# 对于基于 URL 的图像,您可以直接在请求中使用 URLimport axios from 'axios';
// 对于 base64 编码的图像
async function getBase64Image(url: string): Promise<string> {
const response = await axios.get(url, { responseType: 'arraybuffer' });
return Buffer.from(response.data, 'binary').toString('base64');
}
// 用法
async function prepareImages() {
const imageData = await getBase64Image('https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg');
// 现在您可以在 API 调用中使用 imageData
}
// 对于基于 URL 的图像,您可以直接在请求中使用 URLimport java.io.IOException;
import java.util.Base64;
import java.io.InputStream;
import java.net.URL;
public class ImageHandlingExample {
public static void main(String[] args) throws IOException, InterruptedException {
// 对于 base64 编码的图像
String image1Url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg";
String image1MediaType = "image/jpeg";
String image1Data = downloadAndEncodeImage(image1Url);
String image2Url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg";
String image2MediaType = "image/jpeg";
String image2Data = downloadAndEncodeImage(image2Url);
// 对于基于 URL 的图像,您可以直接在请求中使用 URL
}
private static String downloadAndEncodeImage(String imageUrl) throws IOException {
try (InputStream inputStream = new URL(imageUrl).openStream()) {
return Base64.getEncoder().encodeToString(inputStream.readAllBytes());
}
}
}以下是如何使用 base64 编码的图像和 URL 引用在消息 API 请求中包含图像的示例:
Base64 编码图像示例
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-4-5",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": "'"$BASE64_IMAGE_DATA"'"
}
},
{
"type": "text",
"text": "Describe this image."
}
]
}
]
}'基于 URL 的图像示例
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-4-5",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "url",
"url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
}
},
{
"type": "text",
"text": "Describe this image."
}
]
}
]
}'文件 API 图像示例
对于您将重复使用的图像或想要避免编码开销的情况,请使用文件 API:
# 首先,将您的图像上传到文件 API
curl -X POST https://api.anthropic.com/v1/files \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: files-api-2025-04-14" \
-F "[email protected]"
# 然后在您的消息中使用返回的 file_id
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: files-api-2025-04-14" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-4-5",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "file",
"file_id": "file_abc123"
}
},
{
"type": "text",
"text": "Describe this image."
}
]
}
]
}'请参阅消息 API 示例了解更多示例代码和参数详情。
限制
虽然 Claude 的图像理解功能是最先进的,但需要注意一些限制:
- 人物识别:Claude 不能用于识别(即命名)图像中的人物,并将拒绝这样做。
- 准确性:Claude 在解释低质量、旋转或非常小的图像(小于 200 像素)时可能会产生幻觉或犯错误。
- 空间推理:Claude 的空间推理能力有限。它可能在需要精确定位或布局的任务中遇到困难,例如读取模拟时钟面或描述国际象棋棋子的确切位置。
- 计数:Claude 可以给出图像中对象的近似计数,但可能不总是精确准确,特别是对于大量小对象。
- AI 生成的图像:Claude 不知道图像是否是 AI 生成的,如果被问及可能会不正确。不要依赖它来检测虚假或合成图像。
- 不当内容:Claude 不会处理违反我们可接受使用政策的不当或露骨图像。
- 医疗保健应用:虽然 Claude 可以分析一般医学图像,但它不是为解释复杂的诊断扫描(如 CT 或 MRI)而设计的。Claude 的输出不应被视为专业医疗建议或诊断的替代品。
始终仔细审查和验证 Claude 的图像解释,特别是对于高风险用例。不要在没有人工监督的情况下使用 Claude 执行需要完美精度或敏感图像分析的任务。
常见问题
深入了解视觉
准备好开始使用 Claude 构建图像了吗?以下是一些有用的资源:
- 多模态食谱:此食谱包含有关开始使用图像和视觉最佳实践技术的提示,以确保图像的最高质量性能。了解如何有效地使用图像提示 Claude 来执行任务,例如解释和分析图表或从表单中提取内容。
- API 参考:访问我们的消息 API 文档,包括涉及图像的示例 API 调用。
如果您有任何其他问题,请随时联系我们的支持团队。您也可以加入我们的开发者社区与其他创作者联系并获得 Anthropic 专家的帮助。