Was this page helpful?
本指南介绍如何在 Claude 中处理图像,包括最佳实践、代码示例和需要注意的限制。
通过以下方式使用 Claude 的视觉功能:
您可以在单个请求中包含多个图像:claude.ai 最多 20 个,API 请求最多 600 个(对于具有 200k 令牌上下文窗口的模型为 100 个)。Claude 在制定响应时会分析所有提供的图像。这对于比较或对比图像很有帮助。
如果您提交的图像大于 8000x8000 像素,它将被拒绝。如果您在一个 API 请求中提交超过 20 个图像,此限制为 2000x2000 像素。
为了在不牺牲输出质量的情况下最小化延迟,如果图像太大,请在上传前调整其大小。在 Claude Opus 4.6、Claude Sonnet 4.6 和更早的模型上,如果您的图像长边超过 1568 像素,或您的图像超过约 1,600 个令牌,它首先会被缩小,保持宽高比,直到它在大小限制内。
如果您的输入图像太大需要调整大小,它会增加首个令牌的时间的延迟,对输出质量没有任何好处。任何边小于 200 像素的非常小的图像可能会降低输出质量。
对于 Claude Opus 4.7 之前的模型,为了改进首个令牌的时间,请考虑 将图像调整为不超过 1.15 百万像素(且在两个维度上都在 1568 像素内)。对于 Claude Opus 4.7,请参阅下面的Claude Opus 4.7 上的高分辨率图像支持。
Claude Opus 4.7 是第一个具有高分辨率图像支持的 Claude 模型。最大图像分辨率为长边 2576 像素(比之前模型的 1568 像素提高)。这为视觉密集型工作负载解锁了性能提升,对于计算机使用、屏幕截图理解和文档分析特别有价值。
高分辨率支持在 Claude Opus 4.7 上是自动的,不需要测试版标头或客户端选择加入。
令牌成本: Claude Opus 4.7 上的全分辨率图像可以使用比之前模型多约 3 倍的图像令牌(每个图像最多 4784 个令牌,相比之前的约 1,600 个令牌上限)。如果您不需要额外的保真度,在发送前对图像进行下采样以控制令牌成本。
坐标数学: 在 Claude Opus 4.7 上,模型返回的指向和边界框坐标与实际图像像素的比例为 1
,因此不需要进行比例因子转换。这简化了计算机使用、注释和本地化工作流。以下是 API 接受的最大图像大小表,这些图像不会因常见宽高比而被调整大小。使用 Claude Sonnet 4.6,这些图像使用约 1,600 个令牌,每 1k 个图像约 $4.80。
| 宽高比 | 图像大小 |
|---|---|
| 1:1 | 1092x1092 px |
| 3:4 | 951x1268 px |
| 2:3 | 896x1344 px |
| 9:16 | 819x1456 px |
| 1:2 | 784x1568 px |
您在请求中包含的每个图像都计入您的令牌使用量。要计算近似成本,请将近似图像令牌数乘以您使用的模型的每令牌价格。
如果您的图像不需要调整大小,您可以通过此算法估计使用的令牌数:tokens = (width px * height px)/750
以下是基于 Claude Sonnet 4.6 每令牌价格为每百万输入令牌 $3 的 API 大小限制内不同图像大小的近似令牌化和成本示例:
| 图像大小 | 令牌数 | 每个图像成本 | 每 1k 个图像成本 |
|---|---|---|---|
| 200x200 px(0.04 百万像素) | ~54 | ~$0.00016 | ~$0.16 |
| 1000x1000 px(1 百万像素) | ~1334 | ~$0.004 | ~$4.00 |
| 1092x1092 px(1.19 百万像素) | ~1590 | ~$0.0048 | ~$4.80 |
向 Claude 提供图像时,请记住以下几点以获得最佳结果:
许多提示技术对于与 Claude 的基于文本的交互效果很好,也可以应用于基于图像的提示。
这些示例演示了涉及图像的最佳实践提示结构。
就像在查询前放置长文档改进文本提示中的结果一样,Claude 在图像位于文本之前时效果最好。放在文本之后或与文本交错的图像仍然表现良好,但如果您的用例允许,请优先使用图像-然后-文本结构。
以下示例演示了如何使用各种编程语言和方法使用 Claude 的视觉功能。您可以通过三种方式向 Claude 提供图像:
image 内容块中的 base64 编码图像base64 示例提示使用这些变量:
以下是如何使用 base64 编码图像和 URL 引用在 Messages API 请求中包含图像的示例:
对于您会重复使用的图像或想要避免编码开销的情况,请使用 Files API。上传一次图像,然后在后续消息中引用返回的 file_id,而不是重新发送 base64 数据。
在多轮对话和代理工作流中,每个请求都会重新发送完整的对话历史。如果图像是 base64 编码的,完整的图像字节会包含在每一轮的有效负载中,这会随着对话的增长而显著增加请求大小和延迟。将图像上传到 Files API 并通过 file_id 引用它们可以保持请求有效负载较小,无论对话历史中积累了多少图像。
有关更多示例代码和参数详情,请参阅 Messages API 示例。
虽然 Claude 的图像理解能力处于最前沿,但需要注意一些限制:
始终仔细审查和验证 Claude 的图像解释,特别是对于高风险用例。不要在没有人工监督的情况下使用 Claude 执行需要完美精度或敏感图像分析的任务。
准备好开始使用 Claude 构建图像了吗?以下是一些有用的资源:
如果您有任何其他问题,请联系 支持团队。您也可以加入 开发者社区 与其他创作者联系并获得 Anthropic 专家的帮助。
import base64
import httpx
# 对于 base64 编码的图像
image1_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image1_media_type = "image/jpeg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/b/b5/Iridescent.green.sweat.bee1.jpg"
image2_media_type = "image/jpeg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")
# 对于基于 URL 的图像,您可以直接在请求中使用 URLimage1_data = "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAIAAACQd1PeAAAADElEQVR4nGP4z8AAAAMBAQDJ/pLvAAAAAElFTkSuQmCC"
image1_media_type = "image/png"
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-7",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": image1_media_type,
"data": image1_data,
},
},
{"type": "text", "text": "Describe this image."},
],
}
],
)
print(message)client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-7",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "url",
"url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg",
},
},
{"type": "text", "text": "Describe this image."},
],
}
],
)
print(message)client = anthropic.Anthropic()
# 上传图像文件
with open("image.jpg", "rb") as f:
file_upload = client.beta.files.upload(file=("image.jpg", f, "image/jpeg"))
# 在消息中使用上传的文件
message = client.beta.messages.create(
model="claude-opus-4-7",
max_tokens=1024,
betas=["files-api-2025-04-14"],
messages=[
{
"role": "user",
"content": [
{
"type": "image",
"source": {"type": "file", "file_id": file_upload.id},
},
{"type": "text", "text": "Describe this image."},
],
}
],
)
print(message.content)