此功能符合零数据保留(ZDR)的条件。当您的组织签订了 ZDR 协议时,通过此功能发送的数据在 API 响应返回后不会被存储。
您可以向 Claude 询问您提供的 PDF 中的任何文本、图片、图表和表格。一些示例用例:
Claude 可处理任何标准 PDF。请确保您的请求大小符合以下要求:
| 要求 | 限制 |
|---|---|
| 最大请求大小 | 32 MB(因平台而异) |
| 每个请求的最大页数 | 600(对于具有 20 万令牌上下文窗口的模型为 100) |
| 格式 | 标准 PDF(无密码/加密) |
这两个限制均针对整个请求负载,包括与 PDF 一起发送的任何其他内容。对于大型 PDF,建议使用 Files API 上传并通过 file_id 引用,以保持请求负载较小。
内容密集的 PDF(包含大量小字体页面、复杂表格或大量图形)可能在达到页数限制之前就填满上下文窗口。即使使用 Files API,包含大型 PDF 的请求也可能在达到页数限制之前失败。请尝试将文档拆分为多个部分;对于大文件,由于每个页面都作为图像处理,对嵌入的图像进行降采样也会有所帮助。
由于 PDF 支持依赖于 Claude 的视觉能力,因此它受到与其他视觉任务相同的限制和注意事项的约束。
PDF 支持可在 Claude API、AWS 上的 Claude Platform、Amazon Bedrock(参见 Amazon Bedrock PDF 支持)、Vertex AI 和 Microsoft Foundry 上使用。所有活跃模型均支持 PDF 处理。
通过 Bedrock 的 Converse API 使用 PDF 支持时,有两种不同的文档处理模式:
重要提示: 要在 Converse API 中访问 Claude 的完整视觉 PDF 理解能力,您必须启用引用(citations)。如果未启用引用,API 将回退到仅进行基本文本提取。了解更多关于使用引用的信息。
Converse 文档聊天(原始模式 - 仅文本提取)
Claude PDF 聊天(新模式 - 完整视觉理解)
如果在使用 Converse API 时 Claude 无法看到您 PDF 中的图像或图表,您可能需要启用引用标志。如果未启用,Converse 将回退到仅进行基本文本提取。
这是 Converse API 的一个已知限制。对于需要在不启用引用的情况下进行视觉 PDF 分析的应用程序,请考虑改用 InvokeModel API。
对于非 PDF 文件,如 .csv、.xlsx、.docx、.md 或 .txt 文件,请参阅处理其他文件格式。
让我们从一个使用 Messages API 的简单示例开始。您可以通过三种方式向 Claude 提供 PDF:
document 内容块中的 base64 编码 PDFfile_id在 Amazon Bedrock 和 Vertex AI 上,目前仅支持 base64 编码的来源。
最简单的方法是直接通过 URL 引用 PDF:
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "document",
"source": {
"type": "url",
"url": "https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf",
},
},
{"type": "text", "text": "What are the key findings in this document?"},
],
}
],
)
print(message.content)如果您需要从本地系统发送 PDF,或者当 URL 不可用时:
import base64
import httpx
# 首先,加载并编码 PDF
pdf_url = "https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf"
pdf_data = base64.standard_b64encode(httpx.get(pdf_url).content).decode("utf-8")
# 替代方案:从本地文件加载
# with open("document.pdf", "rb") as f:
# pdf_data = base64.standard_b64encode(f.read()).decode("utf-8")
# 使用 base64 编码发送给 Claude
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "document",
"source": {
"type": "base64",
"media_type": "application/pdf",
"data": pdf_data,
},
},
{"type": "text", "text": "What are the key findings in this document?"},
],
}
],
)
print(message.content)对于您将重复使用的 PDF,或者当您希望避免编码开销时,请使用 Files API:
client = anthropic.Anthropic()
# 上传 PDF 文件
with open("document.pdf", "rb") as f:
file_upload = client.beta.files.upload(file=("document.pdf", f, "application/pdf"))
# 在消息中使用已上传的文件
message = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
betas=["files-api-2025-04-14"],
messages=[
{
"role": "user",
"content": [
{
"type": "document",
"source": {"type": "file", "file_id": file_upload.id},
},
{"type": "text", "text": "What are the key findings in this document?"},
],
}
],
)
print(message.content)当您向 Claude 发送 PDF 时,会执行以下步骤:
系统提取文档的内容。
Claude 同时分析文本和图像,以更好地理解文档。
Claude 作出响应,并在相关时引用 PDF 的内容。
Claude 在响应时可以同时引用文本和视觉内容。您可以通过将 PDF 支持与以下功能集成来进一步提高性能:
PDF 文件的令牌数量取决于从文档中提取的总文本量以及页数:
您可以使用令牌计数来估算特定 PDF 的成本。
遵循以下最佳实践以获得最佳结果:
对于大批量处理,请考虑以下方法:
缓存 PDF 以提高重复查询的性能:
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
messages=[
{
"role": "user",
"content": [
{
"type": "document",
"source": {
"type": "base64",
"media_type": "application/pdf",
"data": pdf_data,
},
"cache_control": {"type": "ephemeral"},
},
{"type": "text", "text": "Analyze this document."},
],
}
],
)使用 Message Batches API 处理大批量工作流:
client = anthropic.Anthropic()
message_batch = client.messages.batches.create(
requests=[
{
"custom_id": "doc1",
"params": {
"model": "claude-opus-4-8",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": [
{
"type": "document",
"source": {
"type": "base64",
"media_type": "application/pdf",
"data": pdf_data,
},
},
{"type": "text", "text": "Summarize this document."},
],
}
],
},
}
]
)Was this page helpful?