API 参考支持与配置

速率限制

为了减少滥用并管理 API 容量，我们对组织使用 Claude API 的程度设置了限制。

AWS 上的 Claude Platform： 本页面的速率限制适用。计费和支出限制有所不同：支出限制不可用，计费通过 AWS Marketplace 进行（而非 Anthropic 额度购买）。组织从 Tier 1 开始。速率限制的提升需通过您的 Anthropic 客户代表处理；没有自动层级晋升，也不提供按工作区配置速率限制的功能。快速模式在 AWS 上的 Claude Platform 中不可用。

限制分为两种类型：

支出限制设置组织每月在 API 使用上可产生的最高费用。
速率限制设置组织在规定时间段内可发出的 API 请求的最大数量。

API 在组织级别强制执行服务配置的限制，但您也可以为组织的工作区设置用户可配置的限制。

这些限制同时适用于标准层级和优先层级（Priority Tier）的使用。有关优先层级的更多信息（优先层级通过承诺支出换取更高的服务级别），请参阅服务层级。

关于速率限制

这些限制旨在防止 API 滥用，同时尽量减少对常见客户使用模式的影响。
限制按使用层级（usage tier）定义，每个层级对应一组不同的支出限制和速率限制。
当您在使用 API 时达到特定阈值，您的组织将自动提升层级。限制在组织级别设置。您可以在 Claude Console 的限制页面查看您组织的限制。
您可能会在更短的时间间隔内触发速率限制。例如，每分钟 60 个请求（RPM）的速率可能会按每秒 1 个请求的方式执行。短时间内的请求突发可能会超出限制并触发速率限制错误。
下面列出的限制是标准层级限制。如果您需要更高的自定义限制或优先层级以获得更高的服务级别，请在限制页面联系销售团队。
API 使用令牌桶算法进行速率限制。这意味着您的容量会持续补充至最大限制，而不是在固定时间间隔重置。
此处描述的所有限制均代表允许的最大使用量，而非保证的最小值。这些限制旨在减少意外超支，并确保资源在用户之间公平分配。

支出限制

每个使用层级对您每个日历月在 API 上的支出设有上限。一旦达到所在层级的支出限制，在您符合下一层级的条件之前，您必须等到下个月才能再次使用 API。

要符合下一层级的条件，您必须满足充值要求。为了最大限度地降低账户充值过多的风险，您的充值金额不能超过您的月度支出限制。

层级晋升要求

使用层级	额度购买	最大额度购买	月度支出限制
Tier 1	$5	$500	$500
Tier 2	$40	$500	$500
Tier 3	$200	$1,000	$1,000
Tier 4	$400	$200,000	$200,000
月度账单结算	不适用	不适用	无限制

额度购买显示晋升到该层级所需的累计额度购买金额（不含税）。达到阈值后您将立即晋升。

最大额度购买限制您在单笔交易中可向账户添加的最大金额，以防止账户充值过多。

月度支出限制是您在该层级每个日历月可在 API 上支出的最高金额。

提高您的支出限制

您的组织有两种支出限制：一种是您可直接控制的客户自设限制，另一种是由您的使用层级设定的层级强制上限。两者的提升流程不同。

客户自设支出限制

您可以设置低于所在层级上限的支出限制以控制成本。调整方法如下：

导航至限制页面
在 Claude Console 中前往设置 > 限制。
打开支出限制编辑器
在支出限制部分，点击更改限制（如果当前未设置限制，则点击设置支出限制）。
调整您的支出限制
输入新的数值。您的客户自设限制不能超过当前层级的限制。

层级强制支出限制

当您需要高于所在层级上限的限制时（Tier 4 的上限为每月 $200,000），请在限制页面点击联系销售。这将在新标签页中打开联系表单，当您的组织完成升级后，销售团队成员将通过电子邮件跟进。

月度账单结算完全取消月度支出上限，并默认采用 Net-30 付款条款。

支持团队也可以提高层级强制限制。如有紧急需求，请联系支持团队。

速率限制

Messages API 的速率限制针对每个模型类别，以每分钟请求数（RPM）、每分钟输入令牌数（ITPM）和每分钟输出令牌数（OTPM）来衡量。如果您超出任何速率限制，将收到 429 错误，其中描述了超出的是哪个速率限制，并附带一个 retry-after 标头指示需要等待的时长。

如果您的组织使用量急剧增加，您也可能因 API 的加速限制而遇到 429 错误。为避免触发加速限制，请逐步增加流量并保持一致的使用模式。

缓存感知的 ITPM

许多 API 提供商使用统一的"每分钟令牌数"（TPM）限制，该限制可能包含所有令牌，无论是缓存的还是未缓存的、输入的还是输出的。对于大多数 Claude 模型，只有未缓存的输入令牌才会计入您的 ITPM 速率限制。 这是一个关键优势，使得速率限制实际上比初看起来更高。

ITPM 速率限制在每个请求开始时进行估算，并在请求过程中根据实际使用的输入令牌数进行调整。

以下是计入 ITPM 的内容：

input_tokens（最后一个缓存断点之后的令牌）✓ 计入 ITPM
cache_creation_input_tokens（正在写入缓存的令牌）✓ 计入 ITPM
cache_read_input_tokens（从缓存读取的令牌）✗ 对于大多数模型不计入 ITPM

input_tokens 字段仅表示出现在最后一个缓存断点之后的令牌，而非请求中的所有输入令牌。要计算总输入令牌数：

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

这意味着当您有缓存内容时，input_tokens 通常会远小于您的总输入。例如，对于一个 200k 令牌的缓存文档和一个 50 令牌的用户问题，即使总输入为 200,050 个令牌，您看到的也会是 input_tokens: 50。

就大多数模型的速率限制而言，只有 input_tokens + cache_creation_input_tokens 会计入您的 ITPM 限制，这使得提示缓存成为提高有效吞吐量的有效方法。

示例：在 2,000,000 ITPM 限制和 80% 缓存命中率的情况下，您每分钟实际上可以处理 10,000,000 个总输入令牌（200 万未缓存 + 800 万缓存），因为缓存的令牌不计入您的速率限制。

Claude Haiku 3.5（在以下速率限制表中标有 †）也会将 cache_read_input_tokens 计入 ITPM 速率限制。

对于所有未标记 † 的模型，缓存的输入令牌不计入速率限制，并按较低费率计费（基础输入令牌价格的 10%）。这意味着通过使用提示缓存，您可以实现显著更高的有效吞吐量。

通过提示缓存最大化您的速率限制

要充分利用您的速率限制，请对重复内容使用提示缓存，例如：

系统指令和提示
大型上下文文档
工具定义
对话历史

通过有效的缓存，您可以在不提高速率限制的情况下显著提升实际吞吐量。在使用情况页面监控您的缓存命中率，以优化您的缓存策略。

OTPM 速率限制在生成输出令牌时实时评估，仅统计实际生成的令牌。max_tokens 参数不会纳入 OTPM 速率限制的计算，因此设置较高的 max_tokens 值不会对速率限制产生不利影响。

速率限制针对每个模型单独应用；因此您可以同时使用不同的模型，各自达到其相应的限制。您可以在 Claude Console 中查看当前的速率限制和行为，或使用速率限制 API 以编程方式读取已配置的限制。

速率限制目前在所有 inference_geo 值之间共享。使用 inference_geo: "us" 和 inference_geo: "global" 的请求从同一个速率限制池中扣除。

^{* - Opus 速率限制是一个总限制，适用于 Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5 和 Opus 4.1（已弃用）的合并流量。}

^{** - Sonnet 4.x 速率限制是一个总限制，适用于 Sonnet 4.6 和 Sonnet 4.5 的合并流量。}

^{† - 该限制将 cache_read_input_tokens 计入 ITPM 使用量。}

Message Batches API

Message Batches API 有自己的一套速率限制，在所有模型之间共享。这些限制包括针对所有 API 端点的每分钟请求数（RPM）限制，以及可同时处于处理队列中的批处理请求数量限制。此处的"批处理请求"是指消息批次（Message Batch）的一部分。您可以创建一个包含数千个批处理请求的消息批次，每个请求都会计入此限制。当批处理请求尚未被模型成功处理时，即被视为处于处理队列中。

托管智能体

Claude 托管智能体端点按组织进行速率限制。这些限制与上述 Messages API 速率限制相互独立。

操作	限制
创建端点（例如智能体、会话和环境）	每分钟 300 个请求
读取端点（例如检索、列出和流式传输）	每分钟 600 个请求

快速模式速率限制

在 Claude Opus 4.8、Opus 4.7 或 Opus 4.6 上使用带有 speed: "fast" 的快速模式（研究预览版）时，将应用专用的速率限制，这些限制与标准 Opus 速率限制相互独立。当超出快速模式速率限制时，API 会返回带有 retry-after 标头的 429 错误。

响应中包含 anthropic-fast-* 标头，用于指示您的快速模式速率限制状态。有关这些标头的详细信息，请参阅快速模式。

在 Console 中监控您的速率限制

您可以在 Claude Console 的使用情况页面监控您的速率限制使用情况。

除了提供令牌和请求图表外，使用情况页面还提供两个独立的速率限制图表。使用这些图表可以查看您还有多少增长空间、何时可能达到使用峰值、更好地了解应申请什么样的速率限制，或如何提高缓存率。这些图表可视化了给定速率限制（例如按模型）的多项指标：

速率限制 - 输入令牌图表包括：
- 每小时的每分钟未缓存输入令牌最大值
- 您当前的每分钟输入令牌速率限制
- 输入令牌的缓存率（即从缓存读取的输入令牌百分比）
速率限制 - 输出令牌图表包括：
- 每小时的每分钟输出令牌最大值
- 您当前的每分钟输出令牌速率限制

为工作区设置更低的限制

有关工作区的更多信息，请参阅工作区。

为了保护组织中的工作区免受潜在过度使用的影响，您可以为每个工作区设置自定义的支出限制和速率限制。

示例：如果您组织的限制是每分钟 40,000 个输入令牌和每分钟 8,000 个输出令牌，您可以将某个工作区限制为每分钟 30,000 个输入令牌。这可以保护其他工作区免受潜在过度使用的影响，并确保资源在整个组织中更公平地分配。剩余的每分钟未使用令牌（如果该工作区未用完限制，则会更多）随后可供其他工作区使用。

注意：

您无法为默认工作区设置限制。
如果未设置，工作区限制将与组织的限制相同。
工作区限制按限制器类型设置（例如每分钟请求数、每分钟输入令牌数或每分钟输出令牌数）。
组织范围的限制始终适用，即使各工作区限制的总和超过该限制。

要以编程方式读取当前的组织和工作区速率限制，请使用速率限制 API。

响应标头

API 响应包含标头，显示所执行的速率限制、当前使用情况以及限制何时重置。

返回的标头如下：

标头	描述
`retry-after`	在可以重试请求之前需要等待的秒数。更早的重试将会失败。
`anthropic-ratelimit-requests-limit`	在任何速率限制周期内允许的最大请求数。
`anthropic-ratelimit-requests-remaining`	在触发速率限制之前剩余的请求数。
`anthropic-ratelimit-requests-reset`	请求速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-tokens-limit`	在任何速率限制周期内允许的最大令牌数。
`anthropic-ratelimit-tokens-remaining`	在触发速率限制之前剩余的令牌数（四舍五入到最接近的千位）。
`anthropic-ratelimit-tokens-reset`	令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-input-tokens-limit`	在任何速率限制周期内允许的最大输入令牌数。
`anthropic-ratelimit-input-tokens-remaining`	在触发速率限制之前剩余的输入令牌数（四舍五入到最接近的千位）。
`anthropic-ratelimit-input-tokens-reset`	输入令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-output-tokens-limit`	在任何速率限制周期内允许的最大输出令牌数。
`anthropic-ratelimit-output-tokens-remaining`	在触发速率限制之前剩余的输出令牌数（四舍五入到最接近的千位）。
`anthropic-ratelimit-output-tokens-reset`	输出令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-priority-input-tokens-limit`	在任何速率限制周期内允许的最大优先层级输入令牌数。（仅限优先层级）
`anthropic-priority-input-tokens-remaining`	在触发速率限制之前剩余的优先层级输入令牌数（四舍五入到最接近的千位）。（仅限优先层级）
`anthropic-priority-input-tokens-reset`	优先层级输入令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。（仅限优先层级）
`anthropic-priority-output-tokens-limit`	在任何速率限制周期内允许的最大优先层级输出令牌数。（仅限优先层级）
`anthropic-priority-output-tokens-remaining`	在触发速率限制之前剩余的优先层级输出令牌数（四舍五入到最接近的千位）。（仅限优先层级）
`anthropic-priority-output-tokens-reset`	优先层级输出令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。（仅限优先层级）

anthropic-ratelimit-tokens-* 标头显示当前生效的最严格限制的值。例如，如果您已超出工作区的每分钟令牌限制，标头将包含工作区每分钟令牌速率限制的值。如果工作区限制不适用，标头将返回剩余的总令牌数，其中总数是输入令牌和输出令牌之和。这种方法确保您能够了解当前 API 使用中最相关的约束。

Was this page helpful?

API 参考支持与配置

速率限制

为了减少滥用并管理 API 容量，我们对组织使用 Claude API 的程度设置了限制。

限制分为两种类型：

支出限制设置组织每月在 API 使用上可产生的最高费用。
速率限制设置组织在规定时间段内可发出的 API 请求的最大数量。

API 在组织级别强制执行服务配置的限制，但您也可以为组织的工作区设置用户可配置的限制。

关于速率限制

这些限制旨在防止 API 滥用，同时尽量减少对常见客户使用模式的影响。
限制按使用层级（usage tier）定义，每个层级对应一组不同的支出限制和速率限制。
当您在使用 API 时达到特定阈值，您的组织将自动提升层级。限制在组织级别设置。您可以在 Claude Console 的限制页面查看您组织的限制。
您可能会在更短的时间间隔内触发速率限制。例如，每分钟 60 个请求（RPM）的速率可能会按每秒 1 个请求的方式执行。短时间内的请求突发可能会超出限制并触发速率限制错误。
下面列出的限制是标准层级限制。如果您需要更高的自定义限制或优先层级以获得更高的服务级别，请在限制页面联系销售团队。
API 使用令牌桶算法进行速率限制。这意味着您的容量会持续补充至最大限制，而不是在固定时间间隔重置。
此处描述的所有限制均代表允许的最大使用量，而非保证的最小值。这些限制旨在减少意外超支，并确保资源在用户之间公平分配。

支出限制

要符合下一层级的条件，您必须满足充值要求。为了最大限度地降低账户充值过多的风险，您的充值金额不能超过您的月度支出限制。

层级晋升要求

使用层级	额度购买	最大额度购买	月度支出限制
Tier 1	$5	$500	$500
Tier 2	$40	$500	$500
Tier 3	$200	$1,000	$1,000
Tier 4	$400	$200,000	$200,000
月度账单结算	不适用	不适用	无限制

额度购买显示晋升到该层级所需的累计额度购买金额（不含税）。达到阈值后您将立即晋升。

最大额度购买限制您在单笔交易中可向账户添加的最大金额，以防止账户充值过多。

月度支出限制是您在该层级每个日历月可在 API 上支出的最高金额。

提高您的支出限制

您的组织有两种支出限制：一种是您可直接控制的客户自设限制，另一种是由您的使用层级设定的层级强制上限。两者的提升流程不同。

客户自设支出限制

您可以设置低于所在层级上限的支出限制以控制成本。调整方法如下：

导航至限制页面
在 Claude Console 中前往设置 > 限制。
打开支出限制编辑器
在支出限制部分，点击更改限制（如果当前未设置限制，则点击设置支出限制）。
调整您的支出限制
输入新的数值。您的客户自设限制不能超过当前层级的限制。

层级强制支出限制

月度账单结算完全取消月度支出上限，并默认采用 Net-30 付款条款。

支持团队也可以提高层级强制限制。如有紧急需求，请联系支持团队。

速率限制

如果您的组织使用量急剧增加，您也可能因 API 的加速限制而遇到 429 错误。为避免触发加速限制，请逐步增加流量并保持一致的使用模式。

缓存感知的 ITPM

ITPM 速率限制在每个请求开始时进行估算，并在请求过程中根据实际使用的输入令牌数进行调整。

以下是计入 ITPM 的内容：

input_tokens（最后一个缓存断点之后的令牌）✓ 计入 ITPM
cache_creation_input_tokens（正在写入缓存的令牌）✓ 计入 ITPM
cache_read_input_tokens（从缓存读取的令牌）✗ 对于大多数模型不计入 ITPM

input_tokens 字段仅表示出现在最后一个缓存断点之后的令牌，而非请求中的所有输入令牌。要计算总输入令牌数：

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

就大多数模型的速率限制而言，只有 input_tokens + cache_creation_input_tokens 会计入您的 ITPM 限制，这使得提示缓存成为提高有效吞吐量的有效方法。

Claude Haiku 3.5（在以下速率限制表中标有 †）也会将 cache_read_input_tokens 计入 ITPM 速率限制。

通过提示缓存最大化您的速率限制

要充分利用您的速率限制，请对重复内容使用提示缓存，例如：

系统指令和提示
大型上下文文档
工具定义
对话历史

通过有效的缓存，您可以在不提高速率限制的情况下显著提升实际吞吐量。在使用情况页面监控您的缓存命中率，以优化您的缓存策略。

速率限制目前在所有 inference_geo 值之间共享。使用 inference_geo: "us" 和 inference_geo: "global" 的请求从同一个速率限制池中扣除。

^{* - Opus 速率限制是一个总限制，适用于 Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5 和 Opus 4.1（已弃用）的合并流量。}

^{** - Sonnet 4.x 速率限制是一个总限制，适用于 Sonnet 4.6 和 Sonnet 4.5 的合并流量。}

^{† - 该限制将 cache_read_input_tokens 计入 ITPM 使用量。}

Message Batches API

托管智能体

Claude 托管智能体端点按组织进行速率限制。这些限制与上述 Messages API 速率限制相互独立。

操作	限制
创建端点（例如智能体、会话和环境）	每分钟 300 个请求
读取端点（例如检索、列出和流式传输）	每分钟 600 个请求

快速模式速率限制

响应中包含 anthropic-fast-* 标头，用于指示您的快速模式速率限制状态。有关这些标头的详细信息，请参阅快速模式。

在 Console 中监控您的速率限制

您可以在 Claude Console 的使用情况页面监控您的速率限制使用情况。

速率限制 - 输入令牌图表包括：
- 每小时的每分钟未缓存输入令牌最大值
- 您当前的每分钟输入令牌速率限制
- 输入令牌的缓存率（即从缓存读取的输入令牌百分比）
速率限制 - 输出令牌图表包括：
- 每小时的每分钟输出令牌最大值
- 您当前的每分钟输出令牌速率限制

为工作区设置更低的限制

有关工作区的更多信息，请参阅工作区。

为了保护组织中的工作区免受潜在过度使用的影响，您可以为每个工作区设置自定义的支出限制和速率限制。

注意：

您无法为默认工作区设置限制。
如果未设置，工作区限制将与组织的限制相同。
工作区限制按限制器类型设置（例如每分钟请求数、每分钟输入令牌数或每分钟输出令牌数）。
组织范围的限制始终适用，即使各工作区限制的总和超过该限制。

要以编程方式读取当前的组织和工作区速率限制，请使用速率限制 API。

响应标头

API 响应包含标头，显示所执行的速率限制、当前使用情况以及限制何时重置。

返回的标头如下：

标头	描述
`retry-after`	在可以重试请求之前需要等待的秒数。更早的重试将会失败。
`anthropic-ratelimit-requests-limit`	在任何速率限制周期内允许的最大请求数。
`anthropic-ratelimit-requests-remaining`	在触发速率限制之前剩余的请求数。
`anthropic-ratelimit-requests-reset`	请求速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-tokens-limit`	在任何速率限制周期内允许的最大令牌数。
`anthropic-ratelimit-tokens-remaining`	在触发速率限制之前剩余的令牌数（四舍五入到最接近的千位）。
`anthropic-ratelimit-tokens-reset`	令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-input-tokens-limit`	在任何速率限制周期内允许的最大输入令牌数。
`anthropic-ratelimit-input-tokens-remaining`	在触发速率限制之前剩余的输入令牌数（四舍五入到最接近的千位）。
`anthropic-ratelimit-input-tokens-reset`	输入令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-ratelimit-output-tokens-limit`	在任何速率限制周期内允许的最大输出令牌数。
`anthropic-ratelimit-output-tokens-remaining`	在触发速率限制之前剩余的输出令牌数（四舍五入到最接近的千位）。
`anthropic-ratelimit-output-tokens-reset`	输出令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。
`anthropic-priority-input-tokens-limit`	在任何速率限制周期内允许的最大优先层级输入令牌数。（仅限优先层级）
`anthropic-priority-input-tokens-remaining`	在触发速率限制之前剩余的优先层级输入令牌数（四舍五入到最接近的千位）。（仅限优先层级）
`anthropic-priority-input-tokens-reset`	优先层级输入令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。（仅限优先层级）
`anthropic-priority-output-tokens-limit`	在任何速率限制周期内允许的最大优先层级输出令牌数。（仅限优先层级）
`anthropic-priority-output-tokens-remaining`	在触发速率限制之前剩余的优先层级输出令牌数（四舍五入到最接近的千位）。（仅限优先层级）
`anthropic-priority-output-tokens-reset`	优先层级输出令牌速率限制将完全补充的时间，以 RFC 3339 格式提供。（仅限优先层级）

Was this page helpful?

关于速率限制

支出限制

层级晋升要求

提高您的支出限制

客户自设支出限制

层级强制支出限制

速率限制

缓存感知的 ITPM

Message Batches API

托管智能体

快速模式速率限制

在 Console 中监控您的速率限制

为工作区设置更低的限制

响应标头

关于速率限制

支出限制

层级晋升要求

提高您的支出限制

客户自设支出限制

层级强制支出限制

速率限制

缓存感知的 ITPM

Message Batches API

托管智能体

快速模式速率限制

在 Console 中监控您的速率限制

为工作区设置更低的限制

响应标头

关于速率限制

支出限制

层级晋升要求

提高您的支出限制

客户自设支出限制

层级强制支出限制

速率限制

缓存感知的 ITPM

Message Batches API

托管智能体

快速模式速率限制

在 Console 中监控您的速率限制

为工作区设置更低的限制

响应标头

关于速率限制

支出限制

层级晋升要求

提高您的支出限制

客户自设支出限制

层级强制支出限制

速率限制

缓存感知的 ITPM

Message Batches API

托管智能体

快速模式速率限制

在 Console 中监控您的速率限制

为工作区设置更低的限制

响应标头