AWS 上的 Claude Platform: 本页面的速率限制适用。计费和支出限制有所不同:支出限制不可用,计费通过 AWS Marketplace 进行(而非 Anthropic 额度购买)。组织从 Tier 1 开始。速率限制的提升需通过您的 Anthropic 客户代表处理;没有自动层级晋升,也不提供按工作区配置速率限制的功能。快速模式在 AWS 上的 Claude Platform 中不可用。
限制分为两种类型:
API 在组织级别强制执行服务配置的限制,但您也可以为组织的工作区设置用户可配置的限制。
这些限制同时适用于标准层级和优先层级(Priority Tier)的使用。有关优先层级的更多信息(优先层级通过承诺支出换取更高的服务级别),请参阅服务层级。
每个使用层级对您每个日历月在 API 上的支出设有上限。一旦达到所在层级的支出限制,在您符合下一层级的条件之前,您必须等到下个月才能再次使用 API。
要符合下一层级的条件,您必须满足充值要求。为了最大限度地降低账户充值过多的风险,您的充值金额不能超过您的月度支出限制。
| 使用层级 | 额度购买 | 最大额度购买 | 月度支出限制 |
|---|---|---|---|
| Tier 1 | $5 | $500 | $500 |
| Tier 2 | $40 | $500 | $500 |
| Tier 3 | $200 | $1,000 | $1,000 |
| Tier 4 | $400 | $200,000 | $200,000 |
| 月度账单结算 | 不适用 | 不适用 | 无限制 |
额度购买显示晋升到该层级所需的累计额度购买金额(不含税)。达到阈值后您将立即晋升。
最大额度购买限制您在单笔交易中可向账户添加的最大金额,以防止账户充值过多。
月度支出限制是您在该层级每个日历月可在 API 上支出的最高金额。
您的组织有两种支出限制:一种是您可直接控制的客户自设限制,另一种是由您的使用层级设定的层级强制上限。两者的提升流程不同。
您可以设置低于所在层级上限的支出限制以控制成本。调整方法如下:
导航至限制页面
在 Claude Console 中前往设置 > 限制。
打开支出限制编辑器
在支出限制部分,点击更改限制(如果当前未设置限制,则点击设置支出限制)。
调整您的支出限制
输入新的数值。您的客户自设限制不能超过当前层级的限制。
当您需要高于所在层级上限的限制时(Tier 4 的上限为每月 $200,000),请在限制页面点击联系销售。这将在新标签页中打开联系表单,当您的组织完成升级后,销售团队成员将通过电子邮件跟进。
月度账单结算完全取消月度支出上限,并默认采用 Net-30 付款条款。
支持团队也可以提高层级强制限制。如有紧急需求,请联系支持团队。
Messages API 的速率限制针对每个模型类别,以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)来衡量。
如果您超出任何速率限制,将收到 429 错误,其中描述了超出的是哪个速率限制,并附带一个 retry-after 标头指示需要等待的时长。
如果您的组织使用量急剧增加,您也可能因 API 的加速限制而遇到 429 错误。为避免触发加速限制,请逐步增加流量并保持一致的使用模式。
许多 API 提供商使用统一的"每分钟令牌数"(TPM)限制,该限制可能包含所有令牌,无论是缓存的还是未缓存的、输入的还是输出的。对于大多数 Claude 模型,只有未缓存的输入令牌才会计入您的 ITPM 速率限制。 这是一个关键优势,使得速率限制实际上比初看起来更高。
ITPM 速率限制在每个请求开始时进行估算,并在请求过程中根据实际使用的输入令牌数进行调整。
以下是计入 ITPM 的内容:
input_tokens(最后一个缓存断点之后的令牌)✓ 计入 ITPMcache_creation_input_tokens(正在写入缓存的令牌)✓ 计入 ITPMcache_read_input_tokens(从缓存读取的令牌)✗ 对于大多数模型不计入 ITPMinput_tokens 字段仅表示出现在最后一个缓存断点之后的令牌,而非请求中的所有输入令牌。要计算总输入令牌数:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens这意味着当您有缓存内容时,input_tokens 通常会远小于您的总输入。例如,对于一个 200k 令牌的缓存文档和一个 50 令牌的用户问题,即使总输入为 200,050 个令牌,您看到的也会是 input_tokens: 50。
就大多数模型的速率限制而言,只有 input_tokens + cache_creation_input_tokens 会计入您的 ITPM 限制,这使得提示缓存成为提高有效吞吐量的有效方法。
示例:在 2,000,000 ITPM 限制和 80% 缓存命中率的情况下,您每分钟实际上可以处理 10,000,000 个总输入令牌(200 万未缓存 + 800 万缓存),因为缓存的令牌不计入您的速率限制。
Claude Haiku 3.5(在以下速率限制表中标有 †)也会将 cache_read_input_tokens 计入 ITPM 速率限制。
对于所有未标记 † 的模型,缓存的输入令牌不计入速率限制,并按较低费率计费(基础输入令牌价格的 10%)。这意味着通过使用提示缓存,您可以实现显著更高的有效吞吐量。
OTPM 速率限制在生成输出令牌时实时评估,仅统计实际生成的令牌。max_tokens 参数不会纳入 OTPM 速率限制的计算,因此设置较高的 max_tokens 值不会对速率限制产生不利影响。
速率限制针对每个模型单独应用;因此您可以同时使用不同的模型,各自达到其相应的限制。 您可以在 Claude Console 中查看当前的速率限制和行为,或使用速率限制 API 以编程方式读取已配置的限制。
速率限制目前在所有 inference_geo 值之间共享。使用 inference_geo: "us" 和 inference_geo: "global" 的请求从同一个速率限制池中扣除。
* - Opus 速率限制是一个总限制,适用于 Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5 和 Opus 4.1(已弃用)的合并流量。
** - Sonnet 4.x 速率限制是一个总限制,适用于 Sonnet 4.6 和 Sonnet 4.5 的合并流量。
† - 该限制将 cache_read_input_tokens 计入 ITPM 使用量。
Message Batches API 有自己的一套速率限制,在所有模型之间共享。这些限制包括针对所有 API 端点的每分钟请求数(RPM)限制,以及可同时处于处理队列中的批处理请求数量限制。此处的"批处理请求"是指消息批次(Message Batch)的一部分。您可以创建一个包含数千个批处理请求的消息批次,每个请求都会计入此限制。当批处理请求尚未被模型成功处理时,即被视为处于处理队列中。
Claude 托管智能体端点按组织进行速率限制。这些限制与上述 Messages API 速率限制相互独立。
| 操作 | 限制 |
|---|---|
| 创建端点(例如智能体、会话和环境) | 每分钟 300 个请求 |
| 读取端点(例如检索、列出和流式传输) | 每分钟 600 个请求 |
在 Claude Opus 4.8、Opus 4.7 或 Opus 4.6 上使用带有 speed: "fast" 的快速模式(研究预览版)时,将应用专用的速率限制,这些限制与标准 Opus 速率限制相互独立。当超出快速模式速率限制时,API 会返回带有 retry-after 标头的 429 错误。
响应中包含 anthropic-fast-* 标头,用于指示您的快速模式速率限制状态。有关这些标头的详细信息,请参阅快速模式。
您可以在 Claude Console 的使用情况页面监控您的速率限制使用情况。
除了提供令牌和请求图表外,使用情况页面还提供两个独立的速率限制图表。使用这些图表可以查看您还有多少增长空间、何时可能达到使用峰值、更好地了解应申请什么样的速率限制,或如何提高缓存率。这些图表可视化了给定速率限制(例如按模型)的多项指标:
有关工作区的更多信息,请参阅工作区。
为了保护组织中的工作区免受潜在过度使用的影响,您可以为每个工作区设置自定义的支出限制和速率限制。
示例:如果您组织的限制是每分钟 40,000 个输入令牌和每分钟 8,000 个输出令牌,您可以将某个工作区限制为每分钟 30,000 个输入令牌。这可以保护其他工作区免受潜在过度使用的影响,并确保资源在整个组织中更公平地分配。剩余的每分钟未使用令牌(如果该工作区未用完限制,则会更多)随后可供其他工作区使用。
注意:
要以编程方式读取当前的组织和工作区速率限制,请使用速率限制 API。
API 响应包含标头,显示所执行的速率限制、当前使用情况以及限制何时重置。
返回的标头如下:
| 标头 | 描述 |
|---|---|
retry-after | 在可以重试请求之前需要等待的秒数。更早的重试将会失败。 |
anthropic-ratelimit-requests-limit | 在任何速率限制周期内允许的最大请求数。 |
anthropic-ratelimit-requests-remaining | 在触发速率限制之前剩余的请求数。 |
anthropic-ratelimit-requests-reset | 请求速率限制将完全补充的时间,以 RFC 3339 格式提供。 |
anthropic-ratelimit-tokens-limit | 在任何速率限制周期内允许的最大令牌数。 |
anthropic-ratelimit-tokens-remaining | 在触发速率限制之前剩余的令牌数(四舍五入到最接近的千位)。 |
anthropic-ratelimit-tokens-reset | 令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。 |
anthropic-ratelimit-input-tokens-limit | 在任何速率限制周期内允许的最大输入令牌数。 |
anthropic-ratelimit-input-tokens-remaining | 在触发速率限制之前剩余的输入令牌数(四舍五入到最接近的千位)。 |
anthropic-ratelimit-input-tokens-reset | 输入令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。 |
anthropic-ratelimit-output-tokens-limit | 在任何速率限制周期内允许的最大输出令牌数。 |
anthropic-ratelimit-output-tokens-remaining | 在触发速率限制之前剩余的输出令牌数(四舍五入到最接近的千位)。 |
anthropic-ratelimit-output-tokens-reset | 输出令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。 |
anthropic-priority-input-tokens-limit | 在任何速率限制周期内允许的最大优先层级输入令牌数。(仅限优先层级) |
anthropic-priority-input-tokens-remaining | 在触发速率限制之前剩余的优先层级输入令牌数(四舍五入到最接近的千位)。(仅限优先层级) |
anthropic-priority-input-tokens-reset | 优先层级输入令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。(仅限优先层级) |
anthropic-priority-output-tokens-limit | 在任何速率限制周期内允许的最大优先层级输出令牌数。(仅限优先层级) |
anthropic-priority-output-tokens-remaining | 在触发速率限制之前剩余的优先层级输出令牌数(四舍五入到最接近的千位)。(仅限优先层级) |
anthropic-priority-output-tokens-reset | 优先层级输出令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。(仅限优先层级) |
anthropic-ratelimit-tokens-* 标头显示当前生效的最严格限制的值。例如,如果您已超出工作区的每分钟令牌限制,标头将包含工作区每分钟令牌速率限制的值。如果工作区限制不适用,标头将返回剩余的总令牌数,其中总数是输入令牌和输出令牌之和。这种方法确保您能够了解当前 API 使用中最相关的约束。
Was this page helpful?