Claude Platform Docs
  • 消息
  • 托管智能体
  • 管理

Search...
⌘K

Log in
速率限制
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
API 参考/支持与配置

速率限制

为了减少滥用并管理 API 容量,我们对组织使用 Claude API 的程度设置了限制。


AWS 上的 Claude Platform: 本页面的速率限制适用。计费和支出限制有所不同:支出限制不可用,计费通过 AWS Marketplace 进行(而非 Anthropic 额度购买)。组织从 Tier 1 开始。速率限制的提升需通过您的 Anthropic 客户代表处理;没有自动层级晋升,也不提供按工作区配置速率限制的功能。快速模式在 AWS 上的 Claude Platform 中不可用。

限制分为两种类型:

  1. 支出限制设置组织每月在 API 使用上可产生的最高费用。
  2. 速率限制设置组织在规定时间段内可发出的 API 请求的最大数量。

API 在组织级别强制执行服务配置的限制,但您也可以为组织的工作区设置用户可配置的限制。

这些限制同时适用于标准层级和优先层级(Priority Tier)的使用。有关优先层级的更多信息(优先层级通过承诺支出换取更高的服务级别),请参阅服务层级。

关于速率限制

  • 这些限制旨在防止 API 滥用,同时尽量减少对常见客户使用模式的影响。
  • 限制按使用层级(usage tier)定义,每个层级对应一组不同的支出限制和速率限制。
  • 当您在使用 API 时达到特定阈值,您的组织将自动提升层级。 限制在组织级别设置。您可以在 Claude Console 的限制页面查看您组织的限制。
  • 您可能会在更短的时间间隔内触发速率限制。例如,每分钟 60 个请求(RPM)的速率可能会按每秒 1 个请求的方式执行。短时间内的请求突发可能会超出限制并触发速率限制错误。
  • 下面列出的限制是标准层级限制。如果您需要更高的自定义限制或优先层级以获得更高的服务级别,请在限制页面联系销售团队。
  • API 使用令牌桶算法进行速率限制。这意味着您的容量会持续补充至最大限制,而不是在固定时间间隔重置。
  • 此处描述的所有限制均代表允许的最大使用量,而非保证的最小值。这些限制旨在减少意外超支,并确保资源在用户之间公平分配。

支出限制

每个使用层级对您每个日历月在 API 上的支出设有上限。一旦达到所在层级的支出限制,在您符合下一层级的条件之前,您必须等到下个月才能再次使用 API。

要符合下一层级的条件,您必须满足充值要求。为了最大限度地降低账户充值过多的风险,您的充值金额不能超过您的月度支出限制。

层级晋升要求

使用层级额度购买最大额度购买月度支出限制
Tier 1$5$500$500
Tier 2$40$500$500
Tier 3$200$1,000$1,000
Tier 4$400$200,000$200,000
月度账单结算不适用不适用无限制


额度购买显示晋升到该层级所需的累计额度购买金额(不含税)。达到阈值后您将立即晋升。

最大额度购买限制您在单笔交易中可向账户添加的最大金额,以防止账户充值过多。

月度支出限制是您在该层级每个日历月可在 API 上支出的最高金额。

提高您的支出限制

您的组织有两种支出限制:一种是您可直接控制的客户自设限制,另一种是由您的使用层级设定的层级强制上限。两者的提升流程不同。

客户自设支出限制

您可以设置低于所在层级上限的支出限制以控制成本。调整方法如下:

  1. 1

    导航至限制页面

    在 Claude Console 中前往设置 > 限制。

  2. 2

    打开支出限制编辑器

    在支出限制部分,点击更改限制(如果当前未设置限制,则点击设置支出限制)。

  3. 3

    调整您的支出限制

    输入新的数值。您的客户自设限制不能超过当前层级的限制。

层级强制支出限制

当您需要高于所在层级上限的限制时(Tier 4 的上限为每月 $200,000),请在限制页面点击联系销售。这将在新标签页中打开联系表单,当您的组织完成升级后,销售团队成员将通过电子邮件跟进。

月度账单结算完全取消月度支出上限,并默认采用 Net-30 付款条款。



支持团队也可以提高层级强制限制。如有紧急需求,请联系支持团队。

速率限制

Messages API 的速率限制针对每个模型类别,以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)来衡量。 如果您超出任何速率限制,将收到 429 错误,其中描述了超出的是哪个速率限制,并附带一个 retry-after 标头指示需要等待的时长。



如果您的组织使用量急剧增加,您也可能因 API 的加速限制而遇到 429 错误。为避免触发加速限制,请逐步增加流量并保持一致的使用模式。

缓存感知的 ITPM

许多 API 提供商使用统一的"每分钟令牌数"(TPM)限制,该限制可能包含所有令牌,无论是缓存的还是未缓存的、输入的还是输出的。对于大多数 Claude 模型,只有未缓存的输入令牌才会计入您的 ITPM 速率限制。 这是一个关键优势,使得速率限制实际上比初看起来更高。

ITPM 速率限制在每个请求开始时进行估算,并在请求过程中根据实际使用的输入令牌数进行调整。

以下是计入 ITPM 的内容:

  • input_tokens(最后一个缓存断点之后的令牌)✓ 计入 ITPM
  • cache_creation_input_tokens(正在写入缓存的令牌)✓ 计入 ITPM
  • cache_read_input_tokens(从缓存读取的令牌)✗ 对于大多数模型不计入 ITPM


input_tokens 字段仅表示出现在最后一个缓存断点之后的令牌,而非请求中的所有输入令牌。要计算总输入令牌数:

total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

这意味着当您有缓存内容时,input_tokens 通常会远小于您的总输入。例如,对于一个 200k 令牌的缓存文档和一个 50 令牌的用户问题,即使总输入为 200,050 个令牌,您看到的也会是 input_tokens: 50。

就大多数模型的速率限制而言,只有 input_tokens + cache_creation_input_tokens 会计入您的 ITPM 限制,这使得提示缓存成为提高有效吞吐量的有效方法。

示例:在 2,000,000 ITPM 限制和 80% 缓存命中率的情况下,您每分钟实际上可以处理 10,000,000 个总输入令牌(200 万未缓存 + 800 万缓存),因为缓存的令牌不计入您的速率限制。



Claude Haiku 3.5(在以下速率限制表中标有 †)也会将 cache_read_input_tokens 计入 ITPM 速率限制。

对于所有未标记 † 的模型,缓存的输入令牌不计入速率限制,并按较低费率计费(基础输入令牌价格的 10%)。这意味着通过使用提示缓存,您可以实现显著更高的有效吞吐量。



通过提示缓存最大化您的速率限制

要充分利用您的速率限制,请对重复内容使用提示缓存,例如:

  • 系统指令和提示
  • 大型上下文文档
  • 工具定义
  • 对话历史

通过有效的缓存,您可以在不提高速率限制的情况下显著提升实际吞吐量。在使用情况页面监控您的缓存命中率,以优化您的缓存策略。

OTPM 速率限制在生成输出令牌时实时评估,仅统计实际生成的令牌。max_tokens 参数不会纳入 OTPM 速率限制的计算,因此设置较高的 max_tokens 值不会对速率限制产生不利影响。

速率限制针对每个模型单独应用;因此您可以同时使用不同的模型,各自达到其相应的限制。 您可以在 Claude Console 中查看当前的速率限制和行为,或使用速率限制 API 以编程方式读取已配置的限制。



速率限制目前在所有 inference_geo 值之间共享。使用 inference_geo: "us" 和 inference_geo: "global" 的请求从同一个速率限制池中扣除。

* - Opus 速率限制是一个总限制,适用于 Claude Opus 4.8、Opus 4.7、Opus 4.6、Opus 4.5 和 Opus 4.1(已弃用)的合并流量。

** - Sonnet 4.x 速率限制是一个总限制,适用于 Sonnet 4.6 和 Sonnet 4.5 的合并流量。

† - 该限制将 cache_read_input_tokens 计入 ITPM 使用量。

Message Batches API

Message Batches API 有自己的一套速率限制,在所有模型之间共享。这些限制包括针对所有 API 端点的每分钟请求数(RPM)限制,以及可同时处于处理队列中的批处理请求数量限制。此处的"批处理请求"是指消息批次(Message Batch)的一部分。您可以创建一个包含数千个批处理请求的消息批次,每个请求都会计入此限制。当批处理请求尚未被模型成功处理时,即被视为处于处理队列中。

托管智能体

Claude 托管智能体端点按组织进行速率限制。这些限制与上述 Messages API 速率限制相互独立。

操作限制
创建端点(例如智能体、会话和环境)每分钟 300 个请求
读取端点(例如检索、列出和流式传输)每分钟 600 个请求

快速模式速率限制

在 Claude Opus 4.8、Opus 4.7 或 Opus 4.6 上使用带有 speed: "fast" 的快速模式(研究预览版)时,将应用专用的速率限制,这些限制与标准 Opus 速率限制相互独立。当超出快速模式速率限制时,API 会返回带有 retry-after 标头的 429 错误。

响应中包含 anthropic-fast-* 标头,用于指示您的快速模式速率限制状态。有关这些标头的详细信息,请参阅快速模式。

在 Console 中监控您的速率限制

您可以在 Claude Console 的使用情况页面监控您的速率限制使用情况。

除了提供令牌和请求图表外,使用情况页面还提供两个独立的速率限制图表。使用这些图表可以查看您还有多少增长空间、何时可能达到使用峰值、更好地了解应申请什么样的速率限制,或如何提高缓存率。这些图表可视化了给定速率限制(例如按模型)的多项指标:

  • 速率限制 - 输入令牌图表包括:
    • 每小时的每分钟未缓存输入令牌最大值
    • 您当前的每分钟输入令牌速率限制
    • 输入令牌的缓存率(即从缓存读取的输入令牌百分比)
  • 速率限制 - 输出令牌图表包括:
    • 每小时的每分钟输出令牌最大值
    • 您当前的每分钟输出令牌速率限制

为工作区设置更低的限制

有关工作区的更多信息,请参阅工作区。

为了保护组织中的工作区免受潜在过度使用的影响,您可以为每个工作区设置自定义的支出限制和速率限制。

示例:如果您组织的限制是每分钟 40,000 个输入令牌和每分钟 8,000 个输出令牌,您可以将某个工作区限制为每分钟 30,000 个输入令牌。这可以保护其他工作区免受潜在过度使用的影响,并确保资源在整个组织中更公平地分配。剩余的每分钟未使用令牌(如果该工作区未用完限制,则会更多)随后可供其他工作区使用。

注意:

  • 您无法为默认工作区设置限制。
  • 如果未设置,工作区限制将与组织的限制相同。
  • 工作区限制按限制器类型设置(例如每分钟请求数、每分钟输入令牌数或每分钟输出令牌数)。
  • 组织范围的限制始终适用,即使各工作区限制的总和超过该限制。

要以编程方式读取当前的组织和工作区速率限制,请使用速率限制 API。

响应标头

API 响应包含标头,显示所执行的速率限制、当前使用情况以及限制何时重置。

返回的标头如下:

标头描述
retry-after在可以重试请求之前需要等待的秒数。更早的重试将会失败。
anthropic-ratelimit-requests-limit在任何速率限制周期内允许的最大请求数。
anthropic-ratelimit-requests-remaining在触发速率限制之前剩余的请求数。
anthropic-ratelimit-requests-reset请求速率限制将完全补充的时间,以 RFC 3339 格式提供。
anthropic-ratelimit-tokens-limit在任何速率限制周期内允许的最大令牌数。
anthropic-ratelimit-tokens-remaining在触发速率限制之前剩余的令牌数(四舍五入到最接近的千位)。
anthropic-ratelimit-tokens-reset令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。
anthropic-ratelimit-input-tokens-limit在任何速率限制周期内允许的最大输入令牌数。
anthropic-ratelimit-input-tokens-remaining在触发速率限制之前剩余的输入令牌数(四舍五入到最接近的千位)。
anthropic-ratelimit-input-tokens-reset输入令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。
anthropic-ratelimit-output-tokens-limit在任何速率限制周期内允许的最大输出令牌数。
anthropic-ratelimit-output-tokens-remaining在触发速率限制之前剩余的输出令牌数(四舍五入到最接近的千位)。
anthropic-ratelimit-output-tokens-reset输出令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。
anthropic-priority-input-tokens-limit在任何速率限制周期内允许的最大优先层级输入令牌数。(仅限优先层级)
anthropic-priority-input-tokens-remaining在触发速率限制之前剩余的优先层级输入令牌数(四舍五入到最接近的千位)。(仅限优先层级)
anthropic-priority-input-tokens-reset优先层级输入令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。(仅限优先层级)
anthropic-priority-output-tokens-limit在任何速率限制周期内允许的最大优先层级输出令牌数。(仅限优先层级)
anthropic-priority-output-tokens-remaining在触发速率限制之前剩余的优先层级输出令牌数(四舍五入到最接近的千位)。(仅限优先层级)
anthropic-priority-output-tokens-reset优先层级输出令牌速率限制将完全补充的时间,以 RFC 3339 格式提供。(仅限优先层级)

anthropic-ratelimit-tokens-* 标头显示当前生效的最严格限制的值。例如,如果您已超出工作区的每分钟令牌限制,标头将包含工作区每分钟令牌速率限制的值。如果工作区限制不适用,标头将返回剩余的总令牌数,其中总数是输入令牌和输出令牌之和。这种方法确保您能够了解当前 API 使用中最相关的约束。

Was this page helpful?

  • 关于速率限制
  • 支出限制
  • 层级晋升要求
  • 提高您的支出限制
  • 客户自设支出限制
  • 层级强制支出限制
  • 速率限制
  • 缓存感知的 ITPM
  • Message Batches API
  • 托管智能体
  • 快速模式速率限制
  • 在 Console 中监控您的速率限制
  • 为工作区设置更低的限制
  • 响应标头