Claude Platform na AWS: Os limites de taxa desta página se aplicam. O faturamento e os limites de gastos são diferentes: limites de gastos não estão disponíveis, e o faturamento é feito através do AWS Marketplace (não por compras de crédito da Anthropic). As organizações começam no Tier 1. Aumentos de limite de taxa são feitos através do seu representante de conta da Anthropic; não há avanço automático de tier, e a configuração de limite de taxa por workspace não está disponível. O modo rápido não está disponível no Claude Platform na AWS.
Existem dois tipos de limites:
A API aplica limites configurados pelo serviço no nível da organização, mas você também pode definir limites configuráveis pelo usuário para os workspaces da sua organização.
Esses limites se aplicam tanto ao uso do Standard Tier quanto do Priority Tier. Para mais informações sobre o Priority Tier, que oferece níveis de serviço aprimorados em troca de gastos comprometidos, consulte Service Tiers.
Cada tier de uso tem um limite de quanto você pode gastar na API a cada mês do calendário. Uma vez que você atinja o limite de gastos do seu tier, até que você se qualifique para o próximo tier, você terá que esperar até o próximo mês para poder usar a API novamente.
Para se qualificar para o próximo tier, você deve atender a um requisito de depósito. Para minimizar o risco de financiar excessivamente sua conta, você não pode depositar mais do que seu limite de gastos mensal.
| Tier de uso | Compra de crédito | Compra máxima de crédito | Limite de gastos mensal |
|---|---|---|---|
| Tier 1 | $5 | $500 | $500 |
| Tier 2 | $40 | $500 | $500 |
| Tier 3 | $200 | $1.000 | $1.000 |
| Tier 4 | $400 | $200.000 | $200.000 |
| Monthly Invoicing | N/A | N/A | Sem limite |
Compra de crédito mostra as compras cumulativas de crédito (excluindo impostos) necessárias para avançar para aquele tier. Você avança imediatamente ao atingir o limiar.
Compra máxima de crédito limita o valor máximo que você pode adicionar à sua conta em uma única transação para evitar o financiamento excessivo da conta.
Limite de gastos mensal é o máximo que você pode gastar na API a cada mês do calendário naquele tier.
Sua organização tem dois tipos de limites de gastos: um limite definido pelo cliente que você controla diretamente, e um teto imposto pelo tier definido pelo seu tier de uso. Cada um tem um processo diferente para ser aumentado.
Você pode definir um limite de gastos menor que o teto do seu tier para controlar custos. Para ajustá-lo:
Navegue até a página Limits
Vá para Settings > Limits no Claude Console.
Abra o editor de limite de gastos
Na seção Spend limits, clique em Change Limit (ou Set spend limit se nenhum limite estiver definido atualmente).
Ajuste seu limite de gastos
Insira um novo valor. Seu limite definido pelo cliente não pode exceder o limite do seu tier atual.
Quando você precisar de um limite maior que o teto do seu tier (o teto do Tier 4 é $200.000 por mês), clique em Contact Sales na página Limits. Isso abre o formulário de contato em uma nova aba, e um membro da equipe de vendas entrará em contato por e-mail quando sua organização for atualizada.
O Monthly Invoicing remove completamente o teto de gastos mensal e usa termos de pagamento Net-30 por padrão.
O suporte também pode aumentar limites impostos pelo tier. Para necessidades urgentes, entre em contato com o suporte.
Os limites de taxa para a Messages API são medidos em requisições por minuto (RPM), tokens de entrada por minuto (ITPM) e tokens de saída por minuto (OTPM) para cada classe de modelo.
Se você exceder qualquer um dos limites de taxa, receberá um erro 429 descrevendo qual limite de taxa foi excedido, junto com um cabeçalho retry-after indicando quanto tempo esperar.
Você também pode encontrar erros 429 devido a limites de aceleração na API se sua organização tiver um aumento acentuado no uso. Para evitar atingir limites de aceleração, aumente seu tráfego gradualmente e mantenha padrões de uso consistentes.
Muitos provedores de API usam um limite combinado de "tokens por minuto" (TPM) que pode incluir todos os tokens, tanto em cache quanto não em cache, de entrada e de saída. Para a maioria dos modelos Claude, apenas tokens de entrada não armazenados em cache contam para seus limites de taxa ITPM. Esta é uma vantagem importante que torna os limites de taxa efetivamente mais altos do que podem parecer inicialmente.
Os limites de taxa ITPM são estimados no início de cada requisição, e a estimativa é ajustada durante a requisição para refletir o número real de tokens de entrada usados.
Aqui está o que conta para o ITPM:
input_tokens (tokens após o último ponto de interrupção de cache) ✓ Contam para o ITPMcache_creation_input_tokens (tokens sendo gravados no cache) ✓ Contam para o ITPMcache_read_input_tokens (tokens lidos do cache) ✗ NÃO contam para o ITPM na maioria dos modelosO campo input_tokens representa apenas os tokens que aparecem após seu último ponto de interrupção de cache, não todos os tokens de entrada na sua requisição. Para calcular o total de tokens de entrada:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensIsso significa que quando você tem conteúdo em cache, input_tokens normalmente será muito menor que sua entrada total. Por exemplo, com um documento em cache de 200k tokens e uma pergunta do usuário de 50 tokens, você veria input_tokens: 50 mesmo que a entrada total seja de 200.050 tokens.
Para fins de limite de taxa na maioria dos modelos, apenas input_tokens + cache_creation_input_tokens contam para seu limite ITPM, tornando o cache de prompt uma forma eficaz de aumentar seu throughput efetivo.
Exemplo: Com um limite de 2.000.000 ITPM e uma taxa de acerto de cache de 80%, você poderia efetivamente processar 10.000.000 de tokens de entrada totais por minuto (2M não em cache + 8M em cache), porque tokens em cache não contam para seu limite de taxa.
O Claude Haiku 3.5 (marcado com † nas tabelas de limite de taxa a seguir) também conta cache_read_input_tokens para os limites de taxa ITPM.
Para todos os modelos sem o marcador †, tokens de entrada em cache não contam para os limites de taxa e são cobrados a uma taxa reduzida (10% do preço base de token de entrada). Isso significa que você pode alcançar um throughput efetivo significativamente maior usando cache de prompt.
Maximize seus limites de taxa com cache de prompt
Para aproveitar ao máximo seus limites de taxa, use cache de prompt para conteúdo repetido como:
Com cache eficaz, você pode aumentar drasticamente seu throughput real sem aumentar seus limites de taxa. Monitore sua taxa de acerto de cache na página Usage para otimizar sua estratégia de cache.
Os limites de taxa OTPM são avaliados em tempo real conforme os tokens de saída são produzidos, contando apenas os tokens realmente gerados. O parâmetro max_tokens não é considerado nos cálculos de limite de taxa OTPM, portanto não há desvantagem de limite de taxa em definir um valor mais alto para max_tokens.
Os limites de taxa são aplicados separadamente para cada modelo; portanto, você pode usar diferentes modelos até seus respectivos limites simultaneamente. Você pode verificar seus limites de taxa atuais e comportamento no Claude Console, ou ler os limites configurados programaticamente com a Rate Limits API.
Os limites de taxa são atualmente compartilhados entre todos os valores de inference_geo. Requisições com inference_geo: "us" e inference_geo: "global" consomem do mesmo pool de limite de taxa.
* - O limite de taxa do Opus é um limite total que se aplica ao tráfego combinado entre Claude Opus 4.8, Opus 4.7, Opus 4.6, Opus 4.5, Opus 4.1 (obsoleto) e Opus 4 (obsoleto).
** - O limite de taxa do Sonnet 4.x é um limite total que se aplica ao tráfego combinado entre Sonnet 4.6, Sonnet 4.5 e Sonnet 4 (obsoleto).
† - O limite conta cache_read_input_tokens para o uso de ITPM.
A Message Batches API tem seu próprio conjunto de limites de taxa que são compartilhados entre todos os modelos. Estes incluem um limite de requisições por minuto (RPM) para todos os endpoints da API e um limite no número de requisições de batch que podem estar na fila de processamento ao mesmo tempo. Uma "requisição de batch" aqui se refere a parte de um Message Batch. Você pode criar um Message Batch contendo milhares de requisições de batch, cada uma das quais conta para este limite. Uma requisição de batch é considerada parte da fila de processamento quando ainda não foi processada com sucesso pelo modelo.
Os endpoints de Claude Managed Agents têm limites de taxa por organização. Esses limites são separados dos limites de taxa da Messages API acima.
| Operação | Limite |
|---|---|
| Endpoints de criação (por exemplo, agents, sessions e environments) | 300 requisições por minuto |
| Endpoints de leitura (por exemplo, retrieve, list e stream) | 600 requisições por minuto |
Ao usar o modo rápido (prévia de pesquisa) com speed: "fast" no Claude Opus 4.8, Opus 4.7 ou Opus 4.6, aplicam-se limites de taxa dedicados que são separados dos limites de taxa padrão do Opus. Quando os limites de taxa do modo rápido são excedidos, a API retorna um erro 429 com um cabeçalho retry-after.
A resposta inclui cabeçalhos anthropic-fast-* que indicam o status do seu limite de taxa do modo rápido. Consulte Modo rápido para detalhes sobre esses cabeçalhos.
Você pode monitorar seu uso de limite de taxa na página Usage do Claude Console.
Além de fornecer gráficos de tokens e requisições, a página Usage fornece dois gráficos separados de limite de taxa. Use esses gráficos para ver quanta margem você tem para crescer, quando você pode estar atingindo o pico de uso, entender melhor quais limites de taxa solicitar, ou como você pode melhorar suas taxas de cache. Os gráficos visualizam várias métricas para um determinado limite de taxa (por exemplo, por modelo):
Para mais informações sobre workspaces, consulte Workspaces.
Para proteger Workspaces na sua Organização de possível uso excessivo, você pode definir limites personalizados de gastos e de taxa por Workspace.
Exemplo: Se o limite da sua Organização é de 40.000 tokens de entrada por minuto e 8.000 tokens de saída por minuto, você pode limitar um Workspace a 30.000 tokens de entrada por minuto. Isso protege outros Workspaces de possível uso excessivo e garante uma distribuição mais equitativa de recursos em toda a sua Organização. Os tokens por minuto restantes não utilizados (ou mais, se aquele Workspace não usar o limite) ficam então disponíveis para outros Workspaces usarem.
Observação:
Para ler seus limites de taxa atuais de organização e workspace programaticamente, use a Rate Limits API.
A resposta da API inclui cabeçalhos que mostram o limite de taxa aplicado, o uso atual e quando o limite será redefinido.
Os seguintes cabeçalhos são retornados:
| Cabeçalho | Descrição |
|---|---|
retry-after | O número de segundos a esperar até que você possa tentar a requisição novamente. Tentativas anteriores falharão. |
anthropic-ratelimit-requests-limit | O número máximo de requisições permitidas dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-requests-remaining | O número de requisições restantes antes de ser limitado por taxa. |
anthropic-ratelimit-requests-reset | O momento em que o limite de taxa de requisições será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-tokens-limit | O número máximo de tokens permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-tokens-remaining | O número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
Os cabeçalhos anthropic-ratelimit-tokens-* exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de tokens por minuto do Workspace, os cabeçalhos conterão os valores de limite de taxa de tokens por minuto do Workspace. Se os limites de Workspace não se aplicarem, os cabeçalhos retornarão o total de tokens restantes, onde o total é a soma de tokens de entrada e saída. Essa abordagem garante que você tenha visibilidade sobre a restrição mais relevante no seu uso atual da API.
Was this page helpful?
anthropic-ratelimit-tokens-reset |
| O momento em que o limite de taxa de tokens será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | O número máximo de tokens de entrada permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-input-tokens-remaining | O número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-input-tokens-reset | O momento em que o limite de taxa de tokens de entrada será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | O número máximo de tokens de saída permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-output-tokens-remaining | O número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-output-tokens-reset | O momento em que o limite de taxa de tokens de saída será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-priority-input-tokens-limit | O número máximo de tokens de entrada do Priority Tier permitidos dentro de qualquer período de limite de taxa. (Somente Priority Tier) |
anthropic-priority-input-tokens-remaining | O número de tokens de entrada do Priority Tier restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Somente Priority Tier) |
anthropic-priority-input-tokens-reset | O momento em que o limite de taxa de tokens de entrada do Priority Tier será totalmente reabastecido, fornecido no formato RFC 3339. (Somente Priority Tier) |
anthropic-priority-output-tokens-limit | O número máximo de tokens de saída do Priority Tier permitidos dentro de qualquer período de limite de taxa. (Somente Priority Tier) |
anthropic-priority-output-tokens-remaining | O número de tokens de saída do Priority Tier restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Somente Priority Tier) |
anthropic-priority-output-tokens-reset | O momento em que o limite de taxa de tokens de saída do Priority Tier será totalmente reabastecido, fornecido no formato RFC 3339. (Somente Priority Tier) |