Claude Platform on AWS: Os limites de taxa desta página se aplicam. A cobrança e os limites de gastos são diferentes: limites de gastos não estão disponíveis, e a cobrança é feita através do AWS Marketplace (não por compras de crédito da Anthropic). Organizações no Claude Platform on AWS são colocadas no nível Start e não mudam entre níveis de uso automaticamente. Para solicitar limites mais altos, entre em contato com seu representante de conta da Anthropic. A configuração de limite de taxa por workspace e o fast mode não estão disponíveis no Claude Platform on AWS.
Existem dois tipos de limites:
A API aplica limites configurados pelo serviço no nível da organização, mas você também pode definir limites configuráveis pelo usuário para os workspaces da sua organização.
Esses limites se aplicam tanto ao uso do Standard Tier quanto do Priority Tier. Para mais informações sobre o Priority Tier, consulte Níveis de serviço.
Cada um dos níveis Start, Build e Scale possui um teto de gastos mensal, que é o máximo que sua organização pode gastar na API a cada mês calendário. Quando você atinge o teto de gastos do seu nível, o uso da API é pausado até o próximo mês, a menos que você solicite um limite mais alto. Você pode visualizar o teto de gastos mensal da sua organização na página Limits.
| Nível de uso | Teto de gastos mensal |
|---|---|
| Start | $500 |
| Build | $1.000 |
| Scale | $200.000 |
Organizações no nível Custom não têm teto de gastos mensal; os limites são acordados com sua equipe de conta.
Você também pode definir seu próprio limite de gastos abaixo do teto do seu nível para controlar custos:
Navegue até a página Limits
Vá para Settings > Limits no Claude Console.
Abra o editor de limite de gastos
Na seção Spend limits, clique em Change Limit (ou Set spend limit se nenhum limite estiver definido atualmente).
Ajuste seu limite de gastos
Insira um novo valor. Seu limite de gastos não pode exceder o teto do seu nível atual.
Os limites de taxa para a Messages API são medidos em requisições por minuto (RPM), tokens de entrada por minuto (ITPM) e tokens de saída por minuto (OTPM) para cada classe de modelo.
Se você exceder qualquer um dos limites de taxa, receberá um erro 429 descrevendo qual limite de taxa foi excedido, junto com um cabeçalho retry-after indicando quanto tempo esperar.
Você também pode encontrar erros 429 devido a limites de aceleração na API se sua organização tiver um aumento acentuado no uso. Para evitar atingir limites de aceleração, aumente seu tráfego gradualmente e mantenha padrões de uso consistentes.
Muitos provedores de API usam um limite combinado de "tokens por minuto" (TPM) que pode incluir todos os tokens, tanto em cache quanto não em cache, de entrada e de saída. Para a maioria dos modelos Claude, apenas tokens de entrada não armazenados em cache contam para seus limites de taxa de ITPM. Esta é uma vantagem importante que torna os limites de taxa efetivamente mais altos do que podem parecer inicialmente.
Os limites de taxa de ITPM são estimados no início de cada requisição, e a estimativa é ajustada durante a requisição para refletir o número real de tokens de entrada usados.
Veja o que conta para o ITPM:
input_tokens (tokens após o último ponto de interrupção de cache) ✓ Contam para o ITPMcache_creation_input_tokens (tokens sendo gravados no cache) ✓ Contam para o ITPMcache_read_input_tokens (tokens lidos do cache) ✗ NÃO contam para o ITPM na maioria dos modelosO campo input_tokens representa apenas os tokens que aparecem após seu último ponto de interrupção de cache, não todos os tokens de entrada na sua requisição. Para calcular o total de tokens de entrada:
total_input_tokens = cache_read_input_tokens + cache_creation_input_tokens + input_tokensIsso significa que, quando você tem conteúdo em cache, input_tokens normalmente será muito menor que sua entrada total. Por exemplo, com um documento de 200 mil tokens em cache e uma pergunta do usuário de 50 tokens, você veria input_tokens: 50 mesmo que a entrada total seja de 200.050 tokens.
Para fins de limite de taxa na maioria dos modelos, apenas input_tokens + cache_creation_input_tokens contam para seu limite de ITPM, tornando o cache de prompt uma forma eficaz de aumentar sua taxa de transferência efetiva.
Exemplo: Com um limite de 2.000.000 ITPM e uma taxa de acerto de cache de 80%, você poderia efetivamente processar 10.000.000 de tokens de entrada totais por minuto (2M não em cache + 8M em cache), porque tokens em cache não contam para seu limite de taxa.
O Claude Haiku 3.5 (marcado com † nas tabelas de limite de taxa a seguir) também conta cache_read_input_tokens para os limites de taxa de ITPM.
Para todos os modelos sem o marcador †, tokens de entrada em cache não contam para os limites de taxa e são cobrados a uma taxa reduzida (10% do preço base de token de entrada). Isso significa que você pode alcançar uma taxa de transferência efetiva significativamente maior usando cache de prompt.
Maximize seus limites de taxa com cache de prompt
Para aproveitar ao máximo seus limites de taxa, use cache de prompt para conteúdo repetido como:
Com cache eficaz, você pode aumentar drasticamente sua taxa de transferência real sem aumentar seus limites de taxa. Monitore sua taxa de acerto de cache na página Usage para otimizar sua estratégia de cache.
Os limites de taxa de OTPM são avaliados em tempo real conforme os tokens de saída são produzidos, contando apenas os tokens realmente gerados. O parâmetro max_tokens não é considerado nos cálculos de limite de taxa de OTPM, portanto não há desvantagem de limite de taxa em definir um valor mais alto de max_tokens.
Os limites de taxa são aplicados separadamente para cada modelo; portanto, você pode usar diferentes modelos até seus respectivos limites simultaneamente. Você pode verificar seus limites de taxa atuais e comportamento no Claude Console, ou ler os limites configurados programaticamente com a Rate Limits API.
Os limites de taxa são atualmente compartilhados entre todos os valores de inference_geo. Requisições com inference_geo: "us" e inference_geo: "global" consomem do mesmo pool de limite de taxa.
* - O limite de taxa do Opus é um limite total que se aplica ao tráfego combinado entre Claude Opus 4.8, Opus 4.7, Opus 4.6 e Opus 4.5.
** - O limite de taxa do Sonnet 4.x é um limite total que se aplica ao tráfego combinado entre Sonnet 4.6 e Sonnet 4.5. O Claude Sonnet 5 tem um limite de taxa separado e não faz parte deste bucket combinado.
† - O limite conta cache_read_input_tokens para o uso de ITPM.
A Message Batches API tem seu próprio conjunto de limites de taxa que são compartilhados entre todos os modelos. Estes incluem um limite de requisições por minuto (RPM) para todos os endpoints da API e um limite no número de requisições em lote que podem estar na fila de processamento ao mesmo tempo. Uma "requisição em lote" aqui se refere a parte de um Message Batch. Você pode criar um Message Batch contendo milhares de requisições em lote, cada uma das quais conta para este limite. Uma requisição em lote é considerada parte da fila de processamento quando ainda não foi processada com sucesso pelo modelo.
Os endpoints do Claude Managed Agents têm limites de taxa por organização. Esses limites são separados dos limites de taxa da Messages API acima.
| Operação | Limite |
|---|---|
| Endpoints de criação (por exemplo, agents, sessions e environments) | 300 requisições por minuto |
| Endpoints de leitura (por exemplo, retrieve, list e stream) | 1.200 requisições por minuto |
Ao usar o fast mode (prévia de pesquisa) com speed: "fast" no Claude Opus 4.8 ou Opus 4.7, aplicam-se limites de taxa dedicados que são separados dos limites de taxa padrão do Opus. Quando os limites de taxa do fast mode são excedidos, a API retorna um erro 429 com um cabeçalho retry-after. O fast mode não está disponível no Claude Opus 4.6: requisições para claude-opus-4-6 com speed: "fast" são executadas na velocidade padrão. Consulte Fast mode.
A resposta inclui cabeçalhos anthropic-fast-* que indicam o status do seu limite de taxa do fast mode. Consulte Fast mode para detalhes sobre esses cabeçalhos.
Você pode monitorar seu uso de limite de taxa na página Usage do Claude Console.
Além de fornecer gráficos de tokens e requisições, a página Usage fornece dois gráficos separados de limite de taxa. Use esses gráficos para ver quanta margem você tem para crescer, quando pode estar atingindo o pico de uso, entender melhor quais limites de taxa solicitar ou como pode melhorar suas taxas de cache. Os gráficos visualizam várias métricas para um determinado limite de taxa (por exemplo, por modelo):
Para solicitar limites de taxa mais altos ou um teto de gastos mensal mais alto, use Request rate limit increase na página Limits.
O suporte também pode aumentar limites. Para necessidades urgentes, entre em contato com o suporte.
Para mais informações sobre workspaces, consulte Workspaces.
Para proteger Workspaces em sua Organização contra possível uso excessivo, você pode definir limites personalizados de gastos e de taxa por Workspace.
Exemplo: Se o limite da sua Organização é de 40.000 tokens de entrada por minuto e 8.000 tokens de saída por minuto, você pode limitar um Workspace a 30.000 tokens de entrada por minuto. Isso protege outros Workspaces contra possível uso excessivo e garante uma distribuição mais equitativa de recursos em toda a sua Organização. Os tokens por minuto restantes não utilizados (ou mais, se esse Workspace não usar o limite) ficam então disponíveis para outros Workspaces usarem.
Observação:
Para ler seus limites de taxa atuais de organização e workspace programaticamente, use a Rate Limits API.
A resposta da API inclui cabeçalhos que mostram o limite de taxa aplicado, o uso atual e quando o limite será redefinido.
Os seguintes cabeçalhos são retornados:
| Cabeçalho | Descrição |
|---|---|
retry-after | O número de segundos a esperar até que você possa tentar a requisição novamente. Tentativas anteriores falharão. |
anthropic-ratelimit-requests-limit | O número máximo de requisições permitidas dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-requests-remaining | O número de requisições restantes antes de ser limitado por taxa. |
anthropic-ratelimit-requests-reset | O momento em que o limite de taxa de requisições será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-tokens-limit | O número máximo de tokens permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-tokens-remaining | O número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-tokens-reset | O momento em que o limite de taxa de tokens será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | O número máximo de tokens de entrada permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-input-tokens-remaining | O número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-input-tokens-reset | O momento em que o limite de taxa de tokens de entrada será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | O número máximo de tokens de saída permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-output-tokens-remaining | O número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-output-tokens-reset | O momento em que o limite de taxa de tokens de saída será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-priority-input-tokens-limit | O número máximo de tokens de entrada do Priority Tier permitidos dentro de qualquer período de limite de taxa. (Somente Priority Tier) |
anthropic-priority-input-tokens-remaining | O número de tokens de entrada do Priority Tier restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Somente Priority Tier) |
anthropic-priority-input-tokens-reset | O momento em que o limite de taxa de tokens de entrada do Priority Tier será totalmente reabastecido, fornecido no formato RFC 3339. (Somente Priority Tier) |
anthropic-priority-output-tokens-limit | O número máximo de tokens de saída do Priority Tier permitidos dentro de qualquer período de limite de taxa. (Somente Priority Tier) |
anthropic-priority-output-tokens-remaining | O número de tokens de saída do Priority Tier restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Somente Priority Tier) |
anthropic-priority-output-tokens-reset | O momento em que o limite de taxa de tokens de saída do Priority Tier será totalmente reabastecido, fornecido no formato RFC 3339. (Somente Priority Tier) |
Os cabeçalhos anthropic-ratelimit-tokens-* exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de tokens por minuto do Workspace, os cabeçalhos conterão os valores de limite de taxa de tokens por minuto do Workspace. Se os limites de Workspace não se aplicarem, os cabeçalhos retornarão o total de tokens restantes, onde o total é a soma de tokens de entrada e saída. Essa abordagem garante que você tenha visibilidade sobre a restrição mais relevante no seu uso atual da API.
Was this page helpful?