Claude Platform Docs
  • Mensagens
  • Agentes Gerenciados
  • Administração

Search...
⌘K

Log in
Níveis de serviço
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Referência da API/Suporte e configuração

Níveis de serviço

Diferentes níveis de serviço permitem que você equilibre disponibilidade, desempenho e custos previsíveis com base nas necessidades da sua aplicação.


Compromissos de capacidade do Priority Tier não estão mais disponíveis para compra. Organizações com um compromisso existente podem continuar a usar o Priority Tier até a data de término do contrato, e esta página permanece disponível como referência para elas. Se você precisa de capacidade garantida, entre em contato com vendas.

A Anthropic oferece três níveis de serviço:

  • Priority Tier: Disponível apenas para organizações com um compromisso de capacidade existente
  • Standard: Nível padrão tanto para pilotar quanto para escalar casos de uso do dia a dia
  • Batch: Ideal para fluxos de trabalho assíncronos que podem esperar ou que se beneficiam de estar fora da sua capacidade normal

Standard Tier

O standard tier (nível padrão) é o nível de serviço padrão para todas as requisições da API. A API prioriza essas requisições junto com todas as outras requisições com disponibilidade de melhor esforço.

Priority Tier

A API prioriza requisições neste nível acima de todas as outras requisições. Essa priorização ajuda a minimizar erros de "servidor sobrecarregado", mesmo durante horários de pico.

Para mais informações, consulte Compromissos existentes do Priority Tier.

Como as requisições são atribuídas a níveis

Ao processar uma requisição, a Anthropic decide atribuir uma requisição ao Priority Tier nos seguintes cenários:

  • Sua organização tem capacidade suficiente de tokens de entrada por minuto no priority tier
  • Sua organização tem capacidade suficiente de tokens de saída por minuto no priority tier

A Anthropic contabiliza o uso em relação à capacidade do Priority Tier da seguinte forma:

Tokens de entrada

  • Leituras de cache contam como 0,1 token por token lido do cache
  • Escritas de cache contam como 1,25 token por token escrito no cache com um TTL de 5 minutos
  • Escritas de cache contam como 2,00 tokens por token escrito no cache com um TTL de 1 hora
  • Para requisições de inferência apenas nos EUA (inference_geo: "us") no Claude Opus 4.6, Claude Sonnet 4.6 e modelos posteriores, os tokens de entrada contam como 1,1 token por token
  • Todos os outros tokens de entrada contam como 1 token por token

Tokens de saída

  • Para requisições de inferência apenas nos EUA (inference_geo: "us") no Claude Opus 4.6, Claude Sonnet 4.6 e modelos posteriores, os tokens de saída contam como 1,1 token por token
  • Todos os outros tokens de saída contam como 1 token por token

Caso contrário, as requisições prosseguem no standard tier.



Essas taxas de consumo refletem o preço relativo de cada tipo de token. Por exemplo, a inferência apenas nos EUA tem preço de 1,1x no Opus 4.6, Sonnet 4.6 e modelos posteriores, então cada token consumido com inference_geo: "us" deduz 1,1 token da sua capacidade do Priority Tier.



Requisições atribuídas ao Priority Tier consomem tanto da capacidade do Priority Tier quanto dos limites de taxa regulares. Se atender à requisição exceder os limites de taxa, a requisição é recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma requisição definindo o parâmetro service_tier:

Python
message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

O parâmetro service_tier aceita os seguintes valores:

  • "auto" (padrão) - Usa a capacidade do Priority Tier se disponível, recorrendo à sua outra capacidade caso contrário
  • "standard_only" - Usa apenas a capacidade do standard tier, útil se você não quiser usar sua capacidade do Priority Tier

O objeto usage da resposta também inclui o nível de serviço atribuído à requisição:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite que você determine qual nível de serviço foi atribuído à requisição.

Ao solicitar service_tier="auto" com um modelo que possui um compromisso de Priority Tier, estes cabeçalhos de resposta fornecem informações:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Você pode usar a presença desses cabeçalhos para detectar se sua requisição era elegível para o Priority Tier, mesmo que tenha excedido o limite.

Compromissos existentes do Priority Tier

Um compromisso de Priority Tier consiste em:

  • Um número de tokens de entrada por minuto
  • Um número de tokens de saída por minuto
  • Uma duração de compromisso (1, 3, 6 ou 12 meses)
  • Uma versão específica de modelo

O Priority Tier tem como meta 99,5% de disponibilidade com recursos computacionais priorizados. Requisições além da sua capacidade comprometida recorrem automaticamente ao standard tier.

Modelos suportados

O Priority Tier é suportado em todos os modelos Claude disponíveis (incluindo Claude Fable 5 e Claude Opus 4.8), exceto Claude Sonnet 5, Claude Mythos Preview e Claude Mythos 5.

Consulte a Visão geral dos modelos para mais detalhes sobre os modelos disponíveis.

Was this page helpful?

  • Standard Tier
  • Priority Tier
  • Como as requisições são atribuídas a níveis
  • Usando níveis de serviço
  • Compromissos existentes do Priority Tier
  • Modelos suportados