Referência da APISuporte e configuração

Níveis de serviço

Diferentes níveis de serviço permitem que você equilibre disponibilidade, desempenho e custos previsíveis com base nas necessidades da sua aplicação.

Compromissos de capacidade do Priority Tier não estão mais disponíveis para compra. Organizações com um compromisso existente podem continuar a usar o Priority Tier até a data de término do contrato, e esta página permanece disponível como referência para elas. Se você precisa de capacidade garantida, entre em contato com vendas.

A Anthropic oferece três níveis de serviço:

Priority Tier: Disponível apenas para organizações com um compromisso de capacidade existente
Standard: Nível padrão tanto para pilotar quanto para escalar casos de uso do dia a dia
Batch: Ideal para fluxos de trabalho assíncronos que podem esperar ou que se beneficiam de estar fora da sua capacidade normal

Standard Tier

O standard tier (nível padrão) é o nível de serviço padrão para todas as requisições da API. A API prioriza essas requisições junto com todas as outras requisições com disponibilidade de melhor esforço.

Priority Tier

A API prioriza requisições neste nível acima de todas as outras requisições. Essa priorização ajuda a minimizar erros de "servidor sobrecarregado", mesmo durante horários de pico.

Para mais informações, consulte Compromissos existentes do Priority Tier.

Como as requisições são atribuídas a níveis

Ao processar uma requisição, a Anthropic decide atribuir uma requisição ao Priority Tier nos seguintes cenários:

Sua organização tem capacidade suficiente de tokens de entrada por minuto no priority tier
Sua organização tem capacidade suficiente de tokens de saída por minuto no priority tier

A Anthropic contabiliza o uso em relação à capacidade do Priority Tier da seguinte forma:

Tokens de entrada

Leituras de cache contam como 0,1 token por token lido do cache
Escritas de cache contam como 1,25 token por token escrito no cache com um TTL de 5 minutos
Escritas de cache contam como 2,00 tokens por token escrito no cache com um TTL de 1 hora
Para requisições de inferência apenas nos EUA (inference_geo: "us") no Claude Opus 4.6, Claude Sonnet 4.6 e modelos posteriores, os tokens de entrada contam como 1,1 token por token
Todos os outros tokens de entrada contam como 1 token por token

Tokens de saída

Para requisições de inferência apenas nos EUA (inference_geo: "us") no Claude Opus 4.6, Claude Sonnet 4.6 e modelos posteriores, os tokens de saída contam como 1,1 token por token
Todos os outros tokens de saída contam como 1 token por token

Caso contrário, as requisições prosseguem no standard tier.

Essas taxas de consumo refletem o preço relativo de cada tipo de token. Por exemplo, a inferência apenas nos EUA tem preço de 1,1x no Opus 4.6, Sonnet 4.6 e modelos posteriores, então cada token consumido com inference_geo: "us" deduz 1,1 token da sua capacidade do Priority Tier.

Requisições atribuídas ao Priority Tier consomem tanto da capacidade do Priority Tier quanto dos limites de taxa regulares. Se atender à requisição exceder os limites de taxa, a requisição é recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma requisição definindo o parâmetro service_tier:

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

O parâmetro service_tier aceita os seguintes valores:

"auto" (padrão) - Usa a capacidade do Priority Tier se disponível, recorrendo à sua outra capacidade caso contrário
"standard_only" - Usa apenas a capacidade do standard tier, útil se você não quiser usar sua capacidade do Priority Tier

O objeto usage da resposta também inclui o nível de serviço atribuído à requisição:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite que você determine qual nível de serviço foi atribuído à requisição.

Ao solicitar service_tier="auto" com um modelo que possui um compromisso de Priority Tier, estes cabeçalhos de resposta fornecem informações:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Você pode usar a presença desses cabeçalhos para detectar se sua requisição era elegível para o Priority Tier, mesmo que tenha excedido o limite.

Compromissos existentes do Priority Tier

Um compromisso de Priority Tier consiste em:

Um número de tokens de entrada por minuto
Um número de tokens de saída por minuto
Uma duração de compromisso (1, 3, 6 ou 12 meses)
Uma versão específica de modelo

O Priority Tier tem como meta 99,5% de disponibilidade com recursos computacionais priorizados. Requisições além da sua capacidade comprometida recorrem automaticamente ao standard tier.

Modelos suportados

O Priority Tier é suportado em todos os modelos Claude disponíveis (incluindo Claude Fable 5 e Claude Opus 4.8), exceto Claude Sonnet 5, Claude Mythos Preview e Claude Mythos 5.

Consulte a Visão geral dos modelos para mais detalhes sobre os modelos disponíveis.

Was this page helpful?

Referência da APISuporte e configuração

Níveis de serviço

Diferentes níveis de serviço permitem que você equilibre disponibilidade, desempenho e custos previsíveis com base nas necessidades da sua aplicação.

A Anthropic oferece três níveis de serviço:

Priority Tier: Disponível apenas para organizações com um compromisso de capacidade existente
Standard: Nível padrão tanto para pilotar quanto para escalar casos de uso do dia a dia
Batch: Ideal para fluxos de trabalho assíncronos que podem esperar ou que se beneficiam de estar fora da sua capacidade normal

Standard Tier

Priority Tier

A API prioriza requisições neste nível acima de todas as outras requisições. Essa priorização ajuda a minimizar erros de "servidor sobrecarregado", mesmo durante horários de pico.

Para mais informações, consulte Compromissos existentes do Priority Tier.

Como as requisições são atribuídas a níveis

Ao processar uma requisição, a Anthropic decide atribuir uma requisição ao Priority Tier nos seguintes cenários:

Sua organização tem capacidade suficiente de tokens de entrada por minuto no priority tier
Sua organização tem capacidade suficiente de tokens de saída por minuto no priority tier

A Anthropic contabiliza o uso em relação à capacidade do Priority Tier da seguinte forma:

Tokens de entrada

Leituras de cache contam como 0,1 token por token lido do cache
Escritas de cache contam como 1,25 token por token escrito no cache com um TTL de 5 minutos
Escritas de cache contam como 2,00 tokens por token escrito no cache com um TTL de 1 hora
Para requisições de inferência apenas nos EUA (inference_geo: "us") no Claude Opus 4.6, Claude Sonnet 4.6 e modelos posteriores, os tokens de entrada contam como 1,1 token por token
Todos os outros tokens de entrada contam como 1 token por token

Tokens de saída

Para requisições de inferência apenas nos EUA (inference_geo: "us") no Claude Opus 4.6, Claude Sonnet 4.6 e modelos posteriores, os tokens de saída contam como 1,1 token por token
Todos os outros tokens de saída contam como 1 token por token

Caso contrário, as requisições prosseguem no standard tier.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma requisição definindo o parâmetro service_tier:

Python

message = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto",  # Automatically use Priority Tier when available, fallback to standard
)
print(message.usage.service_tier)

O parâmetro service_tier aceita os seguintes valores:

"auto" (padrão) - Usa a capacidade do Priority Tier se disponível, recorrendo à sua outra capacidade caso contrário
"standard_only" - Usa apenas a capacidade do standard tier, útil se você não quiser usar sua capacidade do Priority Tier

O objeto usage da resposta também inclui o nível de serviço atribuído à requisição:

{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}

Isso permite que você determine qual nível de serviço foi atribuído à requisição.

Ao solicitar service_tier="auto" com um modelo que possui um compromisso de Priority Tier, estes cabeçalhos de resposta fornecem informações:

anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z

Você pode usar a presença desses cabeçalhos para detectar se sua requisição era elegível para o Priority Tier, mesmo que tenha excedido o limite.

Compromissos existentes do Priority Tier

Um compromisso de Priority Tier consiste em:

Um número de tokens de entrada por minuto
Um número de tokens de saída por minuto
Uma duração de compromisso (1, 3, 6 ou 12 meses)
Uma versão específica de modelo

O Priority Tier tem como meta 99,5% de disponibilidade com recursos computacionais priorizados. Requisições além da sua capacidade comprometida recorrem automaticamente ao standard tier.

Modelos suportados

O Priority Tier é suportado em todos os modelos Claude disponíveis (incluindo Claude Fable 5 e Claude Opus 4.8), exceto Claude Sonnet 5, Claude Mythos Preview e Claude Mythos 5.

Consulte a Visão geral dos modelos para mais detalhes sobre os modelos disponíveis.

Was this page helpful?

Standard Tier

Priority Tier

Como as requisições são atribuídas a níveis

Usando níveis de serviço

Compromissos existentes do Priority Tier

Modelos suportados

Standard Tier

Priority Tier

Como as requisições são atribuídas a níveis

Usando níveis de serviço

Compromissos existentes do Priority Tier

Modelos suportados

Standard Tier

Priority Tier

Como as requisições são atribuídas a níveis

Usando níveis de serviço

Compromissos existentes do Priority Tier

Modelos suportados

Standard Tier

Priority Tier

Como as requisições são atribuídas a níveis

Usando níveis de serviço

Compromissos existentes do Priority Tier

Modelos suportados