Loading...
  • Construir
  • Admin
  • Modelos e preços
  • SDKs do cliente
  • Referência da API
Search...
⌘K
Log in
Modo rápido (beta: prévia de pesquisa)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Construir/Capacidades do modelo

Modo rápido (beta: prévia de pesquisa)

Maior velocidade de saída para Claude Opus 4.6, proporcionando geração de tokens significativamente mais rápida para fluxos de trabalho sensíveis à latência e agênticos.

O modo rápido fornece geração de tokens de saída significativamente mais rápida para Claude Opus 4.6. Ao definir speed: "fast" na sua solicitação de API, você obtém até 2,5x mais tokens de saída por segundo do mesmo modelo com preços premium.

O modo rápido está em beta (prévia de pesquisa). Junte-se à lista de espera para solicitar acesso. A disponibilidade é limitada enquanto a Anthropic coleta feedback.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Modelos suportados

O modo rápido é suportado nos seguintes modelos:

  • Claude Opus 4.6 (claude-opus-4-6)

Como o modo rápido funciona

O modo rápido executa o mesmo modelo com uma configuração de inferência mais rápida. Não há alteração na inteligência ou nas capacidades.

  • Até 2,5x mais tokens de saída por segundo em comparação com a velocidade padrão
  • Os benefícios de velocidade são focados em tokens de saída por segundo (OTPS), não no tempo até o primeiro token (TTFT)
  • Mesmos pesos e comportamento do modelo (não é um modelo diferente)

Uso básico

Preços

O modo rápido tem preço de 6x as tarifas padrão do Opus em toda a janela de contexto, incluindo solicitações com mais de 200k tokens de entrada. A tabela a seguir mostra os preços para Claude Opus 4.6 com modo rápido:

EntradaSaída
$30 / MTok$150 / MTok

Os preços do modo rápido se acumulam com outros modificadores de preços:

  • Multiplicadores de cache de prompt se aplicam sobre os preços do modo rápido
  • Multiplicadores de residência de dados se aplicam sobre os preços do modo rápido

Para detalhes completos de preços, consulte a página de preços.

Limites de taxa

O modo rápido tem um limite de taxa dedicado que é separado dos limites de taxa padrão do Opus. Quando o limite de taxa do modo rápido é excedido, a API retorna um erro 429 com um cabeçalho retry-after indicando quando a capacidade estará disponível.

A resposta inclui cabeçalhos que indicam o status do limite de taxa do modo rápido:

CabeçalhoDescrição
anthropic-fast-input-tokens-limitMáximo de tokens de entrada do modo rápido por minuto
anthropic-fast-input-tokens-remainingTokens de entrada restantes do modo rápido
anthropic-fast-input-tokens-resetHora em que o limite de tokens de entrada do modo rápido é redefinido
anthropic-fast-output-tokens-limitMáximo de tokens de saída do modo rápido por minuto
anthropic-fast-output-tokens-remainingTokens de saída restantes do modo rápido
anthropic-fast-output-tokens-resetHora em que o limite de tokens de saída do modo rápido é redefinido

Para limites de taxa específicos por nível, consulte a página de limites de taxa.

Verificando qual velocidade foi usada

O objeto usage da resposta inclui um campo speed que indica qual velocidade foi usada, seja "fast" ou "standard":

Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Para rastrear o uso e os custos do modo rápido em toda a sua organização, consulte a API de Uso e Custo.

Novas tentativas e fallback

Novas tentativas automáticas

Quando os limites de taxa do modo rápido são excedidos, a API retorna um erro 429 com um cabeçalho retry-after. Os SDKs da Anthropic repetem automaticamente essas solicitações até 2 vezes por padrão (configurável via max_retries), aguardando o atraso especificado pelo servidor antes de cada nova tentativa. Como o modo rápido usa reposição contínua de tokens, o atraso retry-after é normalmente curto e as solicitações são bem-sucedidas assim que a capacidade estiver disponível.

Fallback para velocidade padrão

Se você preferir fazer fallback para a velocidade padrão em vez de aguardar a capacidade do modo rápido, capture o erro de limite de taxa e tente novamente sem speed: "fast". Defina max_retries como 0 na solicitação rápida inicial para ignorar as novas tentativas automáticas e falhar imediatamente em erros de limite de taxa.

Fazer fallback do modo rápido para o padrão resultará em uma falha no cache de prompt. Solicitações em velocidades diferentes não compartilham prefixos em cache.

Como definir max_retries como 0 também desativa as novas tentativas para outros erros transitórios (sobrecarga, erros internos do servidor), os exemplos abaixo reemitem a solicitação original com novas tentativas padrão para esses casos.

Considerações

  • Cache de prompt: Alternar entre velocidade rápida e padrão invalida o cache de prompt. Solicitações em velocidades diferentes não compartilham prefixos em cache.
  • Modelos suportados: O modo rápido é atualmente suportado apenas no Opus 4.6. Enviar speed: "fast" com um modelo não suportado retorna um erro.
  • TTFT: Os benefícios do modo rápido são focados em tokens de saída por segundo (OTPS), não no tempo até o primeiro token (TTFT).
  • API em lote: O modo rápido não está disponível com a API em lote.
  • Nível de Prioridade: O modo rápido não está disponível com o Nível de Prioridade.

Próximos passos

Preços

Veja informações detalhadas sobre preços do modo rápido.

Limites de taxa

Verifique os níveis de limite de taxa para o modo rápido.

Parâmetro de esforço

Controle o uso de tokens com o parâmetro de esforço.

Was this page helpful?

  • Modelos suportados
  • Como o modo rápido funciona
  • Uso básico
  • Preços
  • Limites de taxa
  • Verificando qual velocidade foi usada
  • Novas tentativas e fallback
  • Novas tentativas automáticas
  • Fallback para velocidade padrão
  • Considerações
  • Próximos passos
client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)
response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)