O modo rápido fornece geração de tokens de saída significativamente mais rápida para Claude Opus 4.6. Ao definir speed: "fast" na sua solicitação de API, você obtém até 2,5x mais tokens de saída por segundo do mesmo modelo com preços premium.
O modo rápido está em beta (prévia de pesquisa). Junte-se à lista de espera para solicitar acesso. A disponibilidade é limitada enquanto a Anthropic coleta feedback.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
O modo rápido é suportado nos seguintes modelos:
claude-opus-4-6)O modo rápido executa o mesmo modelo com uma configuração de inferência mais rápida. Não há alteração na inteligência ou nas capacidades.
O modo rápido tem preço de 6x as tarifas padrão do Opus em toda a janela de contexto, incluindo solicitações com mais de 200k tokens de entrada. A tabela a seguir mostra os preços para Claude Opus 4.6 com modo rápido:
| Entrada | Saída |
|---|---|
| $30 / MTok | $150 / MTok |
Os preços do modo rápido se acumulam com outros modificadores de preços:
Para detalhes completos de preços, consulte a página de preços.
O modo rápido tem um limite de taxa dedicado que é separado dos limites de taxa padrão do Opus. Quando o limite de taxa do modo rápido é excedido, a API retorna um erro 429 com um cabeçalho retry-after indicando quando a capacidade estará disponível.
A resposta inclui cabeçalhos que indicam o status do limite de taxa do modo rápido:
| Cabeçalho | Descrição |
|---|---|
anthropic-fast-input-tokens-limit | Máximo de tokens de entrada do modo rápido por minuto |
anthropic-fast-input-tokens-remaining | Tokens de entrada restantes do modo rápido |
anthropic-fast-input-tokens-reset | Hora em que o limite de tokens de entrada do modo rápido é redefinido |
anthropic-fast-output-tokens-limit | Máximo de tokens de saída do modo rápido por minuto |
anthropic-fast-output-tokens-remaining | Tokens de saída restantes do modo rápido |
anthropic-fast-output-tokens-reset | Hora em que o limite de tokens de saída do modo rápido é redefinido |
Para limites de taxa específicos por nível, consulte a página de limites de taxa.
O objeto usage da resposta inclui um campo speed que indica qual velocidade foi usada, seja "fast" ou "standard":
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Para rastrear o uso e os custos do modo rápido em toda a sua organização, consulte a API de Uso e Custo.
Quando os limites de taxa do modo rápido são excedidos, a API retorna um erro 429 com um cabeçalho retry-after. Os SDKs da Anthropic repetem automaticamente essas solicitações até 2 vezes por padrão (configurável via max_retries), aguardando o atraso especificado pelo servidor antes de cada nova tentativa. Como o modo rápido usa reposição contínua de tokens, o atraso retry-after é normalmente curto e as solicitações são bem-sucedidas assim que a capacidade estiver disponível.
Se você preferir fazer fallback para a velocidade padrão em vez de aguardar a capacidade do modo rápido, capture o erro de limite de taxa e tente novamente sem speed: "fast". Defina max_retries como 0 na solicitação rápida inicial para ignorar as novas tentativas automáticas e falhar imediatamente em erros de limite de taxa.
Fazer fallback do modo rápido para o padrão resultará em uma falha no cache de prompt. Solicitações em velocidades diferentes não compartilham prefixos em cache.
Como definir max_retries como 0 também desativa as novas tentativas para outros erros transitórios (sobrecarga, erros internos do servidor), os exemplos abaixo reemitem a solicitação original com novas tentativas padrão para esses casos.
speed: "fast" com um modelo não suportado retorna um erro.Veja informações detalhadas sobre preços do modo rápido.
Verifique os níveis de limite de taxa para o modo rápido.
Controle o uso de tokens com o parâmetro de esforço.
Was this page helpful?
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)