O modo rápido fornece geração de tokens de saída significativamente mais rápida para Claude Opus 4.6. Ao definir speed: "fast" em sua solicitação de API, você obtém até 2,5x mais tokens de saída por segundo do mesmo modelo com preço premium.
O modo rápido está atualmente em visualização de pesquisa. Junte-se à lista de espera para solicitar acesso. A disponibilidade é limitada enquanto coletamos feedback.
O modo rápido é suportado nos seguintes modelos:
claude-opus-4-6)O modo rápido executa o mesmo modelo com uma configuração de inferência mais rápida. Não há alteração na inteligência ou capacidades.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'O modo rápido é precificado em 6x as taxas padrão do Opus para prompts ≤200K tokens, e 12x as taxas padrão do Opus para prompts > 200K tokens. A tabela a seguir mostra os preços para Claude Opus 4.6 com modo rápido:
| Janela de contexto | Entrada | Saída |
|---|---|---|
| ≤ 200K tokens de entrada | $30 / MTok | $150 / MTok |
| > 200K tokens de entrada | $60 / MTok | $225 / MTok |
Os preços do modo rápido se acumulam com outros modificadores de preço:
Para detalhes completos de preços, consulte a página de preços.
O modo rápido tem um limite de taxa dedicado que é separado dos limites de taxa padrão do Opus. Ao contrário da velocidade padrão, que tem limites separados para tokens de entrada ≤200K e >200K, o modo rápido usa um único limite de taxa que cobre o intervalo de contexto completo. Quando seu limite de taxa do modo rápido é excedido, a API retorna um erro 429 com um cabeçalho retry-after indicando quando a capacidade estará disponível.
A resposta inclui cabeçalhos que indicam o status do seu limite de taxa do modo rápido:
| Cabeçalho | Descrição |
|---|---|
anthropic-fast-input-tokens-limit | Máximo de tokens de entrada do modo rápido por minuto |
anthropic-fast-input-tokens-remaining | Tokens de entrada do modo rápido restantes |
anthropic-fast-input-tokens-reset | Hora em que o limite de tokens de entrada do modo rápido é redefinido |
anthropic-fast-output-tokens-limit | Máximo de tokens de saída do modo rápido por minuto |
anthropic-fast-output-tokens-remaining | Tokens de saída do modo rápido restantes |
anthropic-fast-output-tokens-reset | Hora em que o limite de tokens de saída do modo rápido é redefinido |
Para limites de taxa específicos do nível, consulte a página de limites de taxa.
O objeto usage da resposta inclui um campo speed que indica qual velocidade foi usada, seja "fast" ou "standard":
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Para rastrear o uso do modo rápido e os custos em toda a sua organização, consulte a API de Uso e Custo.
Quando os limites de taxa do modo rápido são excedidos, a API retorna um erro 429 com um cabeçalho retry-after. Os SDKs do Anthropic tentam automaticamente essas solicitações até 2 vezes por padrão (configurável via max_retries), aguardando o atraso especificado pelo servidor antes de cada tentativa. Como o modo rápido usa reabastecimento contínuo de tokens, o atraso retry-after é tipicamente curto e as solicitações são bem-sucedidas assim que a capacidade está disponível.
Se você preferir voltar para velocidade padrão em vez de esperar pela capacidade do modo rápido, capture o erro de limite de taxa e tente novamente sem speed: "fast". Defina max_retries para 0 na solicitação rápida inicial para pular tentativas automáticas e falhar imediatamente em erros de limite de taxa.
Voltar do modo rápido para velocidade padrão resultará em uma falha de cache de prompt. Solicitações em velocidades diferentes não compartilham prefixos em cache.
Como definir max_retries para 0 também desabilita tentativas para outros erros transitórios (sobrecarregado, erros internos do servidor), os exemplos abaixo reemitem a solicitação original com tentativas padrão para esses casos.
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" com um modelo não suportado retorna um erro.Visualize informações detalhadas de preços do modo rápido.
Verifique os níveis de limite de taxa para o modo rápido.
Controle o uso de tokens com o parâmetro de esforço.
Was this page helpful?