MensagensCapacidades do modelo

Modo rápido (prévia de pesquisa)

Obtenha até 2,5x mais tokens de saída por segundo dos modelos Claude Opus compatíveis.

O modo rápido oferece até 2,5x mais tokens de saída por segundo do Claude Opus 4.8 e do Claude Opus 4.7 com preço premium. Defina speed: "fast" com o cabeçalho beta fast-mode-2026-02-01 na sua requisição para ativar.

O modo rápido está em prévia de pesquisa. Entre em contato com seu gerente de conta para solicitar acesso. Se você não tiver um gerente de conta, entre na lista de espera do modo rápido.

Este recurso é elegível para Zero Data Retention (ZDR). Quando sua organização possui um acordo de ZDR, os dados enviados por meio deste recurso não são armazenados após a resposta da API ser retornada.

Modelos compatíveis

O modo rápido é compatível com os seguintes modelos:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

O modo rápido para Claude Opus 4.8 é lançado como prévia de pesquisa apenas na API do Claude, incluindo Claude Managed Agents. Não está disponível no Amazon Bedrock, Google Cloud ou Microsoft Foundry.

O modo rápido para Claude Opus 4.7 está descontinuado desde 25 de junho de 2026 e será removido em 24 de julho de 2026. Após a remoção, requisições para claude-opus-4-7 com speed: "fast" retornarão um erro; diferentemente do Claude Opus 4.6 (veja a nota a seguir), o Claude Opus 4.7 não faz fallback para a velocidade padrão. O modelo em si permanece disponível na velocidade padrão. Para continuar usando o modo rápido, migre para o Claude Opus 4.8.

Desde 29 de junho de 2026, o modo rápido não está disponível no Claude Opus 4.6. Requisições para claude-opus-4-6 com speed: "fast" não retornam erro: elas são executadas na velocidade padrão e cobradas pelas tarifas padrão em vez das tarifas premium do modo rápido, e a resposta informa usage.speed: "standard". Para continuar usando o modo rápido, migre para o Claude Opus 4.8.

Como o modo rápido funciona

O modo rápido executa o mesmo modelo com uma configuração de inferência mais rápida. Não há mudança na inteligência ou nas capacidades.

Até 2,5x mais tokens de saída por segundo em comparação com a velocidade padrão
Os benefícios de velocidade são focados em "output tokens per second" (tokens de saída por segundo), ou OTPS, não em "time to first token" (tempo até o primeiro token), ou TTFT
Mesmos pesos e comportamento do modelo (não é um modelo diferente)
Compatível com streaming, onde o ganho de OTPS é mais visível

Uso básico

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Preços

O modo rápido é precificado com um multiplicador por modelo sobre as tarifas padrão em toda a janela de contexto, incluindo requisições com mais de 200k tokens de entrada. A tabela a seguir mostra os preços do modo rápido para cada modelo compatível:

Modelo	Entrada	Saída
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

Os preços do modo rápido se acumulam com outros modificadores de preço:

Multiplicadores de cache de prompt são aplicados sobre os preços do modo rápido
Multiplicadores de residência de dados são aplicados sobre os preços do modo rápido

Para detalhes completos de preços, consulte a página de preços.

Limites de taxa

O modo rápido tem um limite de taxa dedicado que é separado dos limites de taxa padrão do Opus. Quando seu limite de taxa do modo rápido é excedido, a API retorna um erro 429 com um cabeçalho retry-after indicando quando a capacidade estará disponível.

A resposta inclui cabeçalhos que indicam o status do seu limite de taxa do modo rápido:

Cabeçalho	Descrição
`anthropic-fast-input-tokens-limit`	Máximo de tokens de entrada do modo rápido por minuto
`anthropic-fast-input-tokens-remaining`	Tokens de entrada do modo rápido restantes
`anthropic-fast-input-tokens-reset`	Momento em que o limite de tokens de entrada do modo rápido é redefinido
`anthropic-fast-output-tokens-limit`	Máximo de tokens de saída do modo rápido por minuto
`anthropic-fast-output-tokens-remaining`	Tokens de saída do modo rápido restantes
`anthropic-fast-output-tokens-reset`	Momento em que o limite de tokens de saída do modo rápido é redefinido

Para limites de taxa específicos por nível, consulte a página de limites de taxa.

Verificando qual velocidade foi usada

O objeto usage da resposta inclui um campo speed que indica qual velocidade foi usada, "fast" ou "standard". Nos modelos compatíveis, o modo rápido não faz fallback silencioso para a velocidade padrão em caso de limites de taxa ou capacidade (você receberá um 429 ou 529 em vez disso), então quando você solicita speed: "fast" no Claude Opus 4.8 ou Claude Opus 4.7, usage.speed é "fast". No Claude Opus 4.6, onde o modo rápido não está disponível, requisições com speed: "fast" são executadas na velocidade padrão e retornam usage.speed: "standard". Verifique esse campo para confirmar qual velocidade atendeu a uma requisição.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Para acompanhar o uso e os custos do modo rápido em toda a sua organização, consulte a API de Uso e Custo.

Novas tentativas e fallback

Novas tentativas automáticas

Quando os limites de taxa do modo rápido são excedidos, a API retorna um erro 429 com um cabeçalho retry-after. Os SDKs da Anthropic repetem automaticamente essas requisições até 2 vezes por padrão (configurável com max_retries), aguardando o atraso especificado pelo servidor antes de cada nova tentativa. Como o modo rápido usa reposição contínua de tokens, o atraso de retry-after é normalmente curto e as requisições são bem-sucedidas assim que a capacidade está disponível.

Fazendo fallback para a velocidade padrão

Esta seção aborda um fallback opcional do lado do cliente quando o modo rápido atinge o limite de taxa. É separado do comportamento no Claude Opus 4.6, onde o modo rápido não está disponível e as requisições são executadas na velocidade padrão automaticamente.

Se você preferir fazer fallback para a velocidade padrão em vez de aguardar a capacidade do modo rápido, capture o erro de limite de taxa e tente novamente sem speed: "fast". Defina max_retries como 0 na requisição rápida inicial para pular as novas tentativas automáticas e falhar imediatamente em erros de limite de taxa.

Fazer fallback de rápido para velocidade padrão resultará em um cache miss do cache de prompt. Requisições em velocidades diferentes não compartilham prefixos em cache.

Como definir max_retries como 0 também desativa novas tentativas para outros erros transitórios (sobrecarga, erros internos do servidor), os exemplos a seguir reenviam a requisição original com novas tentativas padrão para esses casos.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considerações

Cache de prompt: Alternar entre velocidade rápida e padrão invalida o cache de prompt. Requisições em velocidades diferentes não compartilham prefixos em cache.
Modelos compatíveis: O modo rápido é compatível com Claude Opus 4.8 e Claude Opus 4.7 (modo rápido descontinuado; remoção em 24 de julho de 2026, sem afetar o modelo em si). No Claude Opus 4.6, requisições com speed: "fast" não retornam erro: elas são executadas na velocidade padrão e cobradas pelas tarifas padrão. Em qualquer outro modelo, enviar speed: "fast" retorna um erro.
TTFT: Os benefícios do modo rápido são focados em tokens de saída por segundo (OTPS), não em tempo até o primeiro token (TTFT).
Batch API: O modo rápido não está disponível com a Batch API.
Priority Tier: O modo rápido não está disponível com um compromisso de Priority Tier.
Claude Platform on AWS: O modo rápido não está disponível atualmente no Claude Platform on AWS.

Próximos passos

Saídas estruturadas

Obtenha resultados JSON validados de fluxos de trabalho de agentes.

Preços

Saiba mais sobre a estrutura de preços da Anthropic para modelos e recursos.

Effort

Controle quantos tokens o Claude usa ao responder com o parâmetro effort, equilibrando entre a completude da resposta e a eficiência de tokens.

Streaming de mensagens

Transmita respostas da Messages API incrementalmente com server-sent events, incluindo deltas de texto, uso de ferramentas e pensamento estendido.

Was this page helpful?

MensagensCapacidades do modelo

Modo rápido (prévia de pesquisa)

Obtenha até 2,5x mais tokens de saída por segundo dos modelos Claude Opus compatíveis.

O modo rápido está em prévia de pesquisa. Entre em contato com seu gerente de conta para solicitar acesso. Se você não tiver um gerente de conta, entre na lista de espera do modo rápido.

Modelos compatíveis

O modo rápido é compatível com os seguintes modelos:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

Como o modo rápido funciona

O modo rápido executa o mesmo modelo com uma configuração de inferência mais rápida. Não há mudança na inteligência ou nas capacidades.

Até 2,5x mais tokens de saída por segundo em comparação com a velocidade padrão
Os benefícios de velocidade são focados em "output tokens per second" (tokens de saída por segundo), ou OTPS, não em "time to first token" (tempo até o primeiro token), ou TTFT
Mesmos pesos e comportamento do modelo (não é um modelo diferente)
Compatível com streaming, onde o ganho de OTPS é mais visível

Uso básico

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Preços

Modelo	Entrada	Saída
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

Os preços do modo rápido se acumulam com outros modificadores de preço:

Multiplicadores de cache de prompt são aplicados sobre os preços do modo rápido
Multiplicadores de residência de dados são aplicados sobre os preços do modo rápido

Para detalhes completos de preços, consulte a página de preços.

Limites de taxa

A resposta inclui cabeçalhos que indicam o status do seu limite de taxa do modo rápido:

Cabeçalho	Descrição
`anthropic-fast-input-tokens-limit`	Máximo de tokens de entrada do modo rápido por minuto
`anthropic-fast-input-tokens-remaining`	Tokens de entrada do modo rápido restantes
`anthropic-fast-input-tokens-reset`	Momento em que o limite de tokens de entrada do modo rápido é redefinido
`anthropic-fast-output-tokens-limit`	Máximo de tokens de saída do modo rápido por minuto
`anthropic-fast-output-tokens-remaining`	Tokens de saída do modo rápido restantes
`anthropic-fast-output-tokens-reset`	Momento em que o limite de tokens de saída do modo rápido é redefinido

Para limites de taxa específicos por nível, consulte a página de limites de taxa.

Verificando qual velocidade foi usada

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Para acompanhar o uso e os custos do modo rápido em toda a sua organização, consulte a API de Uso e Custo.

Novas tentativas e fallback

Novas tentativas automáticas

Fazendo fallback para a velocidade padrão

Fazer fallback de rápido para velocidade padrão resultará em um cache miss do cache de prompt. Requisições em velocidades diferentes não compartilham prefixos em cache.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considerações

Cache de prompt: Alternar entre velocidade rápida e padrão invalida o cache de prompt. Requisições em velocidades diferentes não compartilham prefixos em cache.
Modelos compatíveis: O modo rápido é compatível com Claude Opus 4.8 e Claude Opus 4.7 (modo rápido descontinuado; remoção em 24 de julho de 2026, sem afetar o modelo em si). No Claude Opus 4.6, requisições com speed: "fast" não retornam erro: elas são executadas na velocidade padrão e cobradas pelas tarifas padrão. Em qualquer outro modelo, enviar speed: "fast" retorna um erro.
TTFT: Os benefícios do modo rápido são focados em tokens de saída por segundo (OTPS), não em tempo até o primeiro token (TTFT).
Batch API: O modo rápido não está disponível com a Batch API.
Priority Tier: O modo rápido não está disponível com um compromisso de Priority Tier.
Claude Platform on AWS: O modo rápido não está disponível atualmente no Claude Platform on AWS.

Próximos passos

Saídas estruturadas

Obtenha resultados JSON validados de fluxos de trabalho de agentes.

Preços

Saiba mais sobre a estrutura de preços da Anthropic para modelos e recursos.

Effort

Controle quantos tokens o Claude usa ao responder com o parâmetro effort, equilibrando entre a completude da resposta e a eficiência de tokens.

Streaming de mensagens

Transmita respostas da Messages API incrementalmente com server-sent events, incluindo deltas de texto, uso de ferramentas e pensamento estendido.

Was this page helpful?

Modelos compatíveis

Como o modo rápido funciona

Uso básico

Preços

Limites de taxa

Verificando qual velocidade foi usada

Novas tentativas e fallback

Novas tentativas automáticas

Fazendo fallback para a velocidade padrão

Considerações

Próximos passos

Modelos compatíveis

Como o modo rápido funciona

Uso básico

Preços

Limites de taxa

Verificando qual velocidade foi usada

Novas tentativas e fallback

Novas tentativas automáticas

Fazendo fallback para a velocidade padrão

Considerações

Próximos passos

Modelos compatíveis

Como o modo rápido funciona

Uso básico

Preços

Limites de taxa

Verificando qual velocidade foi usada

Novas tentativas e fallback

Novas tentativas automáticas

Fazendo fallback para a velocidade padrão

Considerações

Próximos passos

Modelos compatíveis

Como o modo rápido funciona

Uso básico

Preços

Limites de taxa

Verificando qual velocidade foi usada

Novas tentativas e fallback

Novas tentativas automáticas

Fazendo fallback para a velocidade padrão

Considerações

Próximos passos