Loading...
    • Guia do Desenvolvedor
    • Referência da API
    • MCP
    • Recursos
    • Notas de lançamento
    Search...
    ⌘K
    Primeiros passos
    Introdução ao ClaudeInício rápido
    Modelos e preços
    Visão geral dos modelosEscolhendo um modeloNovidades no Claude 4.6Guia de migraçãoDescontinuação de modelosPreços
    Construir com Claude
    Visão geral de recursosUsando a API MessagesTratando motivos de paradaMelhores práticas de prompting
    Capacidades do modelo
    Pensamento estendidoPensamento adaptativoEsforçoModo rápido (visualização de pesquisa)Saídas estruturadasCitaçõesStreaming de mensagensProcessamento em loteSuporte a PDFResultados de pesquisaSuporte multilíngueEmbeddingsVisão
    Ferramentas
    Visão geralComo implementar o uso de ferramentasFerramenta de pesquisa na webFerramenta de busca na webFerramenta de execução de códigoFerramenta de memóriaFerramenta BashFerramenta de uso do computadorFerramenta de editor de texto
    Infraestrutura de ferramentas
    Pesquisa de ferramentasChamada de ferramentas programáticaStreaming de ferramentas de granulação fina
    Gerenciamento de contexto
    Janelas de contextoCompactaçãoEdição de contextoCache de promptsContagem de tokens
    Arquivos e ativos
    API de arquivos
    Habilidades do agente
    Visão geralInício rápidoMelhores práticasHabilidades para empresasUsando habilidades com a API
    SDK do agente
    Visão geralInício rápidoSDK TypeScriptTypeScript V2 (visualização)SDK PythonGuia de migração
    MCP na API
    Conector MCPServidores MCP remotos
    Claude em plataformas de terceiros
    Amazon BedrockMicrosoft FoundryVertex AI
    Engenharia de prompts
    Visão geralGerador de promptsUsar modelos de promptsMelhorador de promptsSeja claro e diretoUse exemplos (prompting multishot)Deixe Claude pensar (CoT)Use tags XMLDê um papel ao Claude (prompts do sistema)Encadear prompts complexosDicas de contexto longoDicas de pensamento estendido
    Testar e avaliar
    Definir critérios de sucessoDesenvolver casos de testeUsando a ferramenta de avaliaçãoReduzindo latência
    Fortalecer proteções
    Reduzir alucinaçõesAumentar consistência de saídaMitigar jailbreaksRecusas de streamingReduzir vazamento de promptsManter Claude em personagem
    Administração e monitoramento
    Visão geral da API de administraçãoResidência de dadosEspaços de trabalhoAPI de uso e custoAPI de análise de código ClaudeRetenção zero de dados
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Capacidades do modelo

    Modo rápido (visualização de pesquisa)

    Velocidade de saída mais alta para Claude Opus 4.6, entregando geração de tokens significativamente mais rápida para fluxos de trabalho sensíveis à latência e agênticos.

    O modo rápido fornece geração de tokens de saída significativamente mais rápida para Claude Opus 4.6. Ao definir speed: "fast" em sua solicitação de API, você obtém até 2,5x mais tokens de saída por segundo do mesmo modelo com preço premium.

    O modo rápido está atualmente em visualização de pesquisa. Junte-se à lista de espera para solicitar acesso. A disponibilidade é limitada enquanto coletamos feedback.

    Modelos suportados

    O modo rápido é suportado nos seguintes modelos:

    • Claude Opus 4.6 (claude-opus-4-6)

    Como funciona o modo rápido

    O modo rápido executa o mesmo modelo com uma configuração de inferência mais rápida. Não há alteração na inteligência ou capacidades.

    • Até 2,5x mais tokens de saída por segundo em comparação com velocidade padrão
    • Os benefícios de velocidade são focados em tokens de saída por segundo (OTPS), não em tempo até o primeiro token (TTFT)
    • Mesmos pesos e comportamento do modelo (não é um modelo diferente)

    Uso básico

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Preços

    O modo rápido é precificado em 6x as taxas padrão do Opus para prompts ≤200K tokens, e 12x as taxas padrão do Opus para prompts > 200K tokens. A tabela a seguir mostra os preços para Claude Opus 4.6 com modo rápido:

    Janela de contextoEntradaSaída
    ≤ 200K tokens de entrada$30 / MTok$150 / MTok
    > 200K tokens de entrada$60 / MTok$225 / MTok

    Os preços do modo rápido se acumulam com outros modificadores de preço:

    • Multiplicadores de cache de prompt se aplicam sobre os preços do modo rápido
    • Residência de dados multiplicadores se aplicam sobre os preços do modo rápido

    Para detalhes completos de preços, consulte a página de preços.

    Limites de taxa

    O modo rápido tem um limite de taxa dedicado que é separado dos limites de taxa padrão do Opus. Ao contrário da velocidade padrão, que tem limites separados para tokens de entrada ≤200K e >200K, o modo rápido usa um único limite de taxa que cobre o intervalo de contexto completo. Quando seu limite de taxa do modo rápido é excedido, a API retorna um erro 429 com um cabeçalho retry-after indicando quando a capacidade estará disponível.

    A resposta inclui cabeçalhos que indicam o status do seu limite de taxa do modo rápido:

    CabeçalhoDescrição
    anthropic-fast-input-tokens-limitMáximo de tokens de entrada do modo rápido por minuto
    anthropic-fast-input-tokens-remainingTokens de entrada do modo rápido restantes
    anthropic-fast-input-tokens-resetHora em que o limite de tokens de entrada do modo rápido é redefinido
    anthropic-fast-output-tokens-limitMáximo de tokens de saída do modo rápido por minuto
    anthropic-fast-output-tokens-remainingTokens de saída do modo rápido restantes
    anthropic-fast-output-tokens-resetHora em que o limite de tokens de saída do modo rápido é redefinido

    Para limites de taxa específicos do nível, consulte a página de limites de taxa.

    Verificando qual velocidade foi usada

    O objeto usage da resposta inclui um campo speed que indica qual velocidade foi usada, seja "fast" ou "standard":

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    Para rastrear o uso do modo rápido e os custos em toda a sua organização, consulte a API de Uso e Custo.

    Tentativas e fallback

    Tentativas automáticas

    Quando os limites de taxa do modo rápido são excedidos, a API retorna um erro 429 com um cabeçalho retry-after. Os SDKs do Anthropic tentam automaticamente essas solicitações até 2 vezes por padrão (configurável via max_retries), aguardando o atraso especificado pelo servidor antes de cada tentativa. Como o modo rápido usa reabastecimento contínuo de tokens, o atraso retry-after é tipicamente curto e as solicitações são bem-sucedidas assim que a capacidade está disponível.

    Voltando para velocidade padrão

    Se você preferir voltar para velocidade padrão em vez de esperar pela capacidade do modo rápido, capture o erro de limite de taxa e tente novamente sem speed: "fast". Defina max_retries para 0 na solicitação rápida inicial para pular tentativas automáticas e falhar imediatamente em erros de limite de taxa.

    Voltar do modo rápido para velocidade padrão resultará em uma falha de cache de prompt. Solicitações em velocidades diferentes não compartilham prefixos em cache.

    Como definir max_retries para 0 também desabilita tentativas para outros erros transitórios (sobrecarregado, erros internos do servidor), os exemplos abaixo reemitem a solicitação original com tentativas padrão para esses casos.

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    Considerações

    • Cache de prompt: Alternar entre velocidade rápida e padrão invalida o cache de prompt. Solicitações em velocidades diferentes não compartilham prefixos em cache.
    • Modelos suportados: O modo rápido é atualmente suportado apenas no Opus 4.6. Enviar speed: "fast" com um modelo não suportado retorna um erro.
    • TTFT: Os benefícios do modo rápido são focados em tokens de saída por segundo (OTPS), não em tempo até o primeiro token (TTFT).
    • API em lote: O modo rápido não está disponível com a API em lote.
    • Nível de prioridade: O modo rápido não está disponível com Nível de prioridade.

    Próximas etapas

    Preços

    Visualize informações detalhadas de preços do modo rápido.

    Limites de taxa

    Verifique os níveis de limite de taxa para o modo rápido.

    Parâmetro de esforço

    Controle o uso de tokens com o parâmetro de esforço.

    Was this page helpful?

    • Modelos suportados
    • Como funciona o modo rápido
    • Uso básico
    • Preços
    • Limites de taxa
    • Verificando qual velocidade foi usada
    • Tentativas e fallback
    • Tentativas automáticas
    • Voltando para velocidade padrão
    • Considerações
    • Próximas etapas