Loading...
    • Construir
    • Admin
    • Modelos e preços
    • SDKs do cliente
    • Referência da API
    Search...
    ⌘K
    Primeiros passos
    Introdução ao ClaudeInício rápido
    Construindo com Claude
    Visão geral dos recursosUsando a Messages APIHabilidade Claude APITratando motivos de parada
    Capacidades do modelo
    Extended thinkingAdaptive thinkingEsforçoOrçamentos de tarefas (beta)Modo rápido (beta: visualização de pesquisa)Saídas estruturadasCitaçõesStreaming de mensagensProcessamento em loteResultados de pesquisaRecusas em streamingSuporte multilíngueEmbeddings
    Ferramentas
    Visão geralComo o uso de ferramentas funcionaFerramenta de pesquisa na webFerramenta de busca na webFerramenta de execução de códigoFerramenta de consultorFerramenta de memóriaFerramenta BashFerramenta de uso de computadorFerramenta de editor de texto
    Infraestrutura de ferramentas
    Referência de ferramentasPesquisa de ferramentasChamada de ferramentas programáticaStreaming de ferramentas granular
    Gerenciamento de contexto
    Janelas de contextoCompactaçãoEdição de contextoCache de promptContagem de tokens
    Trabalhando com arquivos
    Files APISuporte a PDFImagens e visão
    Habilidades
    Visão geralInício rápidoMelhores práticasHabilidades para empresasHabilidades na API
    MCP
    Servidores MCP remotosConector MCP
    Engenharia de prompt
    Visão geralMelhores práticas de promptFerramentas de prompt do Console
    Testar e avaliar
    Definir sucesso e construir avaliaçõesUsando a ferramenta de avaliação no ConsoleReduzindo latência
    Fortalecer proteções
    Reduzir alucinaçõesAumentar consistência de saídaMitigar jailbreaksReduzir vazamento de prompt
    Recursos
    Glossário
    Notas de lançamento
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Testar e avaliar

    Reduzindo latência

    Aprenda estratégias para reduzir a latência ao usar Claude, incluindo seleção de modelo, otimização de prompt e streaming.

    Latência refere-se ao tempo que leva para o modelo processar um prompt e gerar uma saída. A latência pode ser influenciada por vários fatores, como o tamanho do modelo, a complexidade do prompt e a infraestrutura subjacente que suporta o modelo e o ponto de interação.

    É sempre melhor primeiro engenheirar um prompt que funcione bem sem restrições de modelo ou prompt, e depois tentar estratégias de redução de latência. Tentar reduzir a latência prematuramente pode impedir que você descubra qual é o melhor desempenho.


    Como medir latência

    Ao discutir latência, você pode encontrar vários termos e medições:

    • Latência de linha de base: Este é o tempo levado pelo modelo para processar o prompt e gerar a resposta, sem considerar os tokens de entrada e saída por segundo. Fornece uma ideia geral da velocidade do modelo.
    • Tempo para o primeiro token (TTFT): Esta métrica mede o tempo que leva para o modelo gerar o primeiro token da resposta, a partir de quando o prompt foi enviado. É particularmente relevante quando você está usando streaming (mais sobre isso depois) e deseja fornecer uma experiência responsiva aos seus usuários.

    Para uma compreensão mais aprofundada desses termos, confira nosso glossário.


    Como reduzir latência

    1. Escolha o modelo certo

    Uma das maneiras mais diretas de reduzir a latência é selecionar o modelo apropriado para seu caso de uso. Anthropic oferece uma gama de modelos com diferentes capacidades e características de desempenho. Considere seus requisitos específicos e escolha o modelo que melhor se adequa às suas necessidades em termos de velocidade e qualidade de saída.

    Para aplicações críticas em velocidade, Claude Haiku 4.5 oferece os tempos de resposta mais rápidos mantendo alta inteligência:

    Python
    import anthropic
    
    client = anthropic.Anthropic()
    
    # Para aplicações sensíveis ao tempo, use Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[
            {
                "role": "user",
                "content": "Resuma este feedback do cliente em 2 frases: [feedback text]",
            }
        ],
    )

    Para mais detalhes sobre métricas de modelo, consulte nossa página visão geral de modelos.

    2. Otimize o comprimento do prompt e da saída

    Minimize o número de tokens tanto no seu prompt de entrada quanto na saída esperada, mantendo ainda alto desempenho. Quanto menos tokens o modelo tiver que processar e gerar, mais rápida será a resposta.

    Aqui estão algumas dicas para ajudá-lo a otimizar seus prompts e saídas:

    • Seja claro mas conciso: Procure transmitir sua intenção de forma clara e concisa no prompt. Evite detalhes desnecessários ou informações redundantes, mantendo em mente que Claude carece de contexto sobre seu caso de uso e pode não fazer os saltos lógicos pretendidos se as instruções forem pouco claras.
    • Peça por respostas mais curtas: Peça ao Claude diretamente para ser conciso. A família Claude 3 de modelos tem direcionabilidade melhorada em relação às gerações anteriores. Se Claude está produzindo comprimento indesejado, peça ao Claude para reduzir sua tagarelice.
      Devido à forma como os LLMs contam tokens em vez de palavras, pedir uma contagem exata de palavras ou um limite de contagem de palavras não é uma estratégia tão eficaz quanto pedir limites de contagem de parágrafos ou frases.
    • Defina limites de saída apropriados: Use o parâmetro max_tokens para definir um limite rígido no comprimento máximo da resposta gerada. Isso impede que Claude gere saídas excessivamente longas.

      Nota: Quando a resposta atinge max_tokens tokens, a resposta será cortada, talvez no meio de uma frase ou palavra, então esta é uma técnica grosseira que pode exigir pós-processamento e geralmente é mais apropriada para respostas de múltipla escolha ou respostas curtas onde a resposta vem logo no início.

    • Experimente com temperatura: O parâmetro temperature controla a aleatoriedade da saída. Valores mais baixos (por exemplo, 0,2) às vezes podem levar a respostas mais focadas e curtas, enquanto valores mais altos (por exemplo, 0,8) podem resultar em saídas mais diversas mas potencialmente mais longas.

    Encontrar o equilíbrio certo entre clareza do prompt, qualidade da saída e contagem de tokens pode exigir alguma experimentação.

    3. Aproveite o streaming

    Streaming é um recurso que permite que o modelo comece a enviar sua resposta antes que a saída completa esteja pronta. Isso pode melhorar significativamente a responsividade percebida de sua aplicação, pois os usuários podem ver a saída do modelo em tempo real.

    Com o streaming ativado, você pode processar a saída do modelo conforme ela chega, atualizando sua interface de usuário ou executando outras tarefas em paralelo. Isso pode melhorar muito a experiência do usuário e fazer sua aplicação parecer mais interativa e responsiva.

    Visite streaming Messages para aprender como você pode implementar streaming para seu caso de uso.

    Was this page helpful?

    • Como medir latência
    • Como reduzir latência
    • 1. Escolha o modelo certo
    • 2. Otimize o comprimento do prompt e da saída
    • 3. Aproveite o streaming