Claude Platform Docs
  • Mensagens
  • Agentes Gerenciados
  • Administração

Search...
⌘K
Casos de uso
Visão geralRoteamento de ticketsAgente de suporte ao clienteModeração de conteúdoResumo jurídico
Engenharia de prompts
Visão geralPráticas recomendadas de promptsPrompts para o Claude Fable 5Prompts para o Claude Opus 4.8Prompts para o Claude Sonnet 5Ferramentas de prompts do Console
Testar e avaliar
Definir sucesso e criar avaliaçõesUsando a Ferramenta de Avaliação no ConsoleReduzindo a latência
Fortalecer proteções
Reduzir alucinaçõesAumentar a consistência das saídasMitigar jailbreaksReduzir vazamento de prompt
Referência
Glossário

Log in
Reduzindo a latência
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Práticas recomendadas/Testar e avaliar

Reduzindo a latência

"Latency" (latência) refere-se ao tempo que o modelo leva para processar um prompt e gerar uma saída. A latência pode ser influenciada por vários fatores, como o tamanho do modelo, a complexidade do prompt e a infraestrutura subjacente que suporta o modelo e o ponto de interação.



É sempre melhor primeiro desenvolver um prompt que funcione bem sem restrições de modelo ou de prompt, e depois tentar estratégias de redução de latência. Tentar reduzir a latência prematuramente pode impedir que você descubra como é o desempenho máximo.


Como medir a latência

Ao discutir latência, você pode encontrar vários termos e medições:

  • Latência base: Este é o tempo que o modelo leva para processar o prompt e gerar a resposta, sem considerar os tokens de entrada e saída por segundo. Fornece uma ideia geral da velocidade do modelo.
  • Time to first token (TTFT): Esta métrica mede o tempo que o modelo leva para gerar o primeiro token da resposta, a partir do momento em que o prompt foi enviado. É particularmente relevante quando você está usando streaming (mais sobre isso adiante) e deseja fornecer uma experiência responsiva aos seus usuários.

Para uma compreensão mais aprofundada desses termos, consulte nosso glossário.


Como reduzir a latência

1. Escolha o modelo certo

Uma das maneiras mais diretas de reduzir a latência é selecionar o modelo apropriado para o seu caso de uso. A Anthropic oferece uma variedade de modelos com diferentes capacidades e características de desempenho. Considere seus requisitos específicos e escolha o modelo que melhor atenda às suas necessidades em termos de velocidade e qualidade de saída.

Para aplicações em que a velocidade é crítica, o Claude Haiku 4.5 oferece os tempos de resposta mais rápidos, mantendo alta inteligência:

Python
import anthropic

client = anthropic.Anthropic()

# Para aplicações sensíveis ao tempo, use o Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

Para mais detalhes sobre métricas de modelos, consulte nossa página de visão geral dos modelos.

2. Otimize o tamanho do prompt e da saída

Minimize o número de tokens tanto no seu prompt de entrada quanto na saída esperada, mantendo ainda um alto desempenho. Quanto menos tokens o modelo tiver que processar e gerar, mais rápida será a resposta.

Aqui estão algumas dicas para ajudar você a otimizar seus prompts e saídas:

  • Seja claro, mas conciso: Procure transmitir sua intenção de forma clara e concisa no prompt. Evite detalhes desnecessários ou informações redundantes, tendo em mente que o Claude não tem contexto sobre o seu caso de uso e pode não fazer os saltos lógicos pretendidos se as instruções não forem claras.
  • Peça respostas mais curtas: Peça diretamente ao Claude para ser conciso. A família de modelos Claude 3 tem maior capacidade de direcionamento em relação às gerações anteriores. Se o Claude estiver gerando saídas com comprimento indesejado, peça ao Claude para conter sua verbosidade.
    
    Devido à forma como os LLMs contam tokens em vez de palavras, pedir uma contagem exata de palavras ou um limite de contagem de palavras não é uma estratégia tão eficaz quanto pedir limites de contagem de parágrafos ou frases.
  • Defina limites de saída apropriados: Use o parâmetro max_tokens para definir um limite rígido no comprimento máximo da resposta gerada. Isso impede que o Claude gere saídas excessivamente longas.

    Nota: Quando a resposta atinge max_tokens tokens, ela será cortada, talvez no meio de uma frase ou palavra, então esta é uma técnica bruta que pode exigir pós-processamento e geralmente é mais apropriada para respostas de múltipla escolha ou respostas curtas em que a resposta vem logo no início.

  • Experimente com a temperatura: O parâmetro temperature controla a aleatoriedade da saída. Valores mais baixos (por exemplo, 0.2) podem às vezes levar a respostas mais focadas e curtas, enquanto valores mais altos (por exemplo, 0.8) podem resultar em saídas mais diversas, mas potencialmente mais longas.

Encontrar o equilíbrio certo entre clareza do prompt, qualidade da saída e contagem de tokens pode exigir alguma experimentação.

3. Aproveite o streaming

Streaming é um recurso que permite ao modelo começar a enviar sua resposta antes que a saída completa esteja finalizada. Isso pode melhorar significativamente a responsividade percebida da sua aplicação, pois os usuários podem ver a saída do modelo em tempo real.

Com o streaming habilitado, você pode processar a saída do modelo à medida que ela chega, atualizando sua interface de usuário ou executando outras tarefas em paralelo. Isso pode melhorar muito a experiência do usuário e fazer com que sua aplicação pareça mais interativa e responsiva.

Visite streaming de Messages para aprender como você pode implementar streaming para o seu caso de uso.

Was this page helpful?

  • Como medir a latência
  • Como reduzir a latência
  • 1. Escolha o modelo certo
  • 2. Otimize o tamanho do prompt e da saída
  • 3. Aproveite o streaming