"Latency" (latência) refere-se ao tempo que o modelo leva para processar um prompt e gerar uma saída. A latência pode ser influenciada por vários fatores, como o tamanho do modelo, a complexidade do prompt e a infraestrutura subjacente que suporta o modelo e o ponto de interação.
É sempre melhor primeiro desenvolver um prompt que funcione bem sem restrições de modelo ou de prompt, e depois tentar estratégias de redução de latência. Tentar reduzir a latência prematuramente pode impedir que você descubra como é o desempenho máximo.
Ao discutir latência, você pode encontrar vários termos e medições:
Para uma compreensão mais aprofundada desses termos, consulte nosso glossário.
Uma das maneiras mais diretas de reduzir a latência é selecionar o modelo apropriado para o seu caso de uso. A Anthropic oferece uma variedade de modelos com diferentes capacidades e características de desempenho. Considere seus requisitos específicos e escolha o modelo que melhor atenda às suas necessidades em termos de velocidade e qualidade de saída.
Para aplicações em que a velocidade é crítica, o Claude Haiku 4.5 oferece os tempos de resposta mais rápidos, mantendo alta inteligência:
import anthropic
client = anthropic.Anthropic()
# Para aplicações sensíveis ao tempo, use o Claude Haiku 4.5
message = client.messages.create(
model="claude-haiku-4-5",
max_tokens=100,
messages=[
{
"role": "user",
"content": "Summarize this customer feedback in 2 sentences: [feedback text]",
}
],
)Para mais detalhes sobre métricas de modelos, consulte nossa página de visão geral dos modelos.
Minimize o número de tokens tanto no seu prompt de entrada quanto na saída esperada, mantendo ainda um alto desempenho. Quanto menos tokens o modelo tiver que processar e gerar, mais rápida será a resposta.
Aqui estão algumas dicas para ajudar você a otimizar seus prompts e saídas:
max_tokens para definir um limite rígido no comprimento máximo da resposta gerada. Isso impede que o Claude gere saídas excessivamente longas.
Nota: Quando a resposta atinge
max_tokenstokens, ela será cortada, talvez no meio de uma frase ou palavra, então esta é uma técnica bruta que pode exigir pós-processamento e geralmente é mais apropriada para respostas de múltipla escolha ou respostas curtas em que a resposta vem logo no início.
temperature controla a aleatoriedade da saída. Valores mais baixos (por exemplo, 0.2) podem às vezes levar a respostas mais focadas e curtas, enquanto valores mais altos (por exemplo, 0.8) podem resultar em saídas mais diversas, mas potencialmente mais longas.Encontrar o equilíbrio certo entre clareza do prompt, qualidade da saída e contagem de tokens pode exigir alguma experimentação.
Streaming é um recurso que permite ao modelo começar a enviar sua resposta antes que a saída completa esteja finalizada. Isso pode melhorar significativamente a responsividade percebida da sua aplicação, pois os usuários podem ver a saída do modelo em tempo real.
Com o streaming habilitado, você pode processar a saída do modelo à medida que ela chega, atualizando sua interface de usuário ou executando outras tarefas em paralelo. Isso pode melhorar muito a experiência do usuário e fazer com que sua aplicação pareça mais interativa e responsiva.
Visite streaming de Messages para aprender como você pode implementar streaming para o seu caso de uso.
Was this page helpful?