Loading...
    • Guia do Desenvolvedor
    • Referência da API
    • MCP
    • Recursos
    • Notas de Lançamento
    Search...
    ⌘K

    Primeiros passos

    introget-started

    Modelos e preços

    overviewchoosing-a-modelwhats-new-claude-4-5migrating-to-claude-4model-deprecationspricing

    Criar com Claude

    overviewworking-with-messagescontext-windowsclaude-4-best-practices

    Capacidades

    prompt-cachingcontext-editingextended-thinkingstreamingbatch-processingcitationsmultilingual-supporttoken-countingembeddingsvisionpdf-supportfilessearch-resultsclaude-for-sheets

    Ferramentas

    overviewimplement-tool-usetoken-efficient-tool-usefine-grained-tool-streamingbash-toolcode-execution-toolcomputer-use-tooltext-editor-toolweb-fetch-toolweb-search-toolmemory-tool

    Habilidades do Agente

    overviewquickstartbest-practicesskills-guide

    SDK do Agente

    overviewtypescriptpython

    Guias

    streaming-vs-single-modepermissionssessionshostingmodifying-system-promptsmcpcustom-toolssubagentsslash-commandsskillscost-trackingtodo-trackingplugins

    MCP na API

    mcp-connectorremote-mcp-servers

    Claude em plataformas de terceiros

    claude-on-amazon-bedrockclaude-on-vertex-ai

    Engenharia de prompts

    overviewprompt-generatorprompt-templates-and-variablesprompt-improverbe-clear-and-directmultishot-promptingchain-of-thoughtuse-xml-tagssystem-promptsprefill-claudes-responsechain-promptslong-context-tipsextended-thinking-tips

    Testar e avaliar

    define-successdevelop-testseval-toolreduce-latency

    Fortalecer proteções

    reduce-hallucinationsincrease-consistencymitigate-jailbreakshandle-streaming-refusalsreduce-prompt-leakkeep-claude-in-character

    Administração e monitoramento

    administration-apiusage-cost-apiclaude-code-analytics-api
    Console
    Testar e avaliar

    Reduzindo latência

    Aprenda como reduzir a latência ao usar Claude, incluindo escolha de modelo, otimização de prompt e streaming.

    Latência refere-se ao tempo que leva para o modelo processar um prompt e gerar uma saída. A latência pode ser influenciada por vários fatores, como o tamanho do modelo, a complexidade do prompt e a infraestrutura subjacente que suporta o modelo e o ponto de interação.

    É sempre melhor primeiro projetar um prompt que funcione bem sem restrições de modelo ou prompt, e então tentar estratégias de redução de latência depois. Tentar reduzir a latência prematuramente pode impedir que você descubra como é o desempenho máximo.


    Como medir latência

    Ao discutir latência, você pode encontrar vários termos e medições:

    • Latência base: Este é o tempo levado pelo modelo para processar o prompt e gerar a resposta, sem considerar os tokens de entrada e saída por segundo. Fornece uma ideia geral da velocidade do modelo.
    • Tempo até o primeiro token (TTFT): Esta métrica mede o tempo que leva para o modelo gerar o primeiro token da resposta, a partir de quando o prompt foi enviado. É particularmente relevante quando você está usando streaming (mais sobre isso depois) e quer fornecer uma experiência responsiva aos seus usuários.

    Para um entendimento mais aprofundado desses termos, confira nosso glossário.


    Como reduzir latência

    1. Escolha o modelo certo

    Uma das maneiras mais diretas de reduzir latência é selecionar o modelo apropriado para seu caso de uso. A Anthropic oferece uma gama de modelos com diferentes capacidades e características de desempenho. Considere seus requisitos específicos e escolha o modelo que melhor se adequa às suas necessidades em termos de velocidade e qualidade de saída.

    Para aplicações críticas em velocidade, Claude Haiku 4.5 oferece os tempos de resposta mais rápidos mantendo alta inteligência:

    import anthropic
    
    client = anthropic.Anthropic()
    
    # Para aplicações sensíveis ao tempo, use Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[{
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]"
        }]
    )

    Para mais detalhes sobre métricas de modelo, veja nossa página de visão geral dos modelos.

    2. Otimize o comprimento do prompt e da saída

    Minimize o número de tokens tanto no seu prompt de entrada quanto na saída esperada, mantendo ainda alto desempenho. Quanto menos tokens o modelo tiver que processar e gerar, mais rápida será a resposta.

    Aqui estão algumas dicas para ajudá-lo a otimizar seus prompts e saídas:

    • Seja claro mas conciso: Procure transmitir sua intenção de forma clara e concisa no prompt. Evite detalhes desnecessários ou informações redundantes, mantendo em mente que Claude carece de contexto sobre seu caso de uso e pode não fazer os saltos lógicos pretendidos se as instruções não estiverem claras.
    • Peça respostas mais curtas: Peça ao Claude diretamente para ser conciso. A família de modelos Claude 3 tem melhor dirigibilidade em relação às gerações anteriores. Se Claude está produzindo comprimento indesejado, peça ao Claude para conter sua tagarelice.
      Devido a como LLMs contam tokens em vez de palavras, pedir uma contagem exata de palavras ou um limite de contagem de palavras não é uma estratégia tão eficaz quanto pedir limites de contagem de parágrafos ou frases.
    • Defina limites de saída apropriados: Use o parâmetro max_tokens para definir um limite rígido no comprimento máximo da resposta gerada. Isso impede que Claude gere saídas excessivamente longas.

      Nota: Quando a resposta atinge max_tokens tokens, a resposta será cortada, talvez no meio da frase ou no meio da palavra, então esta é uma técnica grosseira que pode exigir pós-processamento e geralmente é mais apropriada para respostas de múltipla escolha ou respostas curtas onde a resposta vem logo no início.

    • Experimente com temperatura: O parâmetro temperature controla a aleatoriedade da saída. Valores mais baixos (por exemplo, 0.2) às vezes podem levar a respostas mais focadas e mais curtas, enquanto valores mais altos (por exemplo, 0.8) podem resultar em saídas mais diversas mas potencialmente mais longas.

    Encontrar o equilíbrio certo entre clareza do prompt, qualidade da saída e contagem de tokens pode exigir alguma experimentação.

    3. Aproveite o streaming

    Streaming é um recurso que permite ao modelo começar a enviar de volta sua resposta antes que a saída completa esteja pronta. Isso pode melhorar significativamente a responsividade percebida da sua aplicação, já que os usuários podem ver a saída do modelo em tempo real.

    Com streaming habilitado, você pode processar a saída do modelo conforme ela chega, atualizando sua interface de usuário ou realizando outras tarefas em paralelo. Isso pode melhorar muito a experiência do usuário e fazer sua aplicação parecer mais interativa e responsiva.

    Visite streaming Messages para aprender sobre como você pode implementar streaming para seu caso de uso.

    • Como medir latência
    • Como reduzir latência
    • 1. Escolha o modelo certo
    • 2. Otimize o comprimento do prompt e da saída
    • 3. Aproveite o streaming
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC