Loading...
  • Costruisci
  • Amministrazione
  • Modelli e prezzi
  • Client SDK
  • Riferimento API
Search...
⌘K
Log in
Riduzione della latenza
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Costruisci/Testa e valuta

Ridurre la latenza

Was this page helpful?

  • Come misurare la latenza
  • Come ridurre la latenza
  • 1. Scegli il modello giusto
  • 2. Ottimizza la lunghezza del prompt e dell'output
  • 3. Sfrutta lo streaming

La latenza si riferisce al tempo impiegato dal modello per elaborare un prompt e generare un output. La latenza può essere influenzata da vari fattori, come la dimensione del modello, la complessità del prompt e l'infrastruttura sottostante che supporta il modello e il punto di interazione.

È sempre meglio prima progettare un prompt che funzioni bene senza vincoli di modello o di prompt, e poi provare le strategie di riduzione della latenza in seguito. Cercare di ridurre la latenza prematuramente potrebbe impedirti di scoprire come appare la massima performance.


Come misurare la latenza

Quando si parla di latenza, potresti incontrare diversi termini e misurazioni:

  • Latenza di base: Questo è il tempo impiegato dal modello per elaborare il prompt e generare la risposta, senza considerare i token di input e output al secondo. Fornisce un'idea generale della velocità del modello.
  • Tempo al primo token (TTFT): Questa metrica misura il tempo impiegato dal modello per generare il primo token della risposta, da quando il prompt è stato inviato. È particolarmente rilevante quando si utilizza lo streaming (maggiori dettagli in seguito) e si desidera fornire un'esperienza reattiva agli utenti.

Per una comprensione più approfondita di questi termini, consulta il nostro glossario.


Come ridurre la latenza

1. Scegli il modello giusto

Uno dei modi più diretti per ridurre la latenza è selezionare il modello appropriato per il tuo caso d'uso. Anthropic offre una gamma di modelli con diverse capacità e caratteristiche di performance. Considera i tuoi requisiti specifici e scegli il modello che meglio si adatta alle tue esigenze in termini di velocità e qualità dell'output.

Per le applicazioni in cui la velocità è critica, Claude Haiku 4.5 offre i tempi di risposta più rapidi mantenendo un'elevata intelligenza:

Python
import anthropic

client = anthropic.Anthropic()

# For time-sensitive applications, use Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

Per ulteriori dettagli sulle metriche dei modelli, consulta la nostra pagina panoramica dei modelli.

2. Ottimizza la lunghezza del prompt e dell'output

Riduci al minimo il numero di token sia nel prompt di input che nell'output atteso, mantenendo comunque alte prestazioni. Meno token il modello deve elaborare e generare, più rapida sarà la risposta.

Ecco alcuni suggerimenti per aiutarti a ottimizzare i tuoi prompt e output:

  • Sii chiaro ma conciso: Cerca di comunicare il tuo intento in modo chiaro e conciso nel prompt. Evita dettagli non necessari o informazioni ridondanti, tenendo presente che claude manca di contesto sul tuo caso d'uso e potrebbe non fare i salti logici previsti se le istruzioni non sono chiare.
  • Chiedi risposte più brevi: Chiedi direttamente a Claude di essere conciso. La famiglia di modelli Claude 3 ha una maggiore controllabilità rispetto alle generazioni precedenti. Se Claude produce una lunghezza indesiderata, chiedi a Claude di limitare la sua loquacità.
    A causa di come i LLM contano i token invece delle parole, chiedere un conteggio esatto delle parole o un limite di conteggio delle parole non è una strategia efficace quanto chiedere limiti di conteggio di paragrafi o frasi.
  • Imposta limiti di output appropriati: Usa il parametro max_tokens per impostare un limite rigido sulla lunghezza massima della risposta generata. Questo impedisce a Claude di generare output eccessivamente lunghi.

    Nota: Quando la risposta raggiunge max_tokens token, la risposta verrà interrotta, forse a metà frase o a metà parola, quindi questa è una tecnica approssimativa che potrebbe richiedere una post-elaborazione ed è solitamente più appropriata per risposte a scelta multipla o risposte brevi dove la risposta arriva subito all'inizio.

  • : Il controlla la casualità dell'output. Valori più bassi (ad es. 0.2) possono a volte portare a risposte più focalizzate e più brevi, mentre valori più alti (ad es. 0.8) possono risultare in output più diversificati ma potenzialmente più lunghi.

Trovare il giusto equilibrio tra chiarezza del prompt, qualità dell'output e conteggio dei token potrebbe richiedere qualche sperimentazione.

3. Sfrutta lo streaming

Lo streaming è una funzionalità che consente al modello di iniziare a inviare la sua risposta prima che l'output completo sia terminato. Questo può migliorare significativamente la reattività percepita della tua applicazione, poiché gli utenti possono vedere l'output del modello in tempo reale.

Con lo streaming abilitato, puoi elaborare l'output del modello man mano che arriva, aggiornando la tua interfaccia utente o eseguendo altre attività in parallelo. Questo può migliorare notevolmente l'esperienza utente e rendere la tua applicazione più interattiva e reattiva.

Visita streaming Messages per scoprire come puoi implementare lo streaming per il tuo caso d'uso.

Sperimenta con la temperatura
parametro
temperature