Claude Platform Docs
  • Messages
  • Agents gérés
  • Administration

Search...
⌘K
Cas d'usage
AperçuRoutage de ticketsAgent de support clientModération de contenuRésumé juridique
Ingénierie de prompts
AperçuBonnes pratiques de promptingPrompting de Claude Fable 5Prompting de Claude Opus 4.8Outils de prompting de la Console
Tester et évaluer
Définir le succès et créer des évaluationsUtiliser l'outil d'évaluation dans la ConsoleRéduire la latence
Renforcer les garde-fous
Réduire les hallucinationsAméliorer la cohérence des sortiesAtténuer les jailbreaksRéduire les fuites de prompt
Référence
Glossaire

Log in
Réduire la latence
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Bonnes pratiques/Tester et évaluer

Réduire la latence

La « latency » (latence) fait référence au temps nécessaire au modèle pour traiter un prompt et générer une sortie. La latence peut être influencée par divers facteurs, tels que la taille du modèle, la complexité du prompt et l'infrastructure sous-jacente qui prend en charge le modèle et le point d'interaction.



Il est toujours préférable de commencer par concevoir un prompt qui fonctionne bien sans contraintes liées au modèle ou au prompt, puis d'essayer ensuite des stratégies de réduction de la latence. Tenter de réduire la latence prématurément pourrait vous empêcher de découvrir à quoi ressemblent les performances optimales.


Comment mesurer la latence

Lorsque vous abordez le sujet de la latence, vous pouvez rencontrer plusieurs termes et mesures :

  • Latence de base : il s'agit du temps nécessaire au modèle pour traiter le prompt et générer la réponse, sans tenir compte des tokens d'entrée et de sortie par seconde. Cela donne une idée générale de la vitesse du modèle.
  • « Time to first token » (délai avant le premier token), ou TTFT : cette métrique mesure le temps nécessaire au modèle pour générer le premier token de la réponse, à partir du moment où le prompt a été envoyé. Elle est particulièrement pertinente lorsque vous utilisez le streaming (nous y reviendrons plus loin) et que vous souhaitez offrir une expérience réactive à vos utilisateurs.

Pour une compréhension plus approfondie de ces termes, consultez notre glossaire.


Comment réduire la latence

1. Choisir le bon modèle

L'un des moyens les plus simples de réduire la latence est de sélectionner le modèle approprié pour votre cas d'usage. Anthropic propose une gamme de modèles avec différentes capacités et caractéristiques de performance. Examinez vos exigences spécifiques et choisissez le modèle qui répond le mieux à vos besoins en termes de vitesse et de qualité de sortie.

Pour les applications où la vitesse est critique, Claude Haiku 4.5 offre les temps de réponse les plus rapides tout en maintenant un haut niveau d'intelligence :

Python
import anthropic

client = anthropic.Anthropic()

# Pour les applications sensibles au temps, utilisez Claude Haiku 4.5
message = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=100,
    messages=[
        {
            "role": "user",
            "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
        }
    ],
)

Pour plus de détails sur les métriques des modèles, consultez notre page de présentation des modèles.

2. Optimiser la longueur du prompt et de la sortie

Minimisez le nombre de tokens dans votre prompt d'entrée et dans la sortie attendue, tout en maintenant des performances élevées. Moins le modèle a de tokens à traiter et à générer, plus la réponse sera rapide.

Voici quelques conseils pour vous aider à optimiser vos prompts et vos sorties :

  • Soyez clair mais concis : efforcez-vous de transmettre votre intention de manière claire et concise dans le prompt. Évitez les détails inutiles ou les informations redondantes, tout en gardant à l'esprit que Claude manque de contexte sur votre cas d'usage et pourrait ne pas faire les déductions logiques attendues si les instructions ne sont pas claires.
  • Demandez des réponses plus courtes : demandez directement à Claude d'être concis. La famille de modèles Claude 3 offre une meilleure dirigeabilité que les générations précédentes. Si Claude produit des réponses d'une longueur non souhaitée, demandez-lui de limiter sa verbosité.
    
    En raison de la façon dont les LLM comptent les tokens plutôt que les mots, demander un nombre exact de mots ou une limite de mots n'est pas une stratégie aussi efficace que de demander une limite en nombre de paragraphes ou de phrases.
  • Définissez des limites de sortie appropriées : utilisez le paramètre max_tokens pour définir une limite stricte sur la longueur maximale de la réponse générée. Cela empêche Claude de générer des sorties excessivement longues.

    Remarque : lorsque la réponse atteint max_tokens tokens, elle sera tronquée, peut-être au milieu d'une phrase ou d'un mot. Il s'agit donc d'une technique brute qui peut nécessiter un post-traitement et qui convient généralement le mieux aux réponses à choix multiples ou aux réponses courtes où la réponse apparaît dès le début.

  • Expérimentez avec la température : le paramètre temperature contrôle le caractère aléatoire de la sortie. Des valeurs plus basses (par exemple, 0,2) peuvent parfois conduire à des réponses plus ciblées et plus courtes, tandis que des valeurs plus élevées (par exemple, 0,8) peuvent produire des sorties plus diversifiées mais potentiellement plus longues.

Trouver le bon équilibre entre la clarté du prompt, la qualité de la sortie et le nombre de tokens peut nécessiter quelques expérimentations.

3. Tirer parti du streaming

Le streaming est une fonctionnalité qui permet au modèle de commencer à renvoyer sa réponse avant que la sortie complète ne soit terminée. Cela peut améliorer considérablement la réactivité perçue de votre application, car les utilisateurs peuvent voir la sortie du modèle en temps réel.

Avec le streaming activé, vous pouvez traiter la sortie du modèle au fur et à mesure de son arrivée, en mettant à jour votre interface utilisateur ou en effectuant d'autres tâches en parallèle. Cela peut grandement améliorer l'expérience utilisateur et rendre votre application plus interactive et réactive.

Consultez la page streaming des Messages pour découvrir comment implémenter le streaming pour votre cas d'usage.

Was this page helpful?

  • Comment mesurer la latence
  • Comment réduire la latence
  • 1. Choisir le bon modèle
  • 2. Optimiser la longueur du prompt et de la sortie
  • 3. Tirer parti du streaming