Loading...
    • Créer
    • Admin
    • Modèles et tarification
    • SDK clients
    • Référence API
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesCompétence Claude APIGérer les raisons d'arrêt
    Capacités du modèle
    Extended thinkingAdaptive thinkingEffortBudgets de tâches (bêta)Mode rapide (bêta : aperçu de recherche)Sorties structuréesCitationsMessages en continuTraitement par lotsRésultats de rechercheRefus en continuSupport multilingueEmbeddings
    Outils
    AperçuFonctionnement de l'utilisation des outilsOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil AdvisorOutil MemoryOutil BashOutil Computer useOutil Éditeur de texte
    Infrastructure des outils
    Référence des outilsRecherche d'outilsAppel programmatique des outilsStreaming granulaire des outils
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexteMise en cache des invitesComptage des tokens
    Travailler avec des fichiers
    API FilesSupport PDFImages et vision
    Compétences
    AperçuDémarrage rapideMeilleures pratiquesCompétences pour l'entrepriseCompétences dans l'API
    MCP
    Serveurs MCP distantsConnecteur MCP
    Ingénierie des invites
    AperçuMeilleures pratiques d'invitesOutils d'invites Console
    Tester et évaluer
    Définir le succès et créer des évaluationsUtiliser l'outil d'évaluation dans ConsoleRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRéduire les fuites d'invites
    Ressources
    Glossaire
    Notes de version
    Claude Platform
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Tester et évaluer

    Réduire la latence

    Apprenez à réduire la latence en optimisant le choix du modèle, la longueur des invites et en utilisant le streaming.

    La latence fait référence au temps qu'il faut au modèle pour traiter une invite et générer une sortie. La latence peut être influencée par divers facteurs, tels que la taille du modèle, la complexité de l'invite et l'infrastructure sous-jacente soutenant le modèle et le point d'interaction.

    Il est toujours préférable de d'abord concevoir une invite qui fonctionne bien sans contraintes de modèle ou d'invite, puis d'essayer les stratégies de réduction de latence après. Essayer de réduire la latence prématurément pourrait vous empêcher de découvrir à quoi ressemble la performance optimale.


    Comment mesurer la latence

    Lorsque vous discutez de la latence, vous pouvez rencontrer plusieurs termes et mesures :

    • Latence de base : C'est le temps nécessaire au modèle pour traiter l'invite et générer la réponse, sans tenir compte des jetons d'entrée et de sortie par seconde. Il donne une idée générale de la vitesse du modèle.
    • Temps jusqu'au premier jeton (TTFT) : Cette métrique mesure le temps qu'il faut au modèle pour générer le premier jeton de la réponse, à partir du moment où l'invite a été envoyée. C'est particulièrement pertinent lorsque vous utilisez le streaming (plus d'informations à ce sujet plus tard) et que vous souhaitez offrir une expérience réactive à vos utilisateurs.

    Pour une compréhension plus approfondie de ces termes, consultez notre glossaire.


    Comment réduire la latence

    1. Choisir le bon modèle

    L'une des façons les plus simples de réduire la latence est de sélectionner le modèle approprié pour votre cas d'usage. Anthropic propose une gamme de modèles avec des capacités et des caractéristiques de performance différentes. Considérez vos exigences spécifiques et choisissez le modèle qui correspond le mieux à vos besoins en termes de vitesse et de qualité de sortie.

    Pour les applications critiques en termes de vitesse, Claude Haiku 4.5 offre les temps de réponse les plus rapides tout en maintenant une intelligence élevée :

    Python
    import anthropic
    
    client = anthropic.Anthropic()
    
    # Pour les applications sensibles au temps, utilisez Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[
            {
                "role": "user",
                "content": "Summarize this customer feedback in 2 sentences: [feedback text]",
            }
        ],
    )

    Pour plus de détails sur les métriques des modèles, consultez notre page aperçu des modèles.

    2. Optimiser la longueur de l'invite et de la sortie

    Minimisez le nombre de jetons dans votre invite d'entrée et la sortie attendue, tout en maintenant une performance élevée. Moins il y a de jetons que le modèle doit traiter et générer, plus rapide sera la réponse.

    Voici quelques conseils pour vous aider à optimiser vos invites et vos sorties :

    • Soyez clair mais concis : Visez à transmettre votre intention clairement et de manière concise dans l'invite. Évitez les détails inutiles ou les informations redondantes, en gardant à l'esprit que Claude manque de contexte sur votre cas d'usage et peut ne pas faire les sauts logiques prévus si les instructions ne sont pas claires.
    • Demandez des réponses plus courtes : Demandez directement à Claude d'être concis. La famille Claude 3 de modèles a amélioré la gouvernabilité par rapport aux générations précédentes. Si Claude produit une longueur indésirable, demandez à Claude de réduire son bavardage.
      En raison de la façon dont les LLM comptent les jetons au lieu des mots, demander un nombre exact de mots ou une limite de nombre de mots n'est pas une stratégie aussi efficace que de demander des limites de nombre de paragraphes ou de phrases.
    • Définir des limites de sortie appropriées : Utilisez le paramètre max_tokens pour définir une limite stricte sur la longueur maximale de la réponse générée. Cela empêche Claude de générer des sorties excessivement longues.

      Remarque : Lorsque la réponse atteint max_tokens jetons, la réponse sera coupée, peut-être au milieu d'une phrase ou d'un mot, donc c'est une technique brutale qui peut nécessiter un post-traitement et est généralement la plus appropriée pour les réponses à choix multiples ou les réponses courtes où la réponse arrive dès le début.

    • Expérimenter avec la température : Le paramètre temperature contrôle le caractère aléatoire de la sortie. Les valeurs plus basses (par exemple, 0,2) peuvent parfois conduire à des réponses plus ciblées et plus courtes, tandis que les valeurs plus élevées (par exemple, 0,8) peuvent entraîner des sorties plus diverses mais potentiellement plus longues.

    Trouver le bon équilibre entre la clarté de l'invite, la qualité de la sortie et le nombre de jetons peut nécessiter une certaine expérimentation.

    3. Exploiter le streaming

    Le streaming est une fonctionnalité qui permet au modèle de commencer à renvoyer sa réponse avant que la sortie complète ne soit terminée. Cela peut améliorer considérablement la réactivité perçue de votre application, car les utilisateurs peuvent voir la sortie du modèle en temps réel.

    Avec le streaming activé, vous pouvez traiter la sortie du modèle au fur et à mesure qu'elle arrive, en mettant à jour votre interface utilisateur ou en effectuant d'autres tâches en parallèle. Cela peut grandement améliorer l'expérience utilisateur et rendre votre application plus interactive et réactive.

    Visitez Messages de streaming pour apprendre comment vous pouvez implémenter le streaming pour votre cas d'usage.

    Was this page helpful?

    • Comment mesurer la latence
    • Comment réduire la latence
    • 1. Choisir le bon modèle
    • 2. Optimiser la longueur de l'invite et de la sortie
    • 3. Exploiter le streaming