Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K

    Premiers pas

    Introduction à ClaudeDémarrage rapide

    Modèles et tarification

    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.5Migration vers Claude 4.5Dépréciations de modèlesTarification

    Créer avec Claude

    Aperçu des fonctionnalitésTravailler avec l'API MessagesFenêtres de contexteMeilleures pratiques de prompting

    Capacités

    Mise en cache des invitesÉdition du contexteRéflexion étendueMessages en streamingTraitement par lotsCitationsSupport multilingueComptage de tokensEmbeddingsVisionSupport PDFAPI FilesRésultats de rechercheExtension Google Sheets

    Outils

    AperçuComment implémenter l'utilisation d'outilsUtilisation efficace des outils en termes de jetonsStreaming d'outils à granularité fineOutil BashOutil d'exécution de codeOutil d'utilisation d'ordinateurOutil d'éditeur de texteOutil de récupération webOutil de recherche webOutil de mémoire

    Compétences de l'Agent

    Compétences d'AgentCommencer avec les Agent Skills dans l'APIBonnes pratiques de création de SkillsUtilisation des compétences

    SDK Agent

    AperçuRéférence du SDK Agent - TypeScriptRéférence du SDK Agent - Python

    Guides

    Entrée en StreamingGestion des PermissionsGestion des SessionsHébergement du SDK AgentModification des invites systèmeMCP dans le SDKOutils PersonnalisésSous-agents dans le SDKCommandes Slash dans le SDKCompétences d'agent dans le SDKSuivi des Coûts et de l'UtilisationListes de TâchesPlugins dans le SDK

    MCP dans l'API

    Connecteur MCPServeurs MCP distants

    Claude sur les plateformes tierces

    Amazon BedrockVertex AI

    Ingénierie des prompts

    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsSoyez clair et directUtiliser des exemples (prompting multishot)Laissez Claude réfléchir (CoT)Utiliser les balises XMLDonner un rôle à Claude (invites système)Préremplissez la réponse de ClaudeEnchaîner des prompts complexesConseils contexte longConseils pour la réflexion étendue

    Tester et évaluer

    Définir les critères de réussiteDévelopper des cas de testUtilisation de l'outil d'évaluationRéduction de la latence

    Renforcer les garde-fous

    Réduire les hallucinationsAméliorer la cohérenceAtténuer les jailbreakshandle-streaming-refusalsRéduire la fuite de promptGarder Claude dans son rôle

    Administration et surveillance

    Aperçu de l'API AdminAPI d'utilisation et de coûtAPI Claude Code Analytics
    Console
    Tester et évaluer

    Réduction de la latence

    Guide pour réduire la latence lors de l'utilisation des modèles Claude

    La latence fait référence au temps nécessaire au modèle pour traiter une invite et générer une sortie. La latence peut être influencée par divers facteurs, tels que la taille du modèle, la complexité de l'invite et l'infrastructure sous-jacente supportant le modèle et le point d'interaction.

    Il est toujours préférable d'abord d'ingénier une invite qui fonctionne bien sans contraintes de modèle ou d'invite, puis d'essayer les stratégies de réduction de latence par la suite. Essayer de réduire la latence prématurément pourrait vous empêcher de découvrir à quoi ressemble une performance optimale.


    Comment mesurer la latence

    Lorsque vous discutez de latence, vous pouvez rencontrer plusieurs termes et mesures :

    • Latence de base : C'est le temps pris par le modèle pour traiter l'invite et générer la réponse, sans considérer les jetons d'entrée et de sortie par seconde. Cela fournit une idée générale de la vitesse du modèle.
    • Temps jusqu'au premier jeton (TTFT) : Cette métrique mesure le temps nécessaire au modèle pour générer le premier jeton de la réponse, à partir du moment où l'invite a été envoyée. C'est particulièrement pertinent lorsque vous utilisez le streaming (plus d'informations à ce sujet plus tard) et que vous voulez fournir une expérience réactive à vos utilisateurs.

    Pour une compréhension plus approfondie de ces termes, consultez notre glossaire.


    Comment réduire la latence

    1. Choisir le bon modèle

    L'une des façons les plus directes de réduire la latence est de sélectionner le modèle approprié pour votre cas d'usage. Anthropic offre une gamme de modèles avec différentes capacités et caractéristiques de performance. Considérez vos exigences spécifiques et choisissez le modèle qui correspond le mieux à vos besoins en termes de vitesse et de qualité de sortie.

    Pour les applications critiques en vitesse, Claude Haiku 4.5 offre les temps de réponse les plus rapides tout en maintenant une intelligence élevée :

    import anthropic
    
    client = anthropic.Anthropic()
    
    # Pour les applications sensibles au temps, utilisez Claude Haiku 4.5
    message = client.messages.create(
        model="claude-haiku-4-5",
        max_tokens=100,
        messages=[{
            "role": "user",
            "content": "Résumez ce retour client en 2 phrases : [texte du retour]"
        }]
    )

    Pour plus de détails sur les métriques des modèles, consultez notre page aperçu des modèles.

    2. Optimiser la longueur de l'invite et de la sortie

    Minimisez le nombre de jetons dans votre invite d'entrée et la sortie attendue, tout en maintenant une performance élevée. Moins le modèle a de jetons à traiter et générer, plus la réponse sera rapide.

    Voici quelques conseils pour vous aider à optimiser vos invites et sorties :

    • Soyez clair mais concis : Visez à transmettre votre intention clairement et de manière concise dans l'invite. Évitez les détails inutiles ou les informations redondantes, tout en gardant à l'esprit que claude manque de contexte sur votre cas d'usage et pourrait ne pas faire les bonds logiques prévus si les instructions ne sont pas claires.
    • Demandez des réponses plus courtes : Demandez directement à Claude d'être concis. La famille de modèles Claude 3 a une dirigeabilité améliorée par rapport aux générations précédentes. Si Claude produit une longueur non désirée, demandez à Claude de freiner son bavardage.
      En raison de la façon dont les LLM comptent les jetons au lieu des mots, demander un nombre exact de mots ou une limite de nombre de mots n'est pas une stratégie aussi efficace que de demander des limites de nombre de paragraphes ou de phrases.
    • Définissez des limites de sortie appropriées : Utilisez le paramètre max_tokens pour définir une limite stricte sur la longueur maximale de la réponse générée. Cela empêche Claude de générer des sorties trop longues.

      Note : Lorsque la réponse atteint max_tokens jetons, la réponse sera coupée, peut-être au milieu d'une phrase ou d'un mot, donc c'est une technique brutale qui peut nécessiter un post-traitement et est généralement plus appropriée pour les réponses à choix multiples ou courtes où la réponse vient directement au début.

    • Expérimentez avec la température : Le paramètre temperature contrôle le caractère aléatoire de la sortie. Des valeurs plus basses (par exemple, 0,2) peuvent parfois conduire à des réponses plus ciblées et plus courtes, tandis que des valeurs plus élevées (par exemple, 0,8) peuvent résulter en des sorties plus diverses mais potentiellement plus longues.

    Trouver le bon équilibre entre la clarté de l'invite, la qualité de la sortie et le nombre de jetons peut nécessiter quelques expérimentations.

    3. Tirer parti du streaming

    Le streaming est une fonctionnalité qui permet au modèle de commencer à renvoyer sa réponse avant que la sortie complète soit terminée. Cela peut considérablement améliorer la réactivité perçue de votre application, car les utilisateurs peuvent voir la sortie du modèle en temps réel.

    Avec le streaming activé, vous pouvez traiter la sortie du modèle au fur et à mesure qu'elle arrive, en mettant à jour votre interface utilisateur ou en effectuant d'autres tâches en parallèle. Cela peut grandement améliorer l'expérience utilisateur et rendre votre application plus interactive et réactive.

    Visitez streaming Messages pour apprendre comment vous pouvez implémenter le streaming pour votre cas d'usage.

    • Comment mesurer la latence
    • Comment réduire la latence
    • 1. Choisir le bon modèle
    • 2. Optimiser la longueur de l'invite et de la sortie
    • 3. Tirer parti du streaming
    © 2025 ANTHROPIC PBC

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy

    Products

    • Claude
    • Claude Code
    • Max plan
    • Team plan
    • Enterprise plan
    • Download app
    • Pricing
    • Log in

    Features

    • Claude and Slack
    • Claude in Excel

    Models

    • Opus
    • Sonnet
    • Haiku

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Claude Developer Platform

    • Overview
    • Developer docs
    • Pricing
    • Amazon Bedrock
    • Google Cloud’s Vertex AI
    • Console login

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Help and security

    • Availability
    • Status
    • Support center

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    © 2025 ANTHROPIC PBC