Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.6Guide de migrationDépréciation des modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesGérer les raisons d'arrêtBonnes pratiques de prompting
    Capacités du modèle
    Extended thinkingAdaptive thinkingEffortMode rapide (aperçu de recherche)Sorties structuréesCitationsStreaming de messagesTraitement par lotsSupport PDFRésultats de rechercheSupport multilingueEmbeddingsVision
    Outils
    AperçuComment implémenter l'utilisation d'outilsOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil de mémoireOutil BashOutil Computer useOutil d'éditeur de texte
    Infrastructure d'outils
    Recherche d'outilsAppel d'outils programmatiqueStreaming d'outils à granularité fine
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexteMise en cache des promptsComptage des tokens
    Fichiers et ressources
    API Files
    Agent Skills
    AperçuDémarrage rapideBonnes pratiquesSkills pour l'entrepriseUtiliser Skills avec l'API
    Agent SDK
    AperçuDémarrage rapideSDK TypeScriptTypeScript V2 (aperçu)SDK PythonGuide de migration
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur des plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-shots)Laisser Claude réfléchir (CoT)Utiliser des balises XMLDonner un rôle à Claude (prompts système)Chaîner des prompts complexesConseils pour le contexte longConseils pour extended thinking
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminRésidence des donnéesEspaces de travailAPI d'utilisation et de coûtsAPI Claude Code AnalyticsZéro rétention de données
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Capacités du modèle

    Mode rapide (aperçu de recherche)

    Vitesse de sortie plus élevée pour Claude Opus 4.6, offrant une génération de jetons significativement plus rapide pour les flux de travail sensibles à la latence et les flux de travail d'agent.

    Le mode rapide offre une génération de jetons de sortie significativement plus rapide pour Claude Opus 4.6. En définissant speed: "fast" dans votre demande API, vous obtenez jusqu'à 2,5 fois plus de jetons de sortie par seconde du même modèle à un tarif premium.

    Le mode rapide est actuellement en aperçu de recherche. Rejoignez la liste d'attente pour demander l'accès. La disponibilité est limitée pendant que nous recueillons des commentaires.

    Modèles pris en charge

    Le mode rapide est pris en charge sur les modèles suivants :

    • Claude Opus 4.6 (claude-opus-4-6)

    Comment fonctionne le mode rapide

    Le mode rapide exécute le même modèle avec une configuration d'inférence plus rapide. Il n'y a aucun changement à l'intelligence ou aux capacités.

    • Jusqu'à 2,5 fois plus de jetons de sortie par seconde par rapport à la vitesse standard
    • Les avantages de vitesse sont axés sur les jetons de sortie par seconde (OTPS), et non sur le temps jusqu'au premier jeton (TTFT)
    • Les mêmes poids de modèle et comportement (pas un modèle différent)

    Utilisation de base

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Tarification

    Le mode rapide est tarifé à 6 fois les tarifs standard d'Opus pour les invites ≤200K jetons, et 12 fois les tarifs standard d'Opus pour les invites > 200K jetons. Le tableau suivant montre la tarification pour Claude Opus 4.6 avec le mode rapide :

    Fenêtre de contexteEntréeSortie
    ≤ 200K jetons d'entrée30 $ / MTok150 $ / MTok
    > 200K jetons d'entrée60 $ / MTok225 $ / MTok

    La tarification du mode rapide s'ajoute à d'autres modificateurs de tarification :

    • Les multiplicateurs de mise en cache des invites s'appliquent en plus de la tarification du mode rapide
    • Les multiplicateurs de résidence des données s'appliquent en plus de la tarification du mode rapide

    Pour les détails complets de la tarification, consultez la page de tarification.

    Limites de débit

    Le mode rapide a une limite de débit dédiée qui est séparée des limites de débit standard d'Opus. Contrairement à la vitesse standard, qui a des limites séparées pour les jetons d'entrée ≤200K et >200K, le mode rapide utilise une seule limite de débit qui couvre la plage de contexte complète. Lorsque votre limite de débit du mode rapide est dépassée, l'API retourne une erreur 429 avec un en-tête retry-after indiquant quand la capacité sera disponible.

    La réponse inclut des en-têtes qui indiquent l'état de votre limite de débit du mode rapide :

    En-têteDescription
    anthropic-fast-input-tokens-limitJetons d'entrée du mode rapide maximum par minute
    anthropic-fast-input-tokens-remainingJetons d'entrée du mode rapide restants
    anthropic-fast-input-tokens-resetHeure à laquelle la limite de jetons d'entrée du mode rapide se réinitialise
    anthropic-fast-output-tokens-limitJetons de sortie du mode rapide maximum par minute
    anthropic-fast-output-tokens-remainingJetons de sortie du mode rapide restants
    anthropic-fast-output-tokens-resetHeure à laquelle la limite de jetons de sortie du mode rapide se réinitialise

    Pour les limites de débit spécifiques au niveau, consultez la page des limites de débit.

    Vérifier quelle vitesse a été utilisée

    L'objet usage de la réponse inclut un champ speed qui indique quelle vitesse a été utilisée, soit "fast" soit "standard" :

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    Pour suivre l'utilisation du mode rapide et les coûts dans votre organisation, consultez l'API d'utilisation et de coûts.

    Tentatives et secours

    Tentatives automatiques

    Lorsque les limites de débit du mode rapide sont dépassées, l'API retourne une erreur 429 avec un en-tête retry-after. Les SDK Anthropic réessaient automatiquement ces demandes jusqu'à 2 fois par défaut (configurable via max_retries), en attendant le délai spécifié par le serveur avant chaque tentative. Puisque le mode rapide utilise le remplissage continu de jetons, le délai retry-after est généralement court et les demandes réussissent une fois que la capacité est disponible.

    Basculer vers la vitesse standard

    Si vous préférez basculer vers la vitesse standard plutôt que d'attendre la capacité du mode rapide, capturez l'erreur de limite de débit et réessayez sans speed: "fast". Définissez max_retries sur 0 sur la demande rapide initiale pour ignorer les tentatives automatiques et échouer immédiatement sur les erreurs de limite de débit.

    Le basculement du mode rapide au mode standard entraînera une perte du cache d'invite. Les demandes à des vitesses différentes ne partagent pas les préfixes mis en cache.

    Puisque la définition de max_retries sur 0 désactive également les tentatives pour les autres erreurs transitoires (surchargé, erreurs du serveur interne), les exemples ci-dessous réémettent la demande d'origine avec les tentatives par défaut pour ces cas.

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    Considérations

    • Mise en cache des invites : Le basculement entre le mode rapide et la vitesse standard invalide le cache d'invite. Les demandes à des vitesses différentes ne partagent pas les préfixes mis en cache.
    • Modèles pris en charge : Le mode rapide est actuellement pris en charge sur Opus 4.6 uniquement. L'envoi de speed: "fast" avec un modèle non pris en charge retourne une erreur.
    • TTFT : Les avantages du mode rapide sont axés sur les jetons de sortie par seconde (OTPS), et non sur le temps jusqu'au premier jeton (TTFT).
    • API Batch : Le mode rapide n'est pas disponible avec l'API Batch.
    • Niveau de priorité : Le mode rapide n'est pas disponible avec le Niveau de priorité.

    Prochaines étapes

    Tarification

    Afficher les informations détaillées de tarification du mode rapide.

    Limites de débit

    Vérifier les niveaux de limite de débit pour le mode rapide.

    Paramètre d'effort

    Contrôler l'utilisation des jetons avec le paramètre d'effort.

    Was this page helpful?

    • Modèles pris en charge
    • Comment fonctionne le mode rapide
    • Utilisation de base
    • Tarification
    • Limites de débit
    • Vérifier quelle vitesse a été utilisée
    • Tentatives et secours
    • Tentatives automatiques
    • Basculer vers la vitesse standard
    • Considérations
    • Prochaines étapes