Mode rapide (bêta : aperçu recherche)

ConstruireCapacités du modèle

Mode rapide (bêta : aperçu de recherche)

Vitesse de sortie plus élevée pour Claude Opus 4.6, offrant une génération de tokens significativement plus rapide pour les flux de travail sensibles à la latence et les flux agentiques.

Le mode rapide offre une génération de tokens de sortie significativement plus rapide pour Claude Opus 4.6. En définissant speed: "fast" dans votre requête API, vous obtenez jusqu'à 2,5 fois plus de tokens de sortie par seconde depuis le même modèle à un tarif premium.

Le mode rapide est en bêta (aperçu de recherche). Rejoignez la liste d'attente pour demander l'accès. La disponibilité est limitée pendant qu'Anthropic recueille des retours.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Modèles pris en charge

Le mode rapide est pris en charge sur les modèles suivants :

Claude Opus 4.6 (claude-opus-4-6)

Fonctionnement du mode rapide

Le mode rapide exécute le même modèle avec une configuration d'inférence plus rapide. Il n'y a aucun changement en termes d'intelligence ou de capacités.

Jusqu'à 2,5 fois plus de tokens de sortie par seconde par rapport à la vitesse standard
Les avantages de vitesse sont axés sur les tokens de sortie par seconde (OTPS), et non sur le temps jusqu'au premier token (TTFT)
Mêmes poids et comportement du modèle (pas un modèle différent)

Utilisation de base

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Tarification

Le mode rapide est facturé à 6 fois les tarifs standard d'Opus sur l'ensemble de la fenêtre de contexte, y compris les requêtes dépassant 200 000 tokens d'entrée. Le tableau suivant présente la tarification pour Claude Opus 4.6 avec le mode rapide :

Entrée	Sortie
30 $ / MTok	150 $ / MTok

La tarification du mode rapide s'additionne avec d'autres modificateurs de tarification :

Les multiplicateurs de mise en cache des prompts s'appliquent en plus de la tarification du mode rapide
Les multiplicateurs de résidence des données s'appliquent en plus de la tarification du mode rapide

Pour des détails complets sur la tarification, consultez la page de tarification.

Limites de débit

Le mode rapide dispose d'une limite de débit dédiée, distincte des limites de débit standard d'Opus. Lorsque votre limite de débit en mode rapide est dépassée, l'API renvoie une erreur 429 avec un en-tête retry-after indiquant quand la capacité sera disponible.

La réponse inclut des en-têtes indiquant l'état de votre limite de débit en mode rapide :

En-tête	Description
`anthropic-fast-input-tokens-limit`	Nombre maximum de tokens d'entrée en mode rapide par minute
`anthropic-fast-input-tokens-remaining`	Tokens d'entrée restants en mode rapide
`anthropic-fast-input-tokens-reset`	Heure de réinitialisation de la limite de tokens d'entrée en mode rapide
`anthropic-fast-output-tokens-limit`	Nombre maximum de tokens de sortie en mode rapide par minute
`anthropic-fast-output-tokens-remaining`	Tokens de sortie restants en mode rapide
`anthropic-fast-output-tokens-reset`	Heure de réinitialisation de la limite de tokens de sortie en mode rapide

Pour les limites de débit spécifiques aux niveaux, consultez la page des limites de débit.

Vérification de la vitesse utilisée

L'objet usage de la réponse inclut un champ speed indiquant quelle vitesse a été utilisée, soit "fast" soit "standard" :

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Pour suivre l'utilisation et les coûts du mode rapide au sein de votre organisation, consultez l'API d'utilisation et de coûts.

Nouvelles tentatives et repli

Nouvelles tentatives automatiques

Lorsque les limites de débit du mode rapide sont dépassées, l'API renvoie une erreur 429 avec un en-tête retry-after. Les SDK Anthropic réessaient automatiquement ces requêtes jusqu'à 2 fois par défaut (configurable via max_retries), en attendant le délai spécifié par le serveur avant chaque nouvelle tentative. Étant donné que le mode rapide utilise un réapprovisionnement continu des tokens, le délai retry-after est généralement court et les requêtes réussissent une fois la capacité disponible.

Repli vers la vitesse standard

Si vous préférez revenir à la vitesse standard plutôt que d'attendre la capacité du mode rapide, interceptez l'erreur de limite de débit et réessayez sans speed: "fast". Définissez max_retries à 0 sur la requête rapide initiale pour ignorer les nouvelles tentatives automatiques et échouer immédiatement en cas d'erreurs de limite de débit.

Le repli du mode rapide vers la vitesse standard entraînera un échec de mise en cache des prompts. Les requêtes à des vitesses différentes ne partagent pas les préfixes mis en cache.

Étant donné que définir max_retries à 0 désactive également les nouvelles tentatives pour d'autres erreurs transitoires (surcharge, erreurs internes du serveur), les exemples ci-dessous réémettent la requête originale avec les nouvelles tentatives par défaut pour ces cas.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considérations

Mise en cache des prompts : Le passage entre la vitesse rapide et la vitesse standard invalide le cache des prompts. Les requêtes à des vitesses différentes ne partagent pas les préfixes mis en cache.
Modèles pris en charge : Le mode rapide est actuellement pris en charge uniquement sur Opus 4.6. L'envoi de speed: "fast" avec un modèle non pris en charge renvoie une erreur.
TTFT : Les avantages du mode rapide sont axés sur les tokens de sortie par seconde (OTPS), et non sur le temps jusqu'au premier token (TTFT).
API Batch : Le mode rapide n'est pas disponible avec l'API Batch.
Niveau Prioritaire : Le mode rapide n'est pas disponible avec le Niveau Prioritaire.

Prochaines étapes

Tarification

Consultez les informations détaillées sur la tarification du mode rapide.

Limites de débit

Vérifiez les niveaux de limites de débit pour le mode rapide.

Paramètre d'effort

Contrôlez l'utilisation des tokens avec le paramètre d'effort.

Was this page helpful?

ConstruireCapacités du modèle

Mode rapide (bêta : aperçu de recherche)

Vitesse de sortie plus élevée pour Claude Opus 4.6, offrant une génération de tokens significativement plus rapide pour les flux de travail sensibles à la latence et les flux agentiques.

Le mode rapide est en bêta (aperçu de recherche). Rejoignez la liste d'attente pour demander l'accès. La disponibilité est limitée pendant qu'Anthropic recueille des retours.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Modèles pris en charge

Le mode rapide est pris en charge sur les modèles suivants :

Claude Opus 4.6 (claude-opus-4-6)

Fonctionnement du mode rapide

Le mode rapide exécute le même modèle avec une configuration d'inférence plus rapide. Il n'y a aucun changement en termes d'intelligence ou de capacités.

Jusqu'à 2,5 fois plus de tokens de sortie par seconde par rapport à la vitesse standard
Les avantages de vitesse sont axés sur les tokens de sortie par seconde (OTPS), et non sur le temps jusqu'au premier token (TTFT)
Mêmes poids et comportement du modèle (pas un modèle différent)

Utilisation de base

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Tarification

Entrée	Sortie
30 $ / MTok	150 $ / MTok

La tarification du mode rapide s'additionne avec d'autres modificateurs de tarification :

Les multiplicateurs de mise en cache des prompts s'appliquent en plus de la tarification du mode rapide
Les multiplicateurs de résidence des données s'appliquent en plus de la tarification du mode rapide

Pour des détails complets sur la tarification, consultez la page de tarification.

Limites de débit

La réponse inclut des en-têtes indiquant l'état de votre limite de débit en mode rapide :

En-tête	Description
`anthropic-fast-input-tokens-limit`	Nombre maximum de tokens d'entrée en mode rapide par minute
`anthropic-fast-input-tokens-remaining`	Tokens d'entrée restants en mode rapide
`anthropic-fast-input-tokens-reset`	Heure de réinitialisation de la limite de tokens d'entrée en mode rapide
`anthropic-fast-output-tokens-limit`	Nombre maximum de tokens de sortie en mode rapide par minute
`anthropic-fast-output-tokens-remaining`	Tokens de sortie restants en mode rapide
`anthropic-fast-output-tokens-reset`	Heure de réinitialisation de la limite de tokens de sortie en mode rapide

Pour les limites de débit spécifiques aux niveaux, consultez la page des limites de débit.

Vérification de la vitesse utilisée

L'objet usage de la réponse inclut un champ speed indiquant quelle vitesse a été utilisée, soit "fast" soit "standard" :

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Pour suivre l'utilisation et les coûts du mode rapide au sein de votre organisation, consultez l'API d'utilisation et de coûts.

Nouvelles tentatives et repli

Nouvelles tentatives automatiques

Repli vers la vitesse standard

Le repli du mode rapide vers la vitesse standard entraînera un échec de mise en cache des prompts. Les requêtes à des vitesses différentes ne partagent pas les préfixes mis en cache.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considérations

Mise en cache des prompts : Le passage entre la vitesse rapide et la vitesse standard invalide le cache des prompts. Les requêtes à des vitesses différentes ne partagent pas les préfixes mis en cache.
Modèles pris en charge : Le mode rapide est actuellement pris en charge uniquement sur Opus 4.6. L'envoi de speed: "fast" avec un modèle non pris en charge renvoie une erreur.
TTFT : Les avantages du mode rapide sont axés sur les tokens de sortie par seconde (OTPS), et non sur le temps jusqu'au premier token (TTFT).
API Batch : Le mode rapide n'est pas disponible avec l'API Batch.
Niveau Prioritaire : Le mode rapide n'est pas disponible avec le Niveau Prioritaire.

Prochaines étapes

Tarification

Consultez les informations détaillées sur la tarification du mode rapide.

Limites de débit

Vérifiez les niveaux de limites de débit pour le mode rapide.

Paramètre d'effort

Contrôlez l'utilisation des tokens avec le paramètre d'effort.

Was this page helpful?