Le mode rapide offre une génération de tokens de sortie significativement plus rapide pour Claude Opus 4.6. En définissant speed: "fast" dans votre requête API, vous obtenez jusqu'à 2,5 fois plus de tokens de sortie par seconde depuis le même modèle à un tarif premium.
Le mode rapide est en bêta (aperçu de recherche). Rejoignez la liste d'attente pour demander l'accès. La disponibilité est limitée pendant qu'Anthropic recueille des retours.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Le mode rapide est pris en charge sur les modèles suivants :
claude-opus-4-6)Le mode rapide exécute le même modèle avec une configuration d'inférence plus rapide. Il n'y a aucun changement en termes d'intelligence ou de capacités.
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)Le mode rapide est facturé à 6 fois les tarifs standard d'Opus sur l'ensemble de la fenêtre de contexte, y compris les requêtes dépassant 200 000 tokens d'entrée. Le tableau suivant présente la tarification pour Claude Opus 4.6 avec le mode rapide :
| Entrée | Sortie |
|---|---|
| 30 $ / MTok | 150 $ / MTok |
La tarification du mode rapide s'additionne avec d'autres modificateurs de tarification :
Pour des détails complets sur la tarification, consultez la page de tarification.
Le mode rapide dispose d'une limite de débit dédiée, distincte des limites de débit standard d'Opus. Lorsque votre limite de débit en mode rapide est dépassée, l'API renvoie une erreur 429 avec un en-tête retry-after indiquant quand la capacité sera disponible.
La réponse inclut des en-têtes indiquant l'état de votre limite de débit en mode rapide :
| En-tête | Description |
|---|---|
anthropic-fast-input-tokens-limit | Nombre maximum de tokens d'entrée en mode rapide par minute |
anthropic-fast-input-tokens-remaining | Tokens d'entrée restants en mode rapide |
anthropic-fast-input-tokens-reset | Heure de réinitialisation de la limite de tokens d'entrée en mode rapide |
anthropic-fast-output-tokens-limit | Nombre maximum de tokens de sortie en mode rapide par minute |
anthropic-fast-output-tokens-remaining | Tokens de sortie restants en mode rapide |
anthropic-fast-output-tokens-reset | Heure de réinitialisation de la limite de tokens de sortie en mode rapide |
Pour les limites de débit spécifiques aux niveaux, consultez la page des limites de débit.
L'objet usage de la réponse inclut un champ speed indiquant quelle vitesse a été utilisée, soit "fast" soit "standard" :
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Pour suivre l'utilisation et les coûts du mode rapide au sein de votre organisation, consultez l'API d'utilisation et de coûts.
Lorsque les limites de débit du mode rapide sont dépassées, l'API renvoie une erreur 429 avec un en-tête retry-after. Les SDK Anthropic réessaient automatiquement ces requêtes jusqu'à 2 fois par défaut (configurable via max_retries), en attendant le délai spécifié par le serveur avant chaque nouvelle tentative. Étant donné que le mode rapide utilise un réapprovisionnement continu des tokens, le délai retry-after est généralement court et les requêtes réussissent une fois la capacité disponible.
Si vous préférez revenir à la vitesse standard plutôt que d'attendre la capacité du mode rapide, interceptez l'erreur de limite de débit et réessayez sans speed: "fast". Définissez max_retries à 0 sur la requête rapide initiale pour ignorer les nouvelles tentatives automatiques et échouer immédiatement en cas d'erreurs de limite de débit.
Le repli du mode rapide vers la vitesse standard entraînera un échec de mise en cache des prompts. Les requêtes à des vitesses différentes ne partagent pas les préfixes mis en cache.
Étant donné que définir max_retries à 0 désactive également les nouvelles tentatives pour d'autres erreurs transitoires (surcharge, erreurs internes du serveur), les exemples ci-dessous réémettent la requête originale avec les nouvelles tentatives par défaut pour ces cas.
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" avec un modèle non pris en charge renvoie une erreur.Consultez les informations détaillées sur la tarification du mode rapide.
Vérifiez les niveaux de limites de débit pour le mode rapide.
Contrôlez l'utilisation des tokens avec le paramètre d'effort.
Was this page helpful?