Le mode rapide offre une génération de jetons de sortie significativement plus rapide pour Claude Opus 4.6. En définissant speed: "fast" dans votre demande API, vous obtenez jusqu'à 2,5 fois plus de jetons de sortie par seconde du même modèle à un tarif premium.
Le mode rapide est actuellement en aperçu de recherche. Rejoignez la liste d'attente pour demander l'accès. La disponibilité est limitée pendant que nous recueillons des commentaires.
Le mode rapide est pris en charge sur les modèles suivants :
claude-opus-4-6)Le mode rapide exécute le même modèle avec une configuration d'inférence plus rapide. Il n'y a aucun changement à l'intelligence ou aux capacités.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'Le mode rapide est tarifé à 6 fois les tarifs standard d'Opus pour les invites ≤200K jetons, et 12 fois les tarifs standard d'Opus pour les invites > 200K jetons. Le tableau suivant montre la tarification pour Claude Opus 4.6 avec le mode rapide :
| Fenêtre de contexte | Entrée | Sortie |
|---|---|---|
| ≤ 200K jetons d'entrée | 30 $ / MTok | 150 $ / MTok |
| > 200K jetons d'entrée | 60 $ / MTok | 225 $ / MTok |
La tarification du mode rapide s'ajoute à d'autres modificateurs de tarification :
Pour les détails complets de la tarification, consultez la page de tarification.
Le mode rapide a une limite de débit dédiée qui est séparée des limites de débit standard d'Opus. Contrairement à la vitesse standard, qui a des limites séparées pour les jetons d'entrée ≤200K et >200K, le mode rapide utilise une seule limite de débit qui couvre la plage de contexte complète. Lorsque votre limite de débit du mode rapide est dépassée, l'API retourne une erreur 429 avec un en-tête retry-after indiquant quand la capacité sera disponible.
La réponse inclut des en-têtes qui indiquent l'état de votre limite de débit du mode rapide :
| En-tête | Description |
|---|---|
anthropic-fast-input-tokens-limit | Jetons d'entrée du mode rapide maximum par minute |
anthropic-fast-input-tokens-remaining | Jetons d'entrée du mode rapide restants |
anthropic-fast-input-tokens-reset | Heure à laquelle la limite de jetons d'entrée du mode rapide se réinitialise |
anthropic-fast-output-tokens-limit | Jetons de sortie du mode rapide maximum par minute |
anthropic-fast-output-tokens-remaining | Jetons de sortie du mode rapide restants |
anthropic-fast-output-tokens-reset | Heure à laquelle la limite de jetons de sortie du mode rapide se réinitialise |
Pour les limites de débit spécifiques au niveau, consultez la page des limites de débit.
L'objet usage de la réponse inclut un champ speed qui indique quelle vitesse a été utilisée, soit "fast" soit "standard" :
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Pour suivre l'utilisation du mode rapide et les coûts dans votre organisation, consultez l'API d'utilisation et de coûts.
Lorsque les limites de débit du mode rapide sont dépassées, l'API retourne une erreur 429 avec un en-tête retry-after. Les SDK Anthropic réessaient automatiquement ces demandes jusqu'à 2 fois par défaut (configurable via max_retries), en attendant le délai spécifié par le serveur avant chaque tentative. Puisque le mode rapide utilise le remplissage continu de jetons, le délai retry-after est généralement court et les demandes réussissent une fois que la capacité est disponible.
Si vous préférez basculer vers la vitesse standard plutôt que d'attendre la capacité du mode rapide, capturez l'erreur de limite de débit et réessayez sans speed: "fast". Définissez max_retries sur 0 sur la demande rapide initiale pour ignorer les tentatives automatiques et échouer immédiatement sur les erreurs de limite de débit.
Le basculement du mode rapide au mode standard entraînera une perte du cache d'invite. Les demandes à des vitesses différentes ne partagent pas les préfixes mis en cache.
Puisque la définition de max_retries sur 0 désactive également les tentatives pour les autres erreurs transitoires (surchargé, erreurs du serveur interne), les exemples ci-dessous réémettent la demande d'origine avec les tentatives par défaut pour ces cas.
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" avec un modèle non pris en charge retourne une erreur.Afficher les informations détaillées de tarification du mode rapide.
Vérifier les niveaux de limite de débit pour le mode rapide.
Contrôler l'utilisation des jetons avec le paramètre d'effort.
Was this page helpful?