Was this page helpful?
La modalità veloce fornisce una generazione di token di output significativamente più rapida per Claude Opus 4.6. Impostando speed: "fast" nella richiesta API, si ottengono fino a 2,5 volte più token di output al secondo dallo stesso modello a prezzi premium.
La modalità veloce è in beta (anteprima di ricerca). Iscriviti alla lista d'attesa per richiedere l'accesso. La disponibilità è limitata mentre Anthropic raccoglie feedback.
This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
La modalità veloce è supportata sui seguenti modelli:
claude-opus-4-6)La modalità veloce esegue lo stesso modello con una configurazione di inferenza più rapida. Non vi è alcuna modifica all'intelligenza o alle capacità.
La modalità veloce ha un prezzo pari a 6 volte le tariffe standard di Opus sull'intera finestra di contesto, incluse le richieste con più di 200k token di input. La tabella seguente mostra i prezzi per Claude Opus 4.6 con la modalità veloce:
| Input | Output |
|---|---|
| $30 / MTok | $150 / MTok |
I prezzi della modalità veloce si sommano ad altri modificatori di prezzo:
Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.
La modalità veloce ha un limite di frequenza dedicato separato dai limiti di frequenza standard di Opus. Quando il limite di frequenza della modalità veloce viene superato, l'API restituisce un errore 429 con un'intestazione retry-after che indica quando la capacità sarà disponibile.
La risposta include intestazioni che indicano lo stato del limite di frequenza della modalità veloce:
| Intestazione | Descrizione |
|---|---|
anthropic-fast-input-tokens-limit | Numero massimo di token di input in modalità veloce al minuto |
anthropic-fast-input-tokens-remaining | Token di input rimanenti in modalità veloce |
anthropic-fast-input-tokens-reset | Momento in cui si reimposta il limite di token di input in modalità veloce |
anthropic-fast-output-tokens-limit | Numero massimo di token di output in modalità veloce al minuto |
anthropic-fast-output-tokens-remaining | Token di output rimanenti in modalità veloce |
anthropic-fast-output-tokens-reset | Momento in cui si reimposta il limite di token di output in modalità veloce |
Per i limiti di frequenza specifici per livello, consulta la pagina dei limiti di frequenza.
L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard":
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Per monitorare l'utilizzo e i costi della modalità veloce nella tua organizzazione, consulta l'API di utilizzo e costi.
Quando i limiti di frequenza della modalità veloce vengono superati, l'API restituisce un errore 429 con un'intestazione retry-after. Gli SDK di Anthropic riprovano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile tramite max_retries), attendendo il ritardo specificato dal server prima di ogni nuovo tentativo. Poiché la modalità veloce utilizza il reintegro continuo dei token, il ritardo retry-after è tipicamente breve e le richieste hanno successo una volta disponibile la capacità.
Se preferisci tornare alla velocità standard anziché attendere la capacità della modalità veloce, intercetta l'errore di limite di frequenza e riprova senza speed: "fast". Imposta max_retries a 0 sulla richiesta veloce iniziale per saltare i tentativi automatici e fallire immediatamente in caso di errori di limite di frequenza.
Il passaggio dalla modalità veloce a quella standard comporterà un mancato riscontro nella cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.
Poiché impostare max_retries a 0 disabilita anche i tentativi per altri errori transitori (sovraccarico, errori interni del server), gli esempi seguenti ripropongono la richiesta originale con i tentativi predefiniti per questi casi.
speed: "fast" con un modello non supportato restituisce un errore.client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)