La modalità veloce fornisce una generazione di token di output significativamente più rapida per Claude Opus 4.8, Claude Opus 4.7 e Claude Opus 4.6 a un prezzo premium. Imposta speed: "fast" nella tua richiesta API per attivarla. La modalità veloce offre fino a 2,5 volte più token di output al secondo dallo stesso modello.
La modalità veloce è in anteprima di ricerca. Contatta il tuo account manager per richiedere l'accesso. Se non hai un account manager, iscriviti alla lista d'attesa per la modalità veloce.
Questa funzionalità è idonea per la Zero Data Retention (ZDR). Quando la tua organizzazione dispone di un accordo ZDR, i dati inviati tramite questa funzionalità non vengono conservati dopo che la risposta dell'API è stata restituita.
La modalità veloce è supportata sui seguenti modelli:
La modalità veloce per Claude Opus 4.8 viene lanciata come anteprima di ricerca esclusivamente sull'API Claude, inclusi i Claude Managed Agents. Non è disponibile su piattaforme di terze parti, tra cui Vertex AI, Amazon Bedrock e Microsoft Foundry.
La modalità veloce per Claude Opus 4.6 è deprecata a partire dal lancio di Claude Opus 4.8 e verrà rimossa circa 30 giorni dopo. Dopo la rimozione, le richieste a claude-opus-4-6 con speed: "fast" ricadranno sulla velocità standard con prezzi standard anziché restituire un errore. Migra alla modalità veloce per Claude Opus 4.8 o Claude Opus 4.7 per mantenere l'accelerazione.
La modalità veloce esegue lo stesso modello con una configurazione di inferenza più rapida. Non vi è alcun cambiamento nell'intelligenza o nelle capacità.
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[
{"role": "user", "content": "Refactor this module to use dependency injection"}
],
)
print(response.content[0].text)La modalità veloce ha un prezzo basato su un moltiplicatore per modello applicato alle tariffe standard sull'intera finestra di contesto, incluse le richieste con oltre 200k token di input. La tabella seguente mostra i prezzi della modalità veloce per ciascun modello supportato:
| Modello | Input | Output |
|---|---|---|
| Claude Opus 4.6 / Claude Opus 4.7 | $30 / MTok | $150 / MTok |
| Claude Opus 4.8 | $10 / MTok | $50 / MTok |
I prezzi della modalità veloce si sommano ad altri modificatori di prezzo:
Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.
La modalità veloce ha un limite di velocità dedicato, separato dai limiti di velocità standard di Opus. Quando il limite di velocità della modalità veloce viene superato, l'API restituisce un errore 429 con un header retry-after che indica quando la capacità sarà disponibile.
La risposta include header che indicano lo stato del limite di velocità della modalità veloce:
| Header | Descrizione |
|---|---|
anthropic-fast-input-tokens-limit | Numero massimo di token di input in modalità veloce al minuto |
anthropic-fast-input-tokens-remaining | Token di input in modalità veloce rimanenti |
anthropic-fast-input-tokens-reset | Momento in cui il limite di token di input in modalità veloce si reimposta |
anthropic-fast-output-tokens-limit | Numero massimo di token di output in modalità veloce al minuto |
anthropic-fast-output-tokens-remaining | Token di output in modalità veloce rimanenti |
anthropic-fast-output-tokens-reset | Momento in cui il limite di token di output in modalità veloce si reimposta |
Per i limiti di velocità specifici per livello, consulta la pagina dei limiti di velocità.
L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard":
response = client.beta.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
speed="fast",
betas=["fast-mode-2026-02-01"],
messages=[{"role": "user", "content": "Hello"}],
)
print(response.usage.speed) # "fast" or "standard"{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"usage": {
"input_tokens": 8,
"output_tokens": 12,
"speed": "fast"
}
}Per monitorare l'utilizzo e i costi della modalità veloce nella tua organizzazione, consulta la Usage and Cost API.
Quando i limiti di velocità della modalità veloce vengono superati, l'API restituisce un errore 429 con un header retry-after. Gli SDK di Anthropic ritentano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile tramite max_retries), attendendo il ritardo specificato dal server prima di ogni tentativo. Poiché la modalità veloce utilizza un rifornimento continuo di token, il ritardo retry-after è in genere breve e le richieste hanno successo non appena la capacità è disponibile.
Se preferisci ricadere sulla velocità standard anziché attendere la capacità della modalità veloce, intercetta l'errore di limite di velocità e riprova senza speed: "fast". Imposta max_retries a 0 sulla richiesta veloce iniziale per saltare i tentativi automatici e fallire immediatamente in caso di errori di limite di velocità.
Il fallback dalla velocità veloce a quella standard comporterà un mancato riscontro nella cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.
Poiché impostare max_retries a 0 disabilita anche i tentativi per altri errori transitori (sovraccarico, errori interni del server), gli esempi seguenti rieseguono la richiesta originale con i tentativi predefiniti per quei casi.
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
try:
return client.with_options(max_retries=max_retries).beta.messages.create(
**params
)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(max_retries=max_retries, **params)
raise
except (
anthropic.APIStatusError,
anthropic.APIConnectionError,
) as error:
if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
raise
if max_attempts > 1:
return create_message_with_fast_fallback(
max_retries=max_retries, max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-8",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" con un modello non supportato restituisce un errore.Visualizza informazioni dettagliate sui prezzi della modalità veloce.
Controlla i livelli dei limiti di velocità per la modalità veloce.
Controlla l'utilizzo dei token con il parametro effort.
Was this page helpful?