La modalità veloce fornisce una generazione di token di output significativamente più veloce per Claude Opus 4.6. Impostando speed: "fast" nella tua richiesta API, ottieni fino a 2,5 volte più token di output al secondo dallo stesso modello a prezzi premium.
La modalità veloce è attualmente in anteprima di ricerca. Iscriviti alla lista d'attesa per richiedere l'accesso. La disponibilità è limitata mentre raccogliamo feedback.
La modalità veloce è supportata sui seguenti modelli:
claude-opus-4-6)La modalità veloce esegue lo stesso modello con una configurazione di inferenza più veloce. Non c'è alcun cambiamento nell'intelligenza o nelle capacità.
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"speed": "fast",
"messages": [{
"role": "user",
"content": "Refactor this module to use dependency injection"
}]
}'La modalità veloce è prezzata a 6 volte le tariffe standard di Opus per prompt ≤200K token, e 12 volte le tariffe standard di Opus per prompt > 200K token. La seguente tabella mostra i prezzi per Claude Opus 4.6 con modalità veloce:
| Finestra di contesto | Input | Output |
|---|---|---|
| ≤ 200K token di input | $30 / MTok | $150 / MTok |
| > 200K token di input | $60 / MTok | $225 / MTok |
I prezzi della modalità veloce si sommano con altri modificatori di prezzo:
Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.
La modalità veloce ha un limite di velocità dedicato che è separato dai limiti di velocità standard di Opus. A differenza della velocità standard, che ha limiti separati per token di input ≤200K e >200K, la modalità veloce utilizza un singolo limite di velocità che copre l'intera gamma di contesto. Quando il tuo limite di velocità della modalità veloce viene superato, l'API restituisce un errore 429 con un'intestazione retry-after che indica quando la capacità sarà disponibile.
La risposta include intestazioni che indicano lo stato del tuo limite di velocità della modalità veloce:
| Intestazione | Descrizione |
|---|---|
anthropic-fast-input-tokens-limit | Massimi token di input della modalità veloce al minuto |
anthropic-fast-input-tokens-remaining | Token di input della modalità veloce rimanenti |
anthropic-fast-input-tokens-reset | Ora in cui il limite dei token di input della modalità veloce si ripristina |
anthropic-fast-output-tokens-limit | Massimi token di output della modalità veloce al minuto |
anthropic-fast-output-tokens-remaining | Token di output della modalità veloce rimanenti |
anthropic-fast-output-tokens-reset | Ora in cui il limite dei token di output della modalità veloce si ripristina |
Per i limiti di velocità specifici del livello, consulta la pagina dei limiti di velocità.
L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard":
curl https://api.anthropic.com/v1/messages \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "anthropic-beta: fast-mode-2026-02-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-opus-4-6",
"max_tokens": 1024,
"speed": "fast",
"messages": [{"role": "user", "content": "Hello"}]
}'
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
...
"usage": {
"input_tokens": 523,
"output_tokens": 1842,
"speed": "fast"
}
}Per tracciare l'utilizzo della modalità veloce e i costi in tutta la tua organizzazione, consulta l'API di utilizzo e costi.
Quando i limiti di velocità della modalità veloce vengono superati, l'API restituisce un errore 429 con un'intestazione retry-after. Gli SDK di Anthropic ritentano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile tramite max_retries), attendendo il ritardo specificato dal server prima di ogni tentativo. Poiché la modalità veloce utilizza il reintegro continuo dei token, il ritardo retry-after è tipicamente breve e le richieste hanno successo una volta che la capacità è disponibile.
Se preferisci eseguire il fallback alla velocità standard piuttosto che aspettare la capacità della modalità veloce, cattura l'errore del limite di velocità e ritenta senza speed: "fast". Imposta max_retries a 0 sulla richiesta veloce iniziale per saltare i tentativi automatici e fallire immediatamente su errori di limite di velocità.
Il fallback dalla velocità veloce a quella standard comporterà un miss della cache del prompt. Le richieste a velocità diverse non condividono prefissi memorizzati nella cache.
Poiché l'impostazione di max_retries a 0 disabilita anche i tentativi per altri errori transitori (sovraccarico, errori del server interno), gli esempi seguenti ripresentano la richiesta originale con tentativi predefiniti per questi casi.
import anthropic
client = anthropic.Anthropic()
def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
try:
return client.beta.messages.create(**params, max_retries=max_retries)
except anthropic.RateLimitError:
if params.get("speed") == "fast":
del params["speed"]
return create_message_with_fast_fallback(**params)
raise
except (
anthropic.InternalServerError,
anthropic.OverloadedError,
anthropic.APIConnectionError,
):
if max_attempts > 1:
return create_message_with_fast_fallback(
max_attempts=max_attempts - 1, **params
)
raise
message = create_message_with_fast_fallback(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}],
betas=["fast-mode-2026-02-01"],
speed="fast",
max_retries=0,
)speed: "fast" con un modello non supportato restituisce un errore.Visualizza informazioni dettagliate sui prezzi della modalità veloce.
Controlla i livelli di limite di velocità per la modalità veloce.
Controlla l'utilizzo dei token con il parametro effort.
Was this page helpful?