MessaggiCapacità del modello

Fast mode (anteprima di ricerca)

Ottieni fino a 2,5 volte più token di output al secondo dai modelli Claude Opus supportati.

La fast mode (modalità veloce) offre fino a 2,5 volte più token di output al secondo da Claude Opus 4.8 e Claude Opus 4.7 a un prezzo premium. Imposta speed: "fast" con l'header beta fast-mode-2026-02-01 nella tua richiesta per attivarla.

La fast mode è in anteprima di ricerca. Contatta il tuo account manager per richiedere l'accesso. Se non hai un account manager, iscriviti alla lista d'attesa per la fast mode.

Questa funzionalità è idonea per la Zero Data Retention (ZDR). Quando la tua organizzazione dispone di un accordo ZDR, i dati inviati tramite questa funzionalità non vengono conservati dopo che la risposta dell'API è stata restituita.

Modelli supportati

La fast mode è supportata sui seguenti modelli:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

La fast mode per Claude Opus 4.8 viene lanciata come anteprima di ricerca esclusivamente sull'API di Claude, inclusi i Claude Managed Agents. Non è disponibile su Amazon Bedrock, Google Cloud o Microsoft Foundry.

La fast mode per Claude Opus 4.7 è deprecata a partire dal 25 giugno 2026 e verrà rimossa il 24 luglio 2026. Dopo la rimozione, le richieste a claude-opus-4-7 con speed: "fast" restituiranno un errore; a differenza di Claude Opus 4.6 (vedi la nota seguente), Claude Opus 4.7 non effettua il fallback alla velocità standard. Il modello stesso rimane disponibile alla velocità standard. Per continuare a utilizzare la fast mode, migra a Claude Opus 4.8.

A partire dal 29 giugno 2026, la fast mode non è disponibile su Claude Opus 4.6. Le richieste a claude-opus-4-6 con speed: "fast" non restituiscono un errore: vengono eseguite alla velocità standard e fatturate alle tariffe standard anziché alle tariffe premium della fast mode, e la risposta riporta usage.speed: "standard". Per continuare a utilizzare la fast mode, migra a Claude Opus 4.8.

Come funziona la fast mode

La fast mode esegue lo stesso modello con una configurazione di inferenza più veloce. Non ci sono cambiamenti nell'intelligenza o nelle capacità.

Fino a 2,5 volte più token di output al secondo rispetto alla velocità standard
I vantaggi in termini di velocità si concentrano sugli "output tokens per second" (token di output al secondo), o OTPS, non sul "time to first token" (tempo al primo token), o TTFT
Stessi pesi e comportamento del modello (non è un modello diverso)
Compatibile con lo streaming, dove il guadagno in OTPS è più visibile

Utilizzo di base

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Prezzi

La fast mode ha un prezzo basato su un moltiplicatore per modello applicato alle tariffe standard sull'intera finestra di contesto, incluse le richieste con oltre 200k token di input. La tabella seguente mostra i prezzi della fast mode per ciascun modello supportato:

Modello	Input	Output
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

I prezzi della fast mode si cumulano con altri modificatori di prezzo:

I moltiplicatori della cache dei prompt si applicano in aggiunta ai prezzi della fast mode
I moltiplicatori della residenza dei dati si applicano in aggiunta ai prezzi della fast mode

Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.

Limiti di velocità

La fast mode ha un limite di velocità dedicato, separato dai limiti di velocità standard di Opus. Quando il tuo limite di velocità della fast mode viene superato, l'API restituisce un errore 429 con un header retry-after che indica quando la capacità sarà disponibile.

La risposta include header che indicano lo stato del tuo limite di velocità della fast mode:

Header	Descrizione
`anthropic-fast-input-tokens-limit`	Numero massimo di token di input della fast mode al minuto
`anthropic-fast-input-tokens-remaining`	Token di input della fast mode rimanenti
`anthropic-fast-input-tokens-reset`	Momento in cui il limite di token di input della fast mode si reimposta
`anthropic-fast-output-tokens-limit`	Numero massimo di token di output della fast mode al minuto
`anthropic-fast-output-tokens-remaining`	Token di output della fast mode rimanenti
`anthropic-fast-output-tokens-reset`	Momento in cui il limite di token di output della fast mode si reimposta

Per i limiti di velocità specifici per livello, consulta la pagina dei limiti di velocità.

Verificare quale velocità è stata utilizzata

L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard". Sui modelli supportati, la fast mode non effettua silenziosamente il fallback alla velocità standard in caso di limiti di velocità o capacità (riceverai invece un 429 o 529), quindi quando richiedi speed: "fast" su Claude Opus 4.8 o Claude Opus 4.7, usage.speed è "fast". Su Claude Opus 4.6, dove la fast mode non è disponibile, le richieste con speed: "fast" vengono eseguite alla velocità standard e restituiscono usage.speed: "standard". Controlla questo campo per confermare quale velocità ha servito una richiesta.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Per monitorare l'utilizzo e i costi della fast mode nella tua organizzazione, consulta la Usage and Cost API.

Retry e fallback

Retry automatici

Quando i limiti di velocità della fast mode vengono superati, l'API restituisce un errore 429 con un header retry-after. Gli SDK di Anthropic riprovano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile con max_retries), attendendo il ritardo specificato dal server prima di ogni retry. Poiché la fast mode utilizza il rifornimento continuo di token, il ritardo retry-after è in genere breve e le richieste hanno successo una volta che la capacità è disponibile.

Fallback alla velocità standard

Questa sezione tratta un fallback lato client opzionale quando la fast mode è soggetta a limite di velocità. È separato dal comportamento su Claude Opus 4.6, dove la fast mode non è disponibile e le richieste vengono eseguite automaticamente alla velocità standard.

Se preferisci effettuare il fallback alla velocità standard anziché attendere la capacità della fast mode, intercetta l'errore di limite di velocità e riprova senza speed: "fast". Imposta max_retries a 0 sulla richiesta fast iniziale per saltare i retry automatici e fallire immediatamente in caso di errori di limite di velocità.

Il fallback dalla velocità fast a quella standard comporterà un miss della cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.

Poiché impostare max_retries a 0 disabilita anche i retry per altri errori transitori (sovraccarico, errori interni del server), gli esempi seguenti riemettono la richiesta originale con i retry predefiniti per quei casi.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considerazioni

Cache dei prompt: Passare dalla velocità fast a quella standard e viceversa invalida la cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.
Modelli supportati: La fast mode è supportata su Claude Opus 4.8 e Claude Opus 4.7 (fast mode deprecata; rimozione il 24 luglio 2026, senza effetti sul modello stesso). Su Claude Opus 4.6, le richieste con speed: "fast" non restituiscono un errore: vengono eseguite alla velocità standard e fatturate alle tariffe standard. Su qualsiasi altro modello, l'invio di speed: "fast" restituisce un errore.
TTFT: I vantaggi della fast mode si concentrano sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT).
Batch API: La fast mode non è disponibile con la Batch API.
Priority Tier: La fast mode non è disponibile con un impegno Priority Tier.
Claude Platform on AWS: La fast mode non è attualmente disponibile su Claude Platform on AWS.

Passaggi successivi

Output strutturati

Ottieni risultati JSON validati dai flussi di lavoro degli agenti.

Prezzi

Scopri la struttura dei prezzi di Anthropic per modelli e funzionalità.

Effort

Controlla quanti token Claude utilizza quando risponde con il parametro effort, bilanciando completezza della risposta ed efficienza dei token.

Messaggi in streaming

Trasmetti in streaming le risposte della Messages API in modo incrementale con server-sent events, inclusi testo, uso degli strumenti e delta del pensiero esteso.

Was this page helpful?

MessaggiCapacità del modello

Fast mode (anteprima di ricerca)

Ottieni fino a 2,5 volte più token di output al secondo dai modelli Claude Opus supportati.

La fast mode è in anteprima di ricerca. Contatta il tuo account manager per richiedere l'accesso. Se non hai un account manager, iscriviti alla lista d'attesa per la fast mode.

Modelli supportati

La fast mode è supportata sui seguenti modelli:

Claude Opus 4.8 (claude-opus-4-8)
Claude Opus 4.7 (claude-opus-4-7)

Come funziona la fast mode

La fast mode esegue lo stesso modello con una configurazione di inferenza più veloce. Non ci sono cambiamenti nell'intelligenza o nelle capacità.

Fino a 2,5 volte più token di output al secondo rispetto alla velocità standard
I vantaggi in termini di velocità si concentrano sugli "output tokens per second" (token di output al secondo), o OTPS, non sul "time to first token" (tempo al primo token), o TTFT
Stessi pesi e comportamento del modello (non è un modello diverso)
Compatibile con lo streaming, dove il guadagno in OTPS è più visibile

Utilizzo di base

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Prezzi

Modello	Input	Output
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

I prezzi della fast mode si cumulano con altri modificatori di prezzo:

I moltiplicatori della cache dei prompt si applicano in aggiunta ai prezzi della fast mode
I moltiplicatori della residenza dei dati si applicano in aggiunta ai prezzi della fast mode

Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.

Limiti di velocità

La risposta include header che indicano lo stato del tuo limite di velocità della fast mode:

Header	Descrizione
`anthropic-fast-input-tokens-limit`	Numero massimo di token di input della fast mode al minuto
`anthropic-fast-input-tokens-remaining`	Token di input della fast mode rimanenti
`anthropic-fast-input-tokens-reset`	Momento in cui il limite di token di input della fast mode si reimposta
`anthropic-fast-output-tokens-limit`	Numero massimo di token di output della fast mode al minuto
`anthropic-fast-output-tokens-remaining`	Token di output della fast mode rimanenti
`anthropic-fast-output-tokens-reset`	Momento in cui il limite di token di output della fast mode si reimposta

Per i limiti di velocità specifici per livello, consulta la pagina dei limiti di velocità.

Verificare quale velocità è stata utilizzata

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"

Output

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Per monitorare l'utilizzo e i costi della fast mode nella tua organizzazione, consulta la Usage and Cost API.

Retry e fallback

Retry automatici

Fallback alla velocità standard

Il fallback dalla velocità fast a quella standard comporterà un miss della cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considerazioni

Cache dei prompt: Passare dalla velocità fast a quella standard e viceversa invalida la cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.
Modelli supportati: La fast mode è supportata su Claude Opus 4.8 e Claude Opus 4.7 (fast mode deprecata; rimozione il 24 luglio 2026, senza effetti sul modello stesso). Su Claude Opus 4.6, le richieste con speed: "fast" non restituiscono un errore: vengono eseguite alla velocità standard e fatturate alle tariffe standard. Su qualsiasi altro modello, l'invio di speed: "fast" restituisce un errore.
TTFT: I vantaggi della fast mode si concentrano sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT).
Batch API: La fast mode non è disponibile con la Batch API.
Priority Tier: La fast mode non è disponibile con un impegno Priority Tier.
Claude Platform on AWS: La fast mode non è attualmente disponibile su Claude Platform on AWS.

Passaggi successivi

Output strutturati

Ottieni risultati JSON validati dai flussi di lavoro degli agenti.

Prezzi

Scopri la struttura dei prezzi di Anthropic per modelli e funzionalità.

Effort

Controlla quanti token Claude utilizza quando risponde con il parametro effort, bilanciando completezza della risposta ed efficienza dei token.

Messaggi in streaming

Trasmetti in streaming le risposte della Messages API in modo incrementale con server-sent events, inclusi testo, uso degli strumenti e delta del pensiero esteso.

Was this page helpful?

Modelli supportati

Come funziona la fast mode

Utilizzo di base

Prezzi

Limiti di velocità

Verificare quale velocità è stata utilizzata

Retry e fallback

Retry automatici

Fallback alla velocità standard

Considerazioni

Passaggi successivi

Modelli supportati

Come funziona la fast mode

Utilizzo di base

Prezzi

Limiti di velocità

Verificare quale velocità è stata utilizzata

Retry e fallback

Retry automatici

Fallback alla velocità standard

Considerazioni

Passaggi successivi

Modelli supportati

Come funziona la fast mode

Utilizzo di base

Prezzi

Limiti di velocità

Verificare quale velocità è stata utilizzata

Retry e fallback

Retry automatici

Fallback alla velocità standard

Considerazioni

Passaggi successivi

Modelli supportati

Come funziona la fast mode

Utilizzo di base

Prezzi

Limiti di velocità

Verificare quale velocità è stata utilizzata

Retry e fallback

Retry automatici

Fallback alla velocità standard

Considerazioni

Passaggi successivi