• Messaggi
  • Agenti gestiti
  • Amministrazione

Search...
⌘K
Primi passi
Introduzione a ClaudeGuida rapida
Sviluppare con Claude
Panoramica delle funzionalitàUtilizzo dell'API MessagesMotivi di interruzione e fallbackRifiuti e fallbackCredito di fallback
Capacità del modello
Pensiero estesoPensiero adattivoSforzoBudget delle attività (beta)Modalità veloce (anteprima di ricerca)Output strutturatiCitazioniStreaming dei messaggiElaborazione batchRisultati di ricercaStreaming dei rifiutiSupporto multilingueEmbedding
Strumenti
PanoramicaCome funziona l'uso degli strumentiTutorial: Creare un agente che usa strumentiDefinire gli strumentiGestire le chiamate agli strumentiUso degli strumenti in paralleloTool Runner (SDK)Uso degli strumenti rigorosoUso degli strumenti con cache dei promptStrumenti serverRisoluzione dei problemiStrumento di ricerca webStrumento di recupero webStrumento di esecuzione del codiceStrumento consulenteStrumento di memoriaStrumento BashStrumento di uso del computerStrumento editor di testo
Infrastruttura degli strumenti
Riferimento degli strumentiGestire il contesto degli strumentiCombinazioni di strumentiRicerca di strumentiChiamata programmatica degli strumentiStreaming granulare degli strumenti
Gestione del contesto
Finestre di contestoCompattazioneModifica del contestoCache dei promptMessaggi di sistema a metà conversazioneCreare una modalità di orchestrazioneDiagnostica della cache (beta)Conteggio dei token
Lavorare con i file
API FilesSupporto PDFImmagini e visione
Skill
PanoramicaGuida rapidaBest practiceSkill per le aziendeSkill nell'API
MCP
Server MCP remotiConnettore MCP
Claude su piattaforme cloud
Amazon BedrockAmazon Bedrock (legacy)Claude Platform su AWSMicrosoft FoundryVertex AI

Log in
Modalità veloce (anteprima di ricerca)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messaggi/Capacità del modello

Modalità veloce (anteprima di ricerca)

Velocità di output più elevata per i modelli Claude Opus supportati, che offre una generazione di token significativamente più rapida per flussi di lavoro agentici e sensibili alla latenza.

La modalità veloce fornisce una generazione di token di output significativamente più rapida per Claude Opus 4.8, Claude Opus 4.7 e Claude Opus 4.6 a un prezzo premium. Imposta speed: "fast" nella tua richiesta API per attivarla. La modalità veloce offre fino a 2,5 volte più token di output al secondo dallo stesso modello.



La modalità veloce è in anteprima di ricerca. Contatta il tuo account manager per richiedere l'accesso. Se non hai un account manager, iscriviti alla lista d'attesa per la modalità veloce.



Questa funzionalità è idonea per la Zero Data Retention (ZDR). Quando la tua organizzazione dispone di un accordo ZDR, i dati inviati tramite questa funzionalità non vengono conservati dopo che la risposta dell'API è stata restituita.

Modelli supportati

La modalità veloce è supportata sui seguenti modelli:

  • Claude Opus 4.8 (claude-opus-4-8)
  • Claude Opus 4.7 (claude-opus-4-7)
  • Claude Opus 4.6 (claude-opus-4-6)


La modalità veloce per Claude Opus 4.8 viene lanciata come anteprima di ricerca esclusivamente sull'API Claude, inclusi i Claude Managed Agents. Non è disponibile su piattaforme di terze parti, tra cui Vertex AI, Amazon Bedrock e Microsoft Foundry.



La modalità veloce per Claude Opus 4.6 è deprecata a partire dal lancio di Claude Opus 4.8 e verrà rimossa circa 30 giorni dopo. Dopo la rimozione, le richieste a claude-opus-4-6 con speed: "fast" ricadranno sulla velocità standard con prezzi standard anziché restituire un errore. Migra alla modalità veloce per Claude Opus 4.8 o Claude Opus 4.7 per mantenere l'accelerazione.

Come funziona la modalità veloce

La modalità veloce esegue lo stesso modello con una configurazione di inferenza più rapida. Non vi è alcun cambiamento nell'intelligenza o nelle capacità.

  • Fino a 2,5 volte più token di output al secondo rispetto alla velocità standard
  • I vantaggi in termini di velocità si concentrano sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT)
  • Stessi pesi e comportamento del modello (non è un modello diverso)

Utilizzo di base

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)

Prezzi

La modalità veloce ha un prezzo basato su un moltiplicatore per modello applicato alle tariffe standard sull'intera finestra di contesto, incluse le richieste con oltre 200k token di input. La tabella seguente mostra i prezzi della modalità veloce per ciascun modello supportato:

ModelloInputOutput
Claude Opus 4.6 / Claude Opus 4.7$30 / MTok$150 / MTok
Claude Opus 4.8$10 / MTok$50 / MTok

I prezzi della modalità veloce si sommano ad altri modificatori di prezzo:

  • I moltiplicatori della cache dei prompt si applicano in aggiunta ai prezzi della modalità veloce
  • I moltiplicatori della residenza dei dati si applicano in aggiunta ai prezzi della modalità veloce

Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.

Limiti di velocità

La modalità veloce ha un limite di velocità dedicato, separato dai limiti di velocità standard di Opus. Quando il limite di velocità della modalità veloce viene superato, l'API restituisce un errore 429 con un header retry-after che indica quando la capacità sarà disponibile.

La risposta include header che indicano lo stato del limite di velocità della modalità veloce:

HeaderDescrizione
anthropic-fast-input-tokens-limitNumero massimo di token di input in modalità veloce al minuto
anthropic-fast-input-tokens-remainingToken di input in modalità veloce rimanenti
anthropic-fast-input-tokens-resetMomento in cui il limite di token di input in modalità veloce si reimposta
anthropic-fast-output-tokens-limitNumero massimo di token di output in modalità veloce al minuto
anthropic-fast-output-tokens-remainingToken di output in modalità veloce rimanenti
anthropic-fast-output-tokens-resetMomento in cui il limite di token di output in modalità veloce si reimposta

Per i limiti di velocità specifici per livello, consulta la pagina dei limiti di velocità.

Verificare quale velocità è stata utilizzata

L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard":

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 8,
    "output_tokens": 12,
    "speed": "fast"
  }
}

Per monitorare l'utilizzo e i costi della modalità veloce nella tua organizzazione, consulta la Usage and Cost API.

Tentativi e fallback

Tentativi automatici

Quando i limiti di velocità della modalità veloce vengono superati, l'API restituisce un errore 429 con un header retry-after. Gli SDK di Anthropic ritentano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile tramite max_retries), attendendo il ritardo specificato dal server prima di ogni tentativo. Poiché la modalità veloce utilizza un rifornimento continuo di token, il ritardo retry-after è in genere breve e le richieste hanno successo non appena la capacità è disponibile.

Fallback alla velocità standard

Se preferisci ricadere sulla velocità standard anziché attendere la capacità della modalità veloce, intercetta l'errore di limite di velocità e riprova senza speed: "fast". Imposta max_retries a 0 sulla richiesta veloce iniziale per saltare i tentativi automatici e fallire immediatamente in caso di errori di limite di velocità.



Il fallback dalla velocità veloce a quella standard comporterà un mancato riscontro nella cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.

Poiché impostare max_retries a 0 disabilita anche i tentativi per altri errori transitori (sovraccarico, errori interni del server), gli esempi seguenti rieseguono la richiesta originale con i tentativi predefiniti per quei casi.

client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=0, max_attempts=3, **params):
    try:
        return client.with_options(max_retries=max_retries).beta.messages.create(
            **params
        )
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(max_retries=max_retries, **params)
        raise
    except (
        anthropic.APIStatusError,
        anthropic.APIConnectionError,
    ) as error:
        if isinstance(error, anthropic.APIStatusError) and error.status_code < 500:
            raise
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_retries=max_retries, max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-8",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)

Considerazioni

  • Cache dei prompt: Passare dalla velocità veloce a quella standard (o viceversa) invalida la cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.
  • Modelli supportati: La modalità veloce è supportata su Claude Opus 4.8, Claude Opus 4.7 e Claude Opus 4.6. L'invio di speed: "fast" con un modello non supportato restituisce un errore.
  • TTFT: I vantaggi della modalità veloce si concentrano sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT).
  • Batch API: La modalità veloce non è disponibile con la Batch API.
  • Priority Tier: La modalità veloce non è disponibile con Priority Tier.
  • Claude Platform su AWS: La modalità veloce non è attualmente disponibile su Claude Platform su AWS.

Passaggi successivi

Prezzi

Visualizza informazioni dettagliate sui prezzi della modalità veloce.

Limiti di velocità

Controlla i livelli dei limiti di velocità per la modalità veloce.

Parametro effort

Controlla l'utilizzo dei token con il parametro effort.

Was this page helpful?

  • Modelli supportati
  • Come funziona la modalità veloce
  • Utilizzo di base
  • Prezzi
  • Limiti di velocità
  • Verificare quale velocità è stata utilizzata
  • Tentativi e fallback
  • Tentativi automatici
  • Fallback alla velocità standard
  • Considerazioni
  • Passaggi successivi