Loading...
  • Costruisci
  • Amministrazione
  • Modelli e prezzi
  • Client SDK
  • Riferimento API
Search...
⌘K
Log in
Modalità rapida (beta: anteprima di ricerca)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Amazon Bedrock
  • Google Cloud's Vertex AI

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Costruisci/Capacità del modello

Modalità veloce (beta: anteprima di ricerca)

Velocità di output superiore per Claude Opus 4.6, che offre una generazione di token significativamente più rapida per flussi di lavoro sensibili alla latenza e agentici.

Was this page helpful?

  • Modelli supportati
  • Come funziona la modalità veloce
  • Utilizzo di base
  • Prezzi
  • Limiti di frequenza
  • Verifica della velocità utilizzata
  • Tentativi ripetuti e fallback
  • Tentativi automatici
  • Fallback alla velocità standard
  • Considerazioni
  • Passi successivi

La modalità veloce fornisce una generazione di token di output significativamente più rapida per Claude Opus 4.6. Impostando speed: "fast" nella richiesta API, si ottengono fino a 2,5 volte più token di output al secondo dallo stesso modello a prezzi premium.

La modalità veloce è in beta (anteprima di ricerca). Iscriviti alla lista d'attesa per richiedere l'accesso. La disponibilità è limitata mentre Anthropic raccoglie feedback.

This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

Modelli supportati

La modalità veloce è supportata sui seguenti modelli:

  • Claude Opus 4.6 (claude-opus-4-6)

Come funziona la modalità veloce

La modalità veloce esegue lo stesso modello con una configurazione di inferenza più rapida. Non vi è alcuna modifica all'intelligenza o alle capacità.

  • Fino a 2,5 volte più token di output al secondo rispetto alla velocità standard
  • I vantaggi in termini di velocità sono focalizzati sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT)
  • Stessi pesi e comportamento del modello (non un modello diverso)

Utilizzo di base

Prezzi

La modalità veloce ha un prezzo pari a 6 volte le tariffe standard di Opus sull'intera finestra di contesto, incluse le richieste con più di 200k token di input. La tabella seguente mostra i prezzi per Claude Opus 4.6 con la modalità veloce:

InputOutput
$30 / MTok$150 / MTok

I prezzi della modalità veloce si sommano ad altri modificatori di prezzo:

  • I moltiplicatori di prompt caching si applicano in aggiunta ai prezzi della modalità veloce
  • I moltiplicatori di residenza dei dati si applicano in aggiunta ai prezzi della modalità veloce

Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.

Limiti di frequenza

La modalità veloce ha un limite di frequenza dedicato separato dai limiti di frequenza standard di Opus. Quando il limite di frequenza della modalità veloce viene superato, l'API restituisce un errore 429 con un'intestazione retry-after che indica quando la capacità sarà disponibile.

La risposta include intestazioni che indicano lo stato del limite di frequenza della modalità veloce:

IntestazioneDescrizione
anthropic-fast-input-tokens-limitNumero massimo di token di input in modalità veloce al minuto
anthropic-fast-input-tokens-remainingToken di input rimanenti in modalità veloce
anthropic-fast-input-tokens-resetMomento in cui si reimposta il limite di token di input in modalità veloce
anthropic-fast-output-tokens-limitNumero massimo di token di output in modalità veloce al minuto
anthropic-fast-output-tokens-remainingToken di output rimanenti in modalità veloce
anthropic-fast-output-tokens-resetMomento in cui si reimposta il limite di token di output in modalità veloce

Per i limiti di frequenza specifici per livello, consulta la pagina dei limiti di frequenza.

Verifica della velocità utilizzata

L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard":

Output
{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
// ...
  "usage": {
    "input_tokens": 523,
    "output_tokens": 1842,
    "speed": "fast"
  }
}

Per monitorare l'utilizzo e i costi della modalità veloce nella tua organizzazione, consulta l'API di utilizzo e costi.

Tentativi ripetuti e fallback

Tentativi automatici

Quando i limiti di frequenza della modalità veloce vengono superati, l'API restituisce un errore 429 con un'intestazione retry-after. Gli SDK di Anthropic riprovano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile tramite max_retries), attendendo il ritardo specificato dal server prima di ogni nuovo tentativo. Poiché la modalità veloce utilizza il reintegro continuo dei token, il ritardo retry-after è tipicamente breve e le richieste hanno successo una volta disponibile la capacità.

Fallback alla velocità standard

Se preferisci tornare alla velocità standard anziché attendere la capacità della modalità veloce, intercetta l'errore di limite di frequenza e riprova senza speed: "fast". Imposta max_retries a 0 sulla richiesta veloce iniziale per saltare i tentativi automatici e fallire immediatamente in caso di errori di limite di frequenza.

Il passaggio dalla modalità veloce a quella standard comporterà un mancato riscontro nella cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.

Poiché impostare max_retries a 0 disabilita anche i tentativi per altri errori transitori (sovraccarico, errori interni del server), gli esempi seguenti ripropongono la richiesta originale con i tentativi predefiniti per questi casi.

Considerazioni

  • Prompt caching: Il passaggio tra modalità veloce e standard invalida la cache dei prompt. Le richieste a velocità diverse non condividono i prefissi memorizzati nella cache.
  • Modelli supportati: La modalità veloce è attualmente supportata solo su Opus 4.6. L'invio di speed: "fast" con un modello non supportato restituisce un errore.
  • TTFT: I vantaggi della modalità veloce sono focalizzati sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT).
  • API Batch: La modalità veloce non è disponibile con l'API Batch.
  • Livello prioritario: La modalità veloce non è disponibile con il Livello prioritario.

Passi successivi

Prezzi

Visualizza informazioni dettagliate sui prezzi della modalità veloce.

Limiti di frequenza

Controlla i livelli di limite di frequenza per la modalità veloce.

Parametro effort

Controlla l'utilizzo dei token con il parametro effort.

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "Refactor this module to use dependency injection"}
    ],
)

print(response.content[0].text)
response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[{"role": "user", "content": "Hello"}],
)

print(response.usage.speed)  # "fast" or "standard"
client = anthropic.Anthropic()


def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
    try:
        return client.beta.messages.create(**params, max_retries=max_retries)
    except anthropic.RateLimitError:
        if params.get("speed") == "fast":
            del params["speed"]
            return create_message_with_fast_fallback(**params)
        raise
    except (
        anthropic.InternalServerError,
        anthropic.OverloadedError,
        anthropic.APIConnectionError,
    ):
        if max_attempts > 1:
            return create_message_with_fast_fallback(
                max_attempts=max_attempts - 1, **params
            )
        raise


message = create_message_with_fast_fallback(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello"}],
    betas=["fast-mode-2026-02-01"],
    speed="fast",
    max_retries=0,
)