Loading...
    • Guida per sviluppatori
    • Riferimento API
    • MCP
    • Risorse
    • Note sulla versione
    Search...
    ⌘K
    Primi passi
    Introduzione a ClaudeAvvio rapido
    Modelli e prezzi
    Panoramica dei modelliScelta di un modelloNovità in Claude 4.6Guida alla migrazioneDeprecazioni dei modelliPrezzi
    Crea con Claude
    Panoramica delle funzioniUtilizzo dell'API MessagesGestione dei motivi di arrestoBest practice per i prompt
    Capacità del modello
    Extended thinkingAdaptive thinkingEffortFast mode (anteprima di ricerca)Output strutturatiCitazioniStreaming dei messaggiElaborazione batchSupporto PDFRisultati di ricercaSupporto multilingueEmbeddingsVision
    Strumenti
    PanoramicaCome implementare l'uso degli strumentiStrumento di ricerca webStrumento di recupero webStrumento di esecuzione del codiceStrumento di memoriaStrumento BashStrumento Computer useStrumento editor di testo
    Infrastruttura degli strumenti
    Ricerca strumentiChiamata programmatica degli strumentiStreaming granulare degli strumenti
    Gestione del contesto
    Finestre di contestoCompattazioneModifica del contestoPrompt cachingConteggio dei token
    File e risorse
    API Files
    Agent Skills
    PanoramicaAvvio rapidoBest practiceSkills per l'aziendaUtilizzo di Skills con l'API
    Agent SDK
    PanoramicaAvvio rapidoTypeScript SDKTypeScript V2 (anteprima)Python SDKGuida alla migrazione
    MCP nell'API
    Connettore MCPServer MCP remoti
    Claude su piattaforme di terze parti
    Amazon BedrockMicrosoft FoundryVertex AI
    Prompt engineering
    PanoramicaGeneratore di promptUsa modelli di promptMiglioratore di promptSii chiaro e direttoUsa esempi (multishot prompting)Lascia che Claude pensi (CoT)Usa tag XMLDai a Claude un ruolo (prompt di sistema)Concatena prompt complessiSuggerimenti per il contesto lungoSuggerimenti per extended thinking
    Test e valutazione
    Definisci criteri di successoSviluppa casi di testUtilizzo dello strumento di valutazioneRiduzione della latenza
    Rafforza i guardrail
    Riduci le allucinazioniAumenta la coerenza dell'outputMitiga i jailbreakStreaming dei rifiutiRiduci la perdita di promptMantieni Claude nel personaggio
    Amministrazione e monitoraggio
    Panoramica dell'API AdminResidenza dei datiWorkspaceAPI di utilizzo e costiAPI Claude Code AnalyticsZero Data Retention
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Capacità del modello

    Modalità veloce (anteprima di ricerca)

    Velocità di output superiore per Claude Opus 4.6, che offre una generazione di token significativamente più veloce per flussi di lavoro sensibili alla latenza e agentici.

    La modalità veloce fornisce una generazione di token di output significativamente più veloce per Claude Opus 4.6. Impostando speed: "fast" nella tua richiesta API, ottieni fino a 2,5 volte più token di output al secondo dallo stesso modello a prezzi premium.

    La modalità veloce è attualmente in anteprima di ricerca. Iscriviti alla lista d'attesa per richiedere l'accesso. La disponibilità è limitata mentre raccogliamo feedback.

    Modelli supportati

    La modalità veloce è supportata sui seguenti modelli:

    • Claude Opus 4.6 (claude-opus-4-6)

    Come funziona la modalità veloce

    La modalità veloce esegue lo stesso modello con una configurazione di inferenza più veloce. Non c'è alcun cambiamento nell'intelligenza o nelle capacità.

    • Fino a 2,5 volte più token di output al secondo rispetto alla velocità standard
    • I vantaggi di velocità sono focalizzati sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT)
    • Stessi pesi del modello e comportamento (non un modello diverso)

    Utilizzo di base

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 4096,
            "speed": "fast",
            "messages": [{
                "role": "user",
                "content": "Refactor this module to use dependency injection"
            }]
        }'

    Prezzi

    La modalità veloce è prezzata a 6 volte le tariffe standard di Opus per prompt ≤200K token, e 12 volte le tariffe standard di Opus per prompt > 200K token. La seguente tabella mostra i prezzi per Claude Opus 4.6 con modalità veloce:

    Finestra di contestoInputOutput
    ≤ 200K token di input$30 / MTok$150 / MTok
    > 200K token di input$60 / MTok$225 / MTok

    I prezzi della modalità veloce si sommano con altri modificatori di prezzo:

    • I moltiplicatori di caching dei prompt si applicano in aggiunta ai prezzi della modalità veloce
    • I moltiplicatori di residenza dei dati si applicano in aggiunta ai prezzi della modalità veloce

    Per i dettagli completi sui prezzi, consulta la pagina dei prezzi.

    Limiti di velocità

    La modalità veloce ha un limite di velocità dedicato che è separato dai limiti di velocità standard di Opus. A differenza della velocità standard, che ha limiti separati per token di input ≤200K e >200K, la modalità veloce utilizza un singolo limite di velocità che copre l'intera gamma di contesto. Quando il tuo limite di velocità della modalità veloce viene superato, l'API restituisce un errore 429 con un'intestazione retry-after che indica quando la capacità sarà disponibile.

    La risposta include intestazioni che indicano lo stato del tuo limite di velocità della modalità veloce:

    IntestazioneDescrizione
    anthropic-fast-input-tokens-limitMassimi token di input della modalità veloce al minuto
    anthropic-fast-input-tokens-remainingToken di input della modalità veloce rimanenti
    anthropic-fast-input-tokens-resetOra in cui il limite dei token di input della modalità veloce si ripristina
    anthropic-fast-output-tokens-limitMassimi token di output della modalità veloce al minuto
    anthropic-fast-output-tokens-remainingToken di output della modalità veloce rimanenti
    anthropic-fast-output-tokens-resetOra in cui il limite dei token di output della modalità veloce si ripristina

    Per i limiti di velocità specifici del livello, consulta la pagina dei limiti di velocità.

    Verifica quale velocità è stata utilizzata

    L'oggetto usage della risposta include un campo speed che indica quale velocità è stata utilizzata, "fast" o "standard":

    curl https://api.anthropic.com/v1/messages \
        --header "x-api-key: $ANTHROPIC_API_KEY" \
        --header "anthropic-version: 2023-06-01" \
        --header "anthropic-beta: fast-mode-2026-02-01" \
        --header "content-type: application/json" \
        --data '{
            "model": "claude-opus-4-6",
            "max_tokens": 1024,
            "speed": "fast",
            "messages": [{"role": "user", "content": "Hello"}]
        }'
    
    {
      "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
      "type": "message",
      "role": "assistant",
      ...
      "usage": {
        "input_tokens": 523,
        "output_tokens": 1842,
        "speed": "fast"
      }
    }

    Per tracciare l'utilizzo della modalità veloce e i costi in tutta la tua organizzazione, consulta l'API di utilizzo e costi.

    Tentativi e fallback

    Tentativi automatici

    Quando i limiti di velocità della modalità veloce vengono superati, l'API restituisce un errore 429 con un'intestazione retry-after. Gli SDK di Anthropic ritentano automaticamente queste richieste fino a 2 volte per impostazione predefinita (configurabile tramite max_retries), attendendo il ritardo specificato dal server prima di ogni tentativo. Poiché la modalità veloce utilizza il reintegro continuo dei token, il ritardo retry-after è tipicamente breve e le richieste hanno successo una volta che la capacità è disponibile.

    Fallback alla velocità standard

    Se preferisci eseguire il fallback alla velocità standard piuttosto che aspettare la capacità della modalità veloce, cattura l'errore del limite di velocità e ritenta senza speed: "fast". Imposta max_retries a 0 sulla richiesta veloce iniziale per saltare i tentativi automatici e fallire immediatamente su errori di limite di velocità.

    Il fallback dalla velocità veloce a quella standard comporterà un miss della cache del prompt. Le richieste a velocità diverse non condividono prefissi memorizzati nella cache.

    Poiché l'impostazione di max_retries a 0 disabilita anche i tentativi per altri errori transitori (sovraccarico, errori del server interno), gli esempi seguenti ripresentano la richiesta originale con tentativi predefiniti per questi casi.

    import anthropic
    
    client = anthropic.Anthropic()
    
    
    def create_message_with_fast_fallback(max_retries=None, max_attempts=3, **params):
        try:
            return client.beta.messages.create(**params, max_retries=max_retries)
        except anthropic.RateLimitError:
            if params.get("speed") == "fast":
                del params["speed"]
                return create_message_with_fast_fallback(**params)
            raise
        except (
            anthropic.InternalServerError,
            anthropic.OverloadedError,
            anthropic.APIConnectionError,
        ):
            if max_attempts > 1:
                return create_message_with_fast_fallback(
                    max_attempts=max_attempts - 1, **params
                )
            raise
    
    
    message = create_message_with_fast_fallback(
        model="claude-opus-4-6",
        max_tokens=1024,
        messages=[{"role": "user", "content": "Hello"}],
        betas=["fast-mode-2026-02-01"],
        speed="fast",
        max_retries=0,
    )

    Considerazioni

    • Caching dei prompt: Passare tra velocità veloce e standard invalida la cache del prompt. Le richieste a velocità diverse non condividono prefissi memorizzati nella cache.
    • Modelli supportati: La modalità veloce è attualmente supportata solo su Opus 4.6. L'invio di speed: "fast" con un modello non supportato restituisce un errore.
    • TTFT: I vantaggi della modalità veloce sono focalizzati sui token di output al secondo (OTPS), non sul tempo al primo token (TTFT).
    • API Batch: La modalità veloce non è disponibile con l'API Batch.
    • Priority Tier: La modalità veloce non è disponibile con Priority Tier.

    Passaggi successivi

    Prezzi

    Visualizza informazioni dettagliate sui prezzi della modalità veloce.

    Limiti di velocità

    Controlla i livelli di limite di velocità per la modalità veloce.

    Parametro effort

    Controlla l'utilizzo dei token con il parametro effort.

    Was this page helpful?

    • Modelli supportati
    • Come funziona la modalità veloce
    • Utilizzo di base
    • Prezzi
    • Limiti di velocità
    • Verifica quale velocità è stata utilizzata
    • Tentativi e fallback
    • Tentativi automatici
    • Fallback alla velocità standard
    • Considerazioni
    • Passaggi successivi