Gestione del contesto

Finestre di contesto

Scopri come funzionano le finestre di contesto e le strategie per gestirle efficacemente

Con la crescita delle conversazioni, alla fine raggiungerai i limiti della finestra di contesto. Questa guida spiega come funzionano le finestre di contesto e introduce strategie per gestirle efficacemente.

Per conversazioni di lunga durata e flussi di lavoro agentici, la compattazione lato server è la strategia principale per la gestione del contesto. Per esigenze più specializzate, la modifica del contesto offre strategie aggiuntive come la cancellazione dei risultati degli strumenti e la cancellazione dei blocchi di pensiero.

Comprensione della finestra di contesto

La "finestra di contesto" si riferisce a tutto il testo a cui un modello di linguaggio può fare riferimento quando genera una risposta, inclusa la risposta stessa. Questo è diverso dal grande corpus di dati su cui il modello di linguaggio è stato addestrato e rappresenta invece una "memoria di lavoro" per il modello. Una finestra di contesto più grande consente al modello di gestire prompt più complessi e lunghi. Una finestra di contesto più piccola può limitare la capacità del modello di mantenere la coerenza su conversazioni estese.

Il diagramma seguente illustra il comportamento standard della finestra di contesto per le richieste API¹:

Diagramma della finestra di contesto

¹Per interfacce di chat, come per claude.ai, le finestre di contesto possono anche essere configurate su un sistema "first in, first out" mobile.

Accumulo progressivo di token: Con l'avanzare della conversazione attraverso i turni, ogni messaggio dell'utente e risposta dell'assistente si accumulano all'interno della finestra di contesto. I turni precedenti vengono preservati completamente.
Modello di crescita lineare: L'utilizzo del contesto cresce linearmente con ogni turno, con i turni precedenti preservati completamente.
Capacità di 200K token: La finestra di contesto totale disponibile (200.000 token) rappresenta la capacità massima per l'archiviazione della cronologia delle conversazioni e la generazione di nuovo output da Claude.
Flusso input-output: Ogni turno consiste in:
- Fase di input: Contiene tutta la cronologia della conversazione precedente più il messaggio dell'utente corrente
- Fase di output: Genera una risposta di testo che diventa parte di un input futuro

La finestra di contesto con il pensiero esteso

Quando si utilizza il pensiero esteso, tutti i token di input e output, inclusi i token utilizzati per il pensiero, contano verso il limite della finestra di contesto, con alcune sfumature in situazioni multi-turno.

I token del budget di pensiero sono un sottoinsieme del parametro max_tokens, vengono fatturati come token di output e contano verso i limiti di velocità. Con il pensiero adattivo, Claude decide dinamicamente la sua allocazione di pensiero, quindi l'utilizzo effettivo dei token di pensiero può variare per ogni richiesta.

Tuttavia, i blocchi di pensiero precedenti vengono automaticamente rimossi dal calcolo della finestra di contesto da parte dell'API Claude e non fanno parte della cronologia della conversazione che il modello "vede" per i turni successivi, preservando la capacità di token per il contenuto della conversazione effettiva.

Il diagramma seguente dimostra la gestione specializzata dei token quando il pensiero esteso è abilitato:

Diagramma della finestra di contesto con pensiero esteso

Rimozione del pensiero esteso: I blocchi di pensiero esteso (mostrati in grigio scuro) vengono generati durante la fase di output di ogni turno, ma non vengono trasportati come token di input per i turni successivi. Non è necessario rimuovere i blocchi di pensiero da soli. L'API Claude lo fa automaticamente per te se li restituisci.
Dettagli di implementazione tecnica:
- L'API esclude automaticamente i blocchi di pensiero dai turni precedenti quando li restituisci come parte della cronologia della conversazione.
- I token di pensiero esteso vengono fatturati come token di output solo una volta, durante la loro generazione.
- Il calcolo della finestra di contesto effettiva diventa: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
- I token di pensiero includono sia i blocchi thinking che i blocchi redacted_thinking.

Questa architettura è efficiente in termini di token e consente un ragionamento esteso senza spreco di token, poiché i blocchi di pensiero possono essere sostanziali in lunghezza.

Puoi leggere di più sulla finestra di contesto e il pensiero esteso nella guida al pensiero esteso.

La finestra di contesto con il pensiero esteso e l'uso degli strumenti

Il diagramma seguente illustra la gestione dei token della finestra di contesto quando si combina il pensiero esteso con l'uso degli strumenti:

Diagramma della finestra di contesto con pensiero esteso e uso degli strumenti

Architettura del primo turno
- Componenti di input: Configurazione degli strumenti e messaggio dell'utente
- Componenti di output: Pensiero esteso + risposta di testo + richiesta di uso dello strumento
- Calcolo dei token: Tutti i componenti di input e output contano verso la finestra di contesto e tutti i componenti di output vengono fatturati come token di output.
Gestione dei risultati degli strumenti (turno 2)
- Componenti di input: Ogni blocco del primo turno così come il tool_result. Il blocco di pensiero esteso deve essere restituito con i risultati degli strumenti corrispondenti. Questo è l'unico caso in cui devi restituire i blocchi di pensiero.
- Componenti di output: Dopo che i risultati degli strumenti sono stati restituiti a Claude, Claude risponderà solo con testo (nessun pensiero esteso aggiuntivo fino al prossimo messaggio user).
- Calcolo dei token: Tutti i componenti di input e output contano verso la finestra di contesto e tutti i componenti di output vengono fatturati come token di output.
Terzo Step
- Componenti di input: Tutti gli input e l'output del turno precedente vengono trasportati con l'eccezione del blocco di pensiero, che può essere eliminato ora che Claude ha completato l'intero ciclo di uso dello strumento. L'API rimuoverà automaticamente il blocco di pensiero per te se lo restituisci, oppure puoi sentiti libero di rimuoverlo tu stesso in questa fase. Questo è anche il punto in cui aggiungeresti il prossimo turno User.
- Componenti di output: Poiché c'è un nuovo turno User al di fuori del ciclo di uso dello strumento, Claude genererà un nuovo blocco di pensiero esteso e continuerà da lì.
- Calcolo dei token: I token di pensiero precedenti vengono automaticamente rimossi dai calcoli della finestra di contesto. Tutti gli altri blocchi precedenti contano ancora come parte della finestra di token e il blocco di pensiero nel turno Assistant corrente conta come parte della finestra di contesto.

Considerazioni per l'uso degli strumenti con il pensiero esteso:
- Quando si pubblicano i risultati degli strumenti, l'intero blocco di pensiero non modificato che accompagna quella specifica richiesta di strumento (incluse le porzioni di firma/redatte) deve essere incluso.
- Il calcolo della finestra di contesto effettiva per il pensiero esteso con l'uso degli strumenti diventa: context_window = input_tokens + current_turn_tokens.
- Il sistema utilizza firme crittografiche per verificare l'autenticità del blocco di pensiero. La mancata preservazione dei blocchi di pensiero durante l'uso degli strumenti può interrompere la continuità del ragionamento di Claude. Pertanto, se modifichi i blocchi di pensiero, l'API restituirà un errore.

I modelli Claude 4 supportano il pensiero interlacciato, che consente a Claude di pensare tra le chiamate degli strumenti e di fare un ragionamento più sofisticato dopo aver ricevuto i risultati degli strumenti.

Claude Sonnet 3.7 non supporta il pensiero interlacciato, quindi non c'è interlacciamento del pensiero esteso e delle chiamate degli strumenti senza un turno utente non tool_result in mezzo.

Per ulteriori informazioni sull'utilizzo degli strumenti con il pensiero esteso, consulta la guida al pensiero esteso.

Finestra di contesto di 1M token

Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 e Sonnet 4 supportano una finestra di contesto di 1 milione di token. Questa finestra di contesto estesa ti consente di elaborare documenti molto più grandi, mantenere conversazioni più lunghe e lavorare con basi di codice più estese.

La finestra di contesto di 1M token è attualmente in beta per le organizzazioni nel livello di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. La finestra di contesto di 1M token è disponibile solo per Claude Opus 4.6, Sonnet 4.6, Sonnet 4.5 e Sonnet 4.

Per utilizzare la finestra di contesto di 1M token, includi l'intestazione beta context-1m-2025-08-07 nelle tue richieste API:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: context-1m-2025-08-07" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Process this large document..."}
    ]
  }'

Considerazioni importanti:

Stato beta: Questa è una funzione beta soggetta a modifiche. Le funzioni e i prezzi possono essere modificati o rimossi nelle versioni future.
Requisito del livello di utilizzo: La finestra di contesto di 1M token è disponibile per le organizzazioni nel livello di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. Le organizzazioni di livello inferiore devono passare al livello di utilizzo 4 per accedere a questa funzione.
Disponibilità: La finestra di contesto di 1M token è attualmente disponibile sull'API Claude, Microsoft Foundry, Amazon Bedrock e Google Cloud's Vertex AI.
Prezzi: Le richieste che superano i 200K token vengono automaticamente addebitate a tariffe premium (2x input, 1,5x output). Consulta la documentazione sui prezzi per i dettagli.
Limiti di velocità: Le richieste di contesto lungo hanno limiti di velocità dedicati. Consulta la documentazione sui limiti di velocità per i dettagli.
Considerazioni multimodali: Quando si elaborano grandi quantità di immagini o pdf, tieni presente che i file possono variare nell'utilizzo dei token. Quando si abbina un prompt grande con un gran numero di immagini, potresti raggiungere i limiti di dimensione della richiesta.

Consapevolezza del contesto in Claude Sonnet 4.6, Sonnet 4.5 e Haiku 4.5

Claude Sonnet 4.6, Claude Sonnet 4.5 e Claude Haiku 4.5 presentano la consapevolezza del contesto. Questa capacità consente a questi modelli di tracciare la loro finestra di contesto rimanente (cioè il "budget di token") durante una conversazione. Questo consente a Claude di eseguire attività e gestire il contesto più efficacemente comprendendo quanto spazio ha a disposizione. Claude è addestrato a utilizzare questo contesto con precisione, persistendo nel compito fino alla fine piuttosto che indovinare quanti token rimangono. Per un modello, la mancanza di consapevolezza del contesto è come competere in uno show di cucina senza un orologio. I modelli Claude 4.5+ cambiano questo informando esplicitamente il modello sulla sua finestra di contesto rimanente, in modo che possa sfruttare al massimo i token disponibili.

Come funziona:

All'inizio di una conversazione, Claude riceve informazioni sulla sua finestra di contesto totale:

<budget:token_budget>200000</budget:token_budget>

Il budget è impostato su 200K token (standard), 500K token (claude.ai Enterprise) o 1M token (beta, per le organizzazioni idonee).

Dopo ogni chiamata di strumento, Claude riceve un aggiornamento sulla capacità rimanente:

<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

Questa consapevolezza aiuta Claude a determinare quanta capacità rimane per il lavoro e consente un'esecuzione più efficace su attività di lunga durata. I token delle immagini sono inclusi in questi budget.

Vantaggi:

La consapevolezza del contesto è particolarmente preziosa per:

Sessioni di agenti di lunga durata che richiedono un focus sostenuto
Flussi di lavoro multi-finestra di contesto in cui le transizioni di stato sono importanti
Attività complesse che richiedono una gestione attenta dei token

Per una guida al prompting su come sfruttare la consapevolezza del contesto, consulta la guida alle migliori pratiche di prompting.

Gestione del contesto con la compattazione

Se le tue conversazioni si avvicinano regolarmente ai limiti della finestra di contesto, la compattazione lato server è l'approccio consigliato. La compattazione fornisce una sintesi lato server che condensa automaticamente le parti precedenti di una conversazione, consentendo conversazioni di lunga durata oltre i limiti del contesto con un lavoro di integrazione minimo. È attualmente disponibile in beta per Claude Opus 4.6.

Per esigenze più specializzate, la modifica del contesto offre strategie aggiuntive:

Cancellazione dei risultati degli strumenti - Cancella i vecchi risultati degli strumenti nei flussi di lavoro agentici
Cancellazione dei blocchi di pensiero - Gestisci i blocchi di pensiero con il pensiero esteso

Gestione della finestra di contesto con i modelli Claude più recenti

I modelli Claude più recenti (a partire da Claude Sonnet 3.7) restituiscono un errore di convalida quando i token di prompt e output superano la finestra di contesto, piuttosto che troncare silenziosamente. Questo cambiamento fornisce un comportamento più prevedibile ma richiede una gestione dei token più attenta.

Utilizza l'API di conteggio dei token per stimare l'utilizzo dei token prima di inviare messaggi a Claude. Questo ti aiuta a pianificare e rimanere entro i limiti della finestra di contesto.

Consulta la tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto per modello.

Passaggi successivi

Compattazione

La strategia consigliata per gestire il contesto nelle conversazioni di lunga durata.

Modifica del contesto

Strategie granulari come la cancellazione dei risultati degli strumenti e la cancellazione dei blocchi di pensiero.

Tabella di confronto dei modelli

Consulta la tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto e dei prezzi dei token di input/output per modello.

Panoramica del pensiero esteso

Scopri di più su come funziona il pensiero esteso e come implementarlo insieme ad altre funzioni come l'uso degli strumenti e la memorizzazione nella cache dei prompt.

Was this page helpful?

Gestione del contesto

Finestre di contesto

Scopri come funzionano le finestre di contesto e le strategie per gestirle efficacemente

Comprensione della finestra di contesto

Il diagramma seguente illustra il comportamento standard della finestra di contesto per le richieste API¹:

Diagramma della finestra di contesto

¹Per interfacce di chat, come per claude.ai, le finestre di contesto possono anche essere configurate su un sistema "first in, first out" mobile.

Accumulo progressivo di token: Con l'avanzare della conversazione attraverso i turni, ogni messaggio dell'utente e risposta dell'assistente si accumulano all'interno della finestra di contesto. I turni precedenti vengono preservati completamente.
Modello di crescita lineare: L'utilizzo del contesto cresce linearmente con ogni turno, con i turni precedenti preservati completamente.
Capacità di 200K token: La finestra di contesto totale disponibile (200.000 token) rappresenta la capacità massima per l'archiviazione della cronologia delle conversazioni e la generazione di nuovo output da Claude.
Flusso input-output: Ogni turno consiste in:
- Fase di input: Contiene tutta la cronologia della conversazione precedente più il messaggio dell'utente corrente
- Fase di output: Genera una risposta di testo che diventa parte di un input futuro

La finestra di contesto con il pensiero esteso

Il diagramma seguente dimostra la gestione specializzata dei token quando il pensiero esteso è abilitato:

Diagramma della finestra di contesto con pensiero esteso

Rimozione del pensiero esteso: I blocchi di pensiero esteso (mostrati in grigio scuro) vengono generati durante la fase di output di ogni turno, ma non vengono trasportati come token di input per i turni successivi. Non è necessario rimuovere i blocchi di pensiero da soli. L'API Claude lo fa automaticamente per te se li restituisci.
Dettagli di implementazione tecnica:
- L'API esclude automaticamente i blocchi di pensiero dai turni precedenti quando li restituisci come parte della cronologia della conversazione.
- I token di pensiero esteso vengono fatturati come token di output solo una volta, durante la loro generazione.
- Il calcolo della finestra di contesto effettiva diventa: context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.
- I token di pensiero includono sia i blocchi thinking che i blocchi redacted_thinking.

Questa architettura è efficiente in termini di token e consente un ragionamento esteso senza spreco di token, poiché i blocchi di pensiero possono essere sostanziali in lunghezza.

Puoi leggere di più sulla finestra di contesto e il pensiero esteso nella guida al pensiero esteso.

La finestra di contesto con il pensiero esteso e l'uso degli strumenti

Il diagramma seguente illustra la gestione dei token della finestra di contesto quando si combina il pensiero esteso con l'uso degli strumenti:

Diagramma della finestra di contesto con pensiero esteso e uso degli strumenti

Architettura del primo turno
- Componenti di input: Configurazione degli strumenti e messaggio dell'utente
- Componenti di output: Pensiero esteso + risposta di testo + richiesta di uso dello strumento
- Calcolo dei token: Tutti i componenti di input e output contano verso la finestra di contesto e tutti i componenti di output vengono fatturati come token di output.
Gestione dei risultati degli strumenti (turno 2)
- Componenti di input: Ogni blocco del primo turno così come il tool_result. Il blocco di pensiero esteso deve essere restituito con i risultati degli strumenti corrispondenti. Questo è l'unico caso in cui devi restituire i blocchi di pensiero.
- Componenti di output: Dopo che i risultati degli strumenti sono stati restituiti a Claude, Claude risponderà solo con testo (nessun pensiero esteso aggiuntivo fino al prossimo messaggio user).
- Calcolo dei token: Tutti i componenti di input e output contano verso la finestra di contesto e tutti i componenti di output vengono fatturati come token di output.
Terzo Step
- Componenti di input: Tutti gli input e l'output del turno precedente vengono trasportati con l'eccezione del blocco di pensiero, che può essere eliminato ora che Claude ha completato l'intero ciclo di uso dello strumento. L'API rimuoverà automaticamente il blocco di pensiero per te se lo restituisci, oppure puoi sentiti libero di rimuoverlo tu stesso in questa fase. Questo è anche il punto in cui aggiungeresti il prossimo turno User.
- Componenti di output: Poiché c'è un nuovo turno User al di fuori del ciclo di uso dello strumento, Claude genererà un nuovo blocco di pensiero esteso e continuerà da lì.
- Calcolo dei token: I token di pensiero precedenti vengono automaticamente rimossi dai calcoli della finestra di contesto. Tutti gli altri blocchi precedenti contano ancora come parte della finestra di token e il blocco di pensiero nel turno Assistant corrente conta come parte della finestra di contesto.

Considerazioni per l'uso degli strumenti con il pensiero esteso:
- Quando si pubblicano i risultati degli strumenti, l'intero blocco di pensiero non modificato che accompagna quella specifica richiesta di strumento (incluse le porzioni di firma/redatte) deve essere incluso.
- Il calcolo della finestra di contesto effettiva per il pensiero esteso con l'uso degli strumenti diventa: context_window = input_tokens + current_turn_tokens.
- Il sistema utilizza firme crittografiche per verificare l'autenticità del blocco di pensiero. La mancata preservazione dei blocchi di pensiero durante l'uso degli strumenti può interrompere la continuità del ragionamento di Claude. Pertanto, se modifichi i blocchi di pensiero, l'API restituirà un errore.

Claude Sonnet 3.7 non supporta il pensiero interlacciato, quindi non c'è interlacciamento del pensiero esteso e delle chiamate degli strumenti senza un turno utente non tool_result in mezzo.

Per ulteriori informazioni sull'utilizzo degli strumenti con il pensiero esteso, consulta la guida al pensiero esteso.

Finestra di contesto di 1M token

Per utilizzare la finestra di contesto di 1M token, includi l'intestazione beta context-1m-2025-08-07 nelle tue richieste API:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: context-1m-2025-08-07" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Process this large document..."}
    ]
  }'

Considerazioni importanti:

Stato beta: Questa è una funzione beta soggetta a modifiche. Le funzioni e i prezzi possono essere modificati o rimossi nelle versioni future.
Requisito del livello di utilizzo: La finestra di contesto di 1M token è disponibile per le organizzazioni nel livello di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. Le organizzazioni di livello inferiore devono passare al livello di utilizzo 4 per accedere a questa funzione.
Disponibilità: La finestra di contesto di 1M token è attualmente disponibile sull'API Claude, Microsoft Foundry, Amazon Bedrock e Google Cloud's Vertex AI.
Prezzi: Le richieste che superano i 200K token vengono automaticamente addebitate a tariffe premium (2x input, 1,5x output). Consulta la documentazione sui prezzi per i dettagli.
Limiti di velocità: Le richieste di contesto lungo hanno limiti di velocità dedicati. Consulta la documentazione sui limiti di velocità per i dettagli.
Considerazioni multimodali: Quando si elaborano grandi quantità di immagini o pdf, tieni presente che i file possono variare nell'utilizzo dei token. Quando si abbina un prompt grande con un gran numero di immagini, potresti raggiungere i limiti di dimensione della richiesta.

Consapevolezza del contesto in Claude Sonnet 4.6, Sonnet 4.5 e Haiku 4.5

Come funziona:

All'inizio di una conversazione, Claude riceve informazioni sulla sua finestra di contesto totale:

<budget:token_budget>200000</budget:token_budget>

Il budget è impostato su 200K token (standard), 500K token (claude.ai Enterprise) o 1M token (beta, per le organizzazioni idonee).

Dopo ogni chiamata di strumento, Claude riceve un aggiornamento sulla capacità rimanente:

<system_warning>Token usage: 35000/200000; 165000 remaining</system_warning>

Vantaggi:

La consapevolezza del contesto è particolarmente preziosa per:

Sessioni di agenti di lunga durata che richiedono un focus sostenuto
Flussi di lavoro multi-finestra di contesto in cui le transizioni di stato sono importanti
Attività complesse che richiedono una gestione attenta dei token

Per una guida al prompting su come sfruttare la consapevolezza del contesto, consulta la guida alle migliori pratiche di prompting.

Gestione del contesto con la compattazione

Per esigenze più specializzate, la modifica del contesto offre strategie aggiuntive:

Cancellazione dei risultati degli strumenti - Cancella i vecchi risultati degli strumenti nei flussi di lavoro agentici
Cancellazione dei blocchi di pensiero - Gestisci i blocchi di pensiero con il pensiero esteso

Gestione della finestra di contesto con i modelli Claude più recenti

Utilizza l'API di conteggio dei token per stimare l'utilizzo dei token prima di inviare messaggi a Claude. Questo ti aiuta a pianificare e rimanere entro i limiti della finestra di contesto.

Consulta la tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto per modello.

Passaggi successivi

Compattazione

La strategia consigliata per gestire il contesto nelle conversazioni di lunga durata.

Modifica del contesto

Strategie granulari come la cancellazione dei risultati degli strumenti e la cancellazione dei blocchi di pensiero.

Tabella di confronto dei modelli

Consulta la tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto e dei prezzi dei token di input/output per modello.

Panoramica del pensiero esteso

Scopri di più su come funziona il pensiero esteso e come implementarlo insieme ad altre funzioni come l'uso degli strumenti e la memorizzazione nella cache dei prompt.

Was this page helpful?