This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
Man mano che le conversazioni crescono, alla fine ti avvicinerai ai limiti della finestra di contesto. Questa guida spiega come funzionano le finestre di contesto e introduce strategie per gestirle efficacemente.
Per conversazioni di lunga durata e flussi di lavoro agentici, la compattazione lato server è la strategia principale per la gestione del contesto. Per esigenze più specializzate, la modifica del contesto offre strategie aggiuntive come la cancellazione dei risultati degli strumenti e la cancellazione dei blocchi di pensiero.
La "finestra di contesto" si riferisce a tutto il testo a cui un modello di linguaggio può fare riferimento quando genera una risposta, inclusa la risposta stessa. Questo è diverso dal grande corpus di dati su cui il modello di linguaggio è stato addestrato e rappresenta invece una "memoria di lavoro" per il modello. Una finestra di contesto più grande consente al modello di gestire prompt più complessi e lunghi, ma più contesto non è automaticamente migliore. Man mano che il conteggio dei token cresce, l'accuratezza e il richiamo si degradano, un fenomeno noto come context rot. Questo rende la cura di ciò che è nel contesto altrettanto importante quanto lo spazio disponibile.
Claude ottiene risultati all'avanguardia nei benchmark di recupero a lungo contesto come MRCR e GraphWalks, ma questi guadagni dipendono da ciò che è nel contesto, non solo da quanto si adatta.
Per un approfondimento sul perché i contesti lunghi si degradano e come progettare intorno a questo, vedi Effective context engineering.
Il diagramma sottostante illustra il comportamento standard della finestra di contesto per le richieste API1:
1Per le interfacce di chat, come per claude.ai, le finestre di contesto possono anche essere configurate su un sistema "first in, first out" continuo.
Quando si utilizza il pensiero esteso, tutti i token di input e output, inclusi i token utilizzati per il pensiero, contano verso il limite della finestra di contesto, con alcune sfumature in situazioni multi-turno.
I token del budget di pensiero sono un sottoinsieme del tuo parametro max_tokens, vengono fatturati come token di output e contano verso i limiti di velocità. Con il pensiero adattivo, Claude decide dinamicamente la sua allocazione di pensiero, quindi l'utilizzo effettivo dei token di pensiero può variare per richiesta.
Tuttavia, i blocchi di pensiero precedenti vengono automaticamente rimossi dal calcolo della finestra di contesto da parte dell'API Claude e non fanno parte della cronologia della conversazione che il modello "vede" per i turni successivi, preservando la capacità dei token per il contenuto della conversazione effettiva.
Il diagramma sottostante dimostra la gestione specializzata dei token quando il pensiero esteso è abilitato:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking.Questa architettura è efficiente in termini di token e consente un ragionamento esteso senza sprechi di token, poiché i blocchi di pensiero possono essere sostanziali in lunghezza.
Puoi leggere di più sulla finestra di contesto e il pensiero esteso nella guida al pensiero esteso.
Il diagramma sottostante illustra la gestione dei token della finestra di contesto quando si combina il pensiero esteso con l'uso degli strumenti:
Architettura del primo turno
Gestione dei risultati degli strumenti (turno 2)
tool_result. Il blocco di pensiero esteso deve essere restituito con i risultati degli strumenti corrispondenti. Questo è l'unico caso in cui devi restituire i blocchi di pensiero.user).Terzo passo
User.User al di fuori del ciclo di uso dello strumento, Claude genera un nuovo blocco di pensiero esteso e continua da lì.Assistant corrente conta come parte della finestra di contesto.context_window = input_tokens + current_turn_tokens.I modelli Claude 4 supportano il pensiero interleaved, che consente a Claude di pensare tra le chiamate agli strumenti e fare ragionamenti più sofisticati dopo aver ricevuto i risultati degli strumenti.
Claude Sonnet 3.7 non supporta il pensiero interleaved, quindi non c'è interleaving del pensiero esteso e delle chiamate agli strumenti senza un turno utente non-tool_result in mezzo.
Per ulteriori informazioni sull'utilizzo degli strumenti con il pensiero esteso, vedi la guida al pensiero esteso.
Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6 hanno una finestra di contesto di 1M token. Altri modelli Claude, inclusi Claude Sonnet 4.5 e Sonnet 4 (deprecato), hanno una finestra di contesto di 200k token.
Una singola richiesta può includere fino a 600 immagini o pagine PDF (100 per i modelli con una finestra di contesto di 200k token). Quando invii molte immagini o documenti di grandi dimensioni, potresti avvicinarti ai limiti di dimensione della richiesta prima del limite di token.
Claude Sonnet 4.6, Claude Sonnet 4.5 e Claude Haiku 4.5 presentano consapevolezza del contesto. Questa capacità consente a questi modelli di tracciare la loro finestra di contesto rimanente (cioè il "budget di token") durante una conversazione. Questo consente a Claude di eseguire attività e gestire il contesto più efficacemente comprendendo quanto spazio ha per lavorare. Claude è addestrato a utilizzare questo contesto con precisione, persistendo nel compito fino alla fine piuttosto che indovinare quanti token rimangono. Per un modello, la mancanza di consapevolezza del contesto è come competere in uno show culinario senza un orologio. I modelli Claude 4.5+ cambiano questo informando esplicitamente il modello sulla sua finestra di contesto rimanente, in modo che possa sfruttare al massimo i token disponibili.
Come funziona:
All'inizio di una conversazione, Claude riceve informazioni sulla sua finestra di contesto totale:
<budget:token_budget>1000000</budget:token_budget>Il budget è impostato su 1M di token (200k per i modelli con una finestra di contesto più piccola).
Dopo ogni chiamata dello strumento, Claude riceve un aggiornamento sulla capacità rimanente:
<system_warning>Token usage: 35000/1000000; 965000 remaining</system_warning>Questa consapevolezza aiuta Claude a determinare quanta capacità rimane per il lavoro e consente un'esecuzione più efficace su attività di lunga durata. I token dell'immagine sono inclusi in questi budget.
Vantaggi:
La consapevolezza del contesto è particolarmente preziosa per:
Per gli agenti che si estendono su più sessioni, progetta i tuoi artefatti di stato in modo che il recupero del contesto sia veloce quando inizia una nuova sessione. Il modello multi-sessione dello strumento di memoria illustra un approccio concreto. Vedi anche Effective harnesses for long-running agents.
Per una guida al prompt su come sfruttare la consapevolezza del contesto, vedi la guida alle migliori pratiche di prompt.
Se le tue conversazioni si avvicinano regolarmente ai limiti della finestra di contesto, la compattazione lato server è l'approccio consigliato. La compattazione fornisce una riepilogazione lato server che condensa automaticamente le parti precedenti di una conversazione, consentendo conversazioni di lunga durata oltre i limiti del contesto con un lavoro di integrazione minimo. È attualmente disponibile in beta per Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6.
Per esigenze più specializzate, la modifica del contesto offre strategie aggiuntive:
I modelli Claude più recenti (a partire da Claude Sonnet 3.7) restituiscono un errore di convalida quando i token di prompt e output superano la finestra di contesto, anziché troncare silenziosamente. Questo cambiamento fornisce un comportamento più prevedibile ma richiede una gestione dei token più attenta.
Utilizza l'API di conteggio dei token per stimare l'utilizzo dei token prima di inviare messaggi a Claude. Questo ti aiuta a pianificare e rimanere entro i limiti della finestra di contesto.
Vedi la tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto per modello.
La strategia consigliata per gestire il contesto nelle conversazioni di lunga durata.
Strategie granulari come la cancellazione dei risultati degli strumenti e la cancellazione dei blocchi di pensiero.
Vedi la tabella di confronto dei modelli per un elenco delle dimensioni della finestra di contesto e dei prezzi dei token di input/output per modello.
Scopri di più su come funziona il pensiero esteso e come implementarlo insieme ad altre funzioni come l'uso degli strumenti e il caching dei prompt.
Was this page helpful?