La "finestra di contesto" si riferisce all'intera quantità di testo che un modello di linguaggio può guardare indietro e referenziare quando genera nuovo testo più il nuovo testo che genera. Questo è diverso dal grande corpus di dati su cui il modello di linguaggio è stato addestrato, e rappresenta invece una "memoria di lavoro" per il modello. Una finestra di contesto più ampia consente al modello di comprendere e rispondere a prompt più complessi e lunghi, mentre una finestra di contesto più piccola può limitare la capacità del modello di gestire prompt più lunghi o mantenere coerenza durante conversazioni estese.
Il diagramma sottostante illustra il comportamento standard della finestra di contesto per le richieste API1:
1Per le interfacce di chat, come per claude.ai, le finestre di contesto possono anche essere configurate su un sistema rotante "primo entrato, primo uscito".
Quando si utilizza il pensiero esteso, tutti i token di input e output, inclusi i token utilizzati per il pensiero, contano verso il limite della finestra di contesto, con alcune sfumature nelle situazioni multi-turno.
I token del budget di pensiero sono un sottoinsieme del tuo parametro max_tokens, sono fatturati come token di output e contano verso i limiti di velocità.
Tuttavia, i blocchi di pensiero precedenti sono automaticamente rimossi dal calcolo della finestra di contesto dall'API Claude e non fanno parte della cronologia della conversazione che il modello "vede" per i turni successivi, preservando la capacità di token per il contenuto effettivo della conversazione.
Il diagramma sottostante dimostra la gestione specializzata dei token quando il pensiero esteso è abilitato:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens.thinking che i blocchi redacted_thinking.Questa architettura è efficiente in termini di token e consente un ragionamento estensivo senza spreco di token, poiché i blocchi di pensiero possono essere sostanziali in lunghezza.
Puoi leggere di più sulla finestra di contesto e il pensiero esteso nella nostra guida al pensiero esteso.
Il diagramma sottostante illustra la gestione dei token della finestra di contesto quando si combina il pensiero esteso con l'uso di strumenti:
Architettura del primo turno
Gestione del risultato dello strumento (turno 2)
tool_result. Il blocco di pensiero esteso deve essere restituito con i risultati dello strumento corrispondenti. Questo è l'unico caso in cui devi restituire i blocchi di pensiero.user).Terzo Passo
User.User al di fuori del ciclo di uso dello strumento, Claude genererà un nuovo blocco di pensiero esteso e continuerà da lì.Assistant corrente conta come parte della finestra di contesto.context_window = input_tokens + current_turn_tokens.I modelli Claude 4 supportano il pensiero interlacciato, che consente a Claude di pensare tra le chiamate agli strumenti e fare ragionamenti più sofisticati dopo aver ricevuto i risultati degli strumenti.
Claude Sonnet 3.7 non supporta il pensiero interlacciato, quindi non c'è interlacciamento di pensiero esteso e chiamate agli strumenti senza un turno utente non-tool_result nel mezzo.
Per maggiori informazioni sull'uso di strumenti con pensiero esteso, vedi la nostra guida al pensiero esteso.
Claude Sonnet 4 e 4.5 supportano una finestra di contesto da 1 milione di token. Questa finestra di contesto estesa ti consente di elaborare documenti molto più grandi, mantenere conversazioni più lunghe e lavorare con basi di codice più estese.
La finestra di contesto da 1M token è attualmente in beta per le organizzazioni nel livello di utilizzo 4 e le organizzazioni con limiti di velocità personalizzati. La finestra di contesto da 1M token è disponibile solo per Claude Sonnet 4 e Sonnet 4.5.
Per utilizzare la finestra di contesto da 1M token, includi l'header beta context-1m-2025-08-07 nelle tue richieste API:
from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[
{"role": "user", "content": "Elabora questo documento grande..."}
],
betas=["context-1m-2025-08-07"]
)Considerazioni importanti:
Claude Sonnet 4.5 e Claude Haiku 4.5 presentano la consapevolezza del contesto, consentendo a questi modelli di tracciare la loro finestra di contesto rimanente (cioè "budget di token") durante una conversazione. Questo consente a Claude di eseguire compiti e gestire il contesto più efficacemente comprendendo quanto spazio ha per lavorare. Claude è nativamente addestrato per utilizzare questo contesto precisamente per persistere nel compito fino alla fine, piuttosto che dover indovinare quanti token rimangono. Per un modello, mancare di consapevolezza del contesto è come competere in uno show di cucina senza un orologio. I modelli Claude 4.5 cambiano questo informando esplicitamente il modello sul suo contesto rimanente, così può trarre il massimo vantaggio dai token disponibili.
Come funziona:
All'inizio di una conversazione, Claude riceve informazioni sulla sua finestra di contesto totale:
<budget:token_budget>200000</budget:token_budget>Il budget è impostato a 200K token (standard), 500K token (Claude.ai Enterprise), o 1M token (beta, per organizzazioni idonee).
Dopo ogni chiamata allo strumento, Claude riceve un aggiornamento sulla capacità rimanente:
<system_warning>Uso token: 35000/200000; 165000 rimanenti</system_warning>Questa consapevolezza aiuta Claude a determinare quanta capacità rimane per il lavoro e consente un'esecuzione più efficace su compiti di lunga durata. I token delle immagini sono inclusi in questi budget.
Benefici:
La consapevolezza del contesto è particolarmente preziosa per:
Per la guida al prompting su come sfruttare la consapevolezza del contesto, vedi la nostra guida alle migliori pratiche di Claude 4.
Nei modelli Claude più recenti (a partire da Claude Sonnet 3.7), se la somma dei token del prompt e dei token di output supera la finestra di contesto del modello, il sistema restituirà un errore di validazione piuttosto che troncare silenziosamente il contesto. Questo cambiamento fornisce un comportamento più prevedibile ma richiede una gestione più attenta dei token.
Per pianificare l'uso dei tuoi token e assicurarti di rimanere entro i limiti della finestra di contesto, puoi utilizzare l'API di conteggio dei token per stimare quanti token useranno i tuoi messaggi prima di inviarli a Claude.
Vedi la nostra tabella di confronto dei modelli per un elenco delle dimensioni delle finestre di contesto per modello.
Vedi la nostra tabella di confronto dei modelli per un elenco delle dimensioni delle finestre di contesto e dei prezzi dei token di input / output per modello.
Scopri di più su come funziona il pensiero esteso e come implementarlo insieme ad altre funzionalità come l'uso di strumenti e la cache dei prompt.