Claude 4.6 rappresenta la prossima generazione di modelli Claude, portando significative nuove capacità e miglioramenti API. Questa pagina riassume tutte le nuove funzionalità disponibili al lancio.
| Modello | ID modello API | Descrizione |
|---|---|---|
| Claude Opus 4.6 | claude-opus-4-6 | Il nostro modello più intelligente per costruire agenti e codifica |
Claude Opus 4.6 supporta una finestra di contesto di 200K (con finestra di contesto di 1M token disponibile in beta), 128K token di output massimo, extended thinking, e tutte le funzionalità API Claude esistenti.
Per i prezzi completi e le specifiche, vedi la panoramica dei modelli.
Adaptive thinking (thinking: {type: "adaptive"}) è la modalità di thinking consigliata per Opus 4.6. Claude decide dinamicamente quando e quanto pensare. Al livello di sforzo predefinito (high), Claude penserà quasi sempre. A livelli di sforzo inferiori, potrebbe saltare il thinking per problemi più semplici.
thinking: {type: "enabled"} e budget_tokens sono deprecati su Opus 4.6. Rimangono funzionali ma verranno rimossi in una futura versione del modello. Usa adaptive thinking e il parametro effort per controllare la profondità del thinking. Adaptive thinking abilita anche automaticamente il thinking interleaved.
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "Solve this complex problem..."}]
)Il parametro effort è ora generalmente disponibile (nessun header beta richiesto). Un nuovo livello di sforzo max fornisce la capacità assoluta più alta su Opus 4.6. Combina effort con adaptive thinking per i migliori compromessi costo-qualità.
Compaction fornisce riassunto automatico del contesto lato server, abilitando conversazioni effettivamente infinite. Quando il contesto si avvicina al limite della finestra, l'API riassume automaticamente le parti precedenti della conversazione.
Fine-grained tool streaming è ora generalmente disponibile su tutti i modelli e piattaforme. Nessun header beta è richiesto.
Opus 4.6 supporta fino a 128K token di output, raddoppiando il limite precedente di 64K. Questo abilita budget di thinking più lunghi e risposte più complete. Gli SDK richiedono streaming per richieste con valori max_tokens grandi per evitare timeout HTTP. Se non hai bisogno di elaborare gli eventi in modo incrementale, usa .stream() con .get_final_message() per ottenere la risposta completa — vedi Streaming Messages per i dettagli.
Controlli di residenza dei dati ti permettono di specificare dove viene eseguita l'inferenza del modello usando il parametro inference_geo. Puoi scegliere il routing "global" (predefinito) o "us" per richiesta. L'inferenza solo US è prezzata a 1.1x su Claude Opus 4.6 e modelli più recenti.
type: "enabled" e budget_tokensthinking: {type: "enabled", budget_tokens: N} è deprecato su Opus 4.6. Rimane funzionale ma verrà rimosso in una futura versione del modello. Migra a thinking: {type: "adaptive"} con il parametro effort.
interleaved-thinking-2025-05-14L'header beta interleaved-thinking-2025-05-14 è deprecato su Opus 4.6. Viene ignorato in sicurezza se incluso, ma non è più richiesto. Adaptive thinking abilita automaticamente interleaved thinking. Rimuovi betas=["interleaved-thinking-2025-05-14"] dalle tue richieste quando usi Opus 4.6.
output_formatIl parametro output_format per structured outputs è stato spostato a output_config.format. Il vecchio parametro rimane funzionale ma è deprecato e verrà rimosso in una futura versione del modello.
# Before
response = client.messages.create(
output_format={"type": "json_schema", "schema": {...}},
...
)
# After
response = client.messages.create(
output_config={"format": {"type": "json_schema", "schema": {...}}},
...
)Il prefilling dei messaggi dell'assistente (prefill dell'ultimo turno dell'assistente) non è supportato su Opus 4.6. Le richieste con messaggi dell'assistente prefilled restituiscono un errore 400.
Alternative:
output_config.format per output JSONOpus 4.6 potrebbe produrre un escaping di stringhe JSON leggermente diverso negli argomenti delle chiamate tool (ad es., diverso handling degli escape Unicode o dell'escaping della barra). I parser JSON standard gestiscono automaticamente queste differenze. Se analizzi l'input della chiamata tool come una stringa grezza piuttosto che usare json.loads() o JSON.parse(), verifica che la tua logica di parsing funzioni ancora.
Per istruzioni di migrazione passo dopo passo, vedi Migrazione a Claude 4.6.
Scopri come usare la modalità adaptive thinking.
Confronta tutti i modelli Claude.
Esplora la compattazione del contesto lato server.
Istruzioni di migrazione passo dopo passo.
Was this page helpful?