Claude 4.6 representa a próxima geração de modelos Claude, trazendo novas capacidades significativas e melhorias na API. Esta página resume todos os novos recursos disponíveis no lançamento.
| Modelo | ID do modelo da API | Descrição |
|---|---|---|
| Claude Opus 4.6 | claude-opus-4-6 | Nosso modelo mais inteligente para construir agentes e codificação |
Claude Opus 4.6 suporta uma janela de contexto de 200K (com janela de contexto de 1M tokens disponível em beta), 128K de tokens de saída máxima, pensamento estendido e todos os recursos existentes da API Claude.
Para preços e especificações completos, consulte a visão geral dos modelos.
Pensamento adaptativo (thinking: {type: "adaptive"}) é o modo de pensamento recomendado para Opus 4.6. Claude decide dinamicamente quando e quanto pensar. No nível de esforço padrão (high), Claude quase sempre pensará. Em níveis de esforço mais baixos, pode pular o pensamento para problemas mais simples.
thinking: {type: "enabled"} e budget_tokens estão descontinuados no Opus 4.6. Eles permanecem funcionais, mas serão removidos em um lançamento de modelo futuro. Use pensamento adaptativo e o parâmetro de esforço para controlar a profundidade do pensamento. O pensamento adaptativo também ativa automaticamente o pensamento intercalado.
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "Solve this complex problem..."}]
)O parâmetro de esforço agora está geralmente disponível (nenhum cabeçalho beta necessário). Um novo nível de esforço max fornece a capacidade absoluta mais alta no Opus 4.6. Combine esforço com pensamento adaptativo para compensações ideais de custo-qualidade.
Compactação fornece resumo de contexto automático do lado do servidor, permitindo conversas efetivamente infinitas. Quando o contexto se aproxima do limite da janela, a API resume automaticamente as partes anteriores da conversa.
Streaming de ferramentas de granulação fina agora está geralmente disponível em todos os modelos e plataformas. Nenhum cabeçalho beta é necessário.
Opus 4.6 suporta até 128K tokens de saída, dobrando o limite anterior de 64K. Isso permite orçamentos de pensamento mais longos e respostas mais abrangentes. Os SDKs exigem streaming para solicitações com valores grandes de max_tokens para evitar timeouts HTTP. Se você não precisar processar eventos incrementalmente, use .stream() com .get_final_message() para obter a resposta completa — consulte Streaming de Mensagens para detalhes.
Controles de residência de dados permitem especificar onde a inferência do modelo é executada usando o parâmetro inference_geo. Você pode escolher roteamento "global" (padrão) ou "us" por solicitação. A inferência apenas nos EUA é precificada em 1.1x no Claude Opus 4.6 e modelos mais novos.
type: "enabled" e budget_tokensthinking: {type: "enabled", budget_tokens: N} está descontinuado no Opus 4.6. Permanece funcional, mas será removido em um lançamento de modelo futuro. Migre para thinking: {type: "adaptive"} com o parâmetro de esforço.
interleaved-thinking-2025-05-14O cabeçalho beta interleaved-thinking-2025-05-14 está descontinuado no Opus 4.6. É ignorado com segurança se incluído, mas não é mais necessário. Pensamento adaptativo ativa automaticamente pensamento intercalado. Remova betas=["interleaved-thinking-2025-05-14"] de suas solicitações ao usar Opus 4.6.
output_formatO parâmetro output_format para saídas estruturadas foi movido para output_config.format. O parâmetro antigo permanece funcional, mas está descontinuado e será removido em um lançamento de modelo futuro.
# Antes
response = client.messages.create(
output_format={"type": "json_schema", "schema": {...}},
...
)
# Depois
response = client.messages.create(
output_config={"format": {"type": "json_schema", "schema": {...}}},
...
)Preencher mensagens do assistente (preenchimentos de última volta do assistente) não é suportado no Opus 4.6. Solicitações com mensagens do assistente preenchidas retornam um erro 400.
Alternativas:
output_config.format para saída JSONOpus 4.6 pode produzir escape de string JSON ligeiramente diferente em argumentos de chamada de ferramenta (por exemplo, tratamento diferente de escapes Unicode ou escape de barra invertida). Os analisadores JSON padrão lidam com essas diferenças automaticamente. Se você analisar a input de chamada de ferramenta como uma string bruta em vez de usar json.loads() ou JSON.parse(), verifique se sua lógica de análise ainda funciona.
Para instruções de migração passo a passo, consulte Migrando para Claude 4.6.
Aprenda como usar o modo de pensamento adaptativo.
Compare todos os modelos Claude.
Explore a compactação de contexto do lado do servidor.
Instruções de migração passo a passo.
Was this page helpful?