Modelos e preços

O que há de novo no Claude 4.6

Visão geral dos novos recursos e capacidades no Claude Opus 4.6.

Claude 4.6 representa a próxima geração de modelos Claude, trazendo novas capacidades significativas e melhorias na API. Esta página resume todos os novos recursos disponíveis no lançamento.

Novos modelos

Modelo	ID do modelo da API	Descrição
Claude Opus 4.6	`claude-opus-4-6`	Nosso modelo mais inteligente para construir agentes e codificação

Claude Opus 4.6 suporta uma janela de contexto de 200K (com janela de contexto de 1M tokens disponível em beta), 128K de tokens de saída máxima, pensamento estendido e todos os recursos existentes da API Claude.

Para preços e especificações completos, consulte a visão geral dos modelos.

Novos recursos

Modo de pensamento adaptativo

Pensamento adaptativo (thinking: {type: "adaptive"}) é o modo de pensamento recomendado para Opus 4.6. Claude decide dinamicamente quando e quanto pensar. No nível de esforço padrão (high), Claude quase sempre pensará. Em níveis de esforço mais baixos, pode pular o pensamento para problemas mais simples.

thinking: {type: "enabled"} e budget_tokens estão descontinuados no Opus 4.6. Eles permanecem funcionais, mas serão removidos em um lançamento de modelo futuro. Use pensamento adaptativo e o parâmetro de esforço para controlar a profundidade do pensamento. O pensamento adaptativo também ativa automaticamente o pensamento intercalado.

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "Solve this complex problem..."}]
)

Parâmetro de esforço GA

O parâmetro de esforço agora está geralmente disponível (nenhum cabeçalho beta necessário). Um novo nível de esforço max fornece a capacidade absoluta mais alta no Opus 4.6. Combine esforço com pensamento adaptativo para compensações ideais de custo-qualidade.

API de compactação (beta)

Compactação fornece resumo de contexto automático do lado do servidor, permitindo conversas efetivamente infinitas. Quando o contexto se aproxima do limite da janela, a API resume automaticamente as partes anteriores da conversa.

Streaming de ferramentas de granulação fina (GA)

Streaming de ferramentas de granulação fina agora está geralmente disponível em todos os modelos e plataformas. Nenhum cabeçalho beta é necessário.

128K tokens de saída

Opus 4.6 suporta até 128K tokens de saída, dobrando o limite anterior de 64K. Isso permite orçamentos de pensamento mais longos e respostas mais abrangentes. Os SDKs exigem streaming para solicitações com valores grandes de max_tokens para evitar timeouts HTTP. Se você não precisar processar eventos incrementalmente, use .stream() com .get_final_message() para obter a resposta completa — consulte Streaming de Mensagens para detalhes.

Controles de residência de dados

Controles de residência de dados permitem especificar onde a inferência do modelo é executada usando o parâmetro inference_geo. Você pode escolher roteamento "global" (padrão) ou "us" por solicitação. A inferência apenas nos EUA é precificada em 1.1x no Claude Opus 4.6 e modelos mais novos.

Descontinuações

`type: "enabled"` e `budget_tokens`

thinking: {type: "enabled", budget_tokens: N} está descontinuado no Opus 4.6. Permanece funcional, mas será removido em um lançamento de modelo futuro. Migre para thinking: {type: "adaptive"} com o parâmetro de esforço.

Cabeçalho beta `interleaved-thinking-2025-05-14`

O cabeçalho beta interleaved-thinking-2025-05-14 está descontinuado no Opus 4.6. É ignorado com segurança se incluído, mas não é mais necessário. Pensamento adaptativo ativa automaticamente pensamento intercalado. Remova betas=["interleaved-thinking-2025-05-14"] de suas solicitações ao usar Opus 4.6.

`output_format`

O parâmetro output_format para saídas estruturadas foi movido para output_config.format. O parâmetro antigo permanece funcional, mas está descontinuado e será removido em um lançamento de modelo futuro.

# Antes
response = client.messages.create(
    output_format={"type": "json_schema", "schema": {...}},
    ...
)

# Depois
response = client.messages.create(
    output_config={"format": {"type": "json_schema", "schema": {...}}},
    ...
)

Mudanças significativas

Remoção de preenchimento

Preencher mensagens do assistente (preenchimentos de última volta do assistente) não é suportado no Opus 4.6. Solicitações com mensagens do assistente preenchidas retornam um erro 400.

Alternativas:

Saídas estruturadas para controlar o formato de resposta
Instruções de prompt do sistema para guiar o estilo de resposta
output_config.format para saída JSON

Citação de parâmetro de ferramenta

Opus 4.6 pode produzir escape de string JSON ligeiramente diferente em argumentos de chamada de ferramenta (por exemplo, tratamento diferente de escapes Unicode ou escape de barra invertida). Os analisadores JSON padrão lidam com essas diferenças automaticamente. Se você analisar a input de chamada de ferramenta como uma string bruta em vez de usar json.loads() ou JSON.parse(), verifique se sua lógica de análise ainda funciona.

Guia de migração

Para instruções de migração passo a passo, consulte Migrando para Claude 4.6.

Próximas etapas

Pensamento adaptativo

Aprenda como usar o modo de pensamento adaptativo.

Visão geral dos modelos

Compare todos os modelos Claude.

Compactação

Explore a compactação de contexto do lado do servidor.

Guia de migração

Instruções de migração passo a passo.

Was this page helpful?

Modelos e preços

O que há de novo no Claude 4.6

Visão geral dos novos recursos e capacidades no Claude Opus 4.6.

Claude 4.6 representa a próxima geração de modelos Claude, trazendo novas capacidades significativas e melhorias na API. Esta página resume todos os novos recursos disponíveis no lançamento.

Novos modelos

Modelo	ID do modelo da API	Descrição
Claude Opus 4.6	`claude-opus-4-6`	Nosso modelo mais inteligente para construir agentes e codificação

Para preços e especificações completos, consulte a visão geral dos modelos.

Novos recursos

Modo de pensamento adaptativo

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "Solve this complex problem..."}]
)

Parâmetro de esforço GA

API de compactação (beta)

Streaming de ferramentas de granulação fina (GA)

Streaming de ferramentas de granulação fina agora está geralmente disponível em todos os modelos e plataformas. Nenhum cabeçalho beta é necessário.

128K tokens de saída

Controles de residência de dados

Descontinuações

`type: "enabled"` e `budget_tokens`

Cabeçalho beta `interleaved-thinking-2025-05-14`

`output_format`

# Antes
response = client.messages.create(
    output_format={"type": "json_schema", "schema": {...}},
    ...
)

# Depois
response = client.messages.create(
    output_config={"format": {"type": "json_schema", "schema": {...}}},
    ...
)

Mudanças significativas

Remoção de preenchimento

Preencher mensagens do assistente (preenchimentos de última volta do assistente) não é suportado no Opus 4.6. Solicitações com mensagens do assistente preenchidas retornam um erro 400.

Alternativas:

Saídas estruturadas para controlar o formato de resposta
Instruções de prompt do sistema para guiar o estilo de resposta
output_config.format para saída JSON

Citação de parâmetro de ferramenta

Guia de migração

Para instruções de migração passo a passo, consulte Migrando para Claude 4.6.

Próximas etapas

Pensamento adaptativo

Aprenda como usar o modo de pensamento adaptativo.

Visão geral dos modelos

Compare todos os modelos Claude.

Compactação

Explore a compactação de contexto do lado do servidor.

Guia de migração

Instruções de migração passo a passo.

Was this page helpful?

Novos modelos

Novos recursos

Modo de pensamento adaptativo

Parâmetro de esforço GA

API de compactação (beta)

Streaming de ferramentas de granulação fina (GA)

128K tokens de saída

Controles de residência de dados

Descontinuações

type: "enabled" e budget_tokens

Cabeçalho beta interleaved-thinking-2025-05-14

output_format

Mudanças significativas

Remoção de preenchimento

Citação de parâmetro de ferramenta

Guia de migração

Próximas etapas

Novos modelos

Novos recursos

Modo de pensamento adaptativo

Parâmetro de esforço GA

API de compactação (beta)

Streaming de ferramentas de granulação fina (GA)

128K tokens de saída

Controles de residência de dados

Descontinuações

type: "enabled" e budget_tokens

Cabeçalho beta interleaved-thinking-2025-05-14

output_format

Mudanças significativas

Remoção de preenchimento

Citação de parâmetro de ferramenta

Guia de migração

Próximas etapas

`type: "enabled"` e `budget_tokens`

Cabeçalho beta `interleaved-thinking-2025-05-14`

`output_format`

`type: "enabled"` e `budget_tokens`

Cabeçalho beta `interleaved-thinking-2025-05-14`

`output_format`