Este guia aborda a migração de código da Messages API. Se você usa Claude Managed Agents, nenhuma alteração além de atualizar o nome do modelo é necessária.
Automatize sua migração com a skill da Claude API. No Claude Code, execute /claude-api migrate para invocar a skill da Claude API incluída. Ela funciona para qualquer modelo de destino nesta página:
/claude-api migrate this project to claude-opus-4-8A skill aplica a troca do ID do modelo e, conforme necessário, alterações de parâmetros incompatíveis, substituição de prefill e calibração de effort para o seu modelo de destino em toda a sua base de código, e então produz uma lista de verificação de itens para verificar manualmente. Ela pede que você confirme o escopo da migração (diretório de trabalho inteiro, um subdiretório ou uma lista específica de arquivos) antes de editar qualquer arquivo. A skill também detecta clientes do Amazon Bedrock, Google Cloud, Claude Platform on AWS e Microsoft Foundry e ajusta os formatos de ID de modelo e alterações de recursos para cada plataforma.
O Claude Mythos 5 é o sucessor com acesso restrito do Claude Mythos Preview, a prévia de pesquisa disponível apenas por convite. Para um modelo disponível ao público geral com as mesmas capacidades, consulte Claude Fable 5.
A migração é, em grande parte, direta. O Claude Mythos 5 usa a mesma Messages API e os mesmos padrões de uso de ferramentas que o Claude Mythos Preview, e as contagens de tokens permanecem praticamente inalteradas porque ambos os modelos usam o mesmo tokenizador. As principais alterações a verificar são os recursos que não estão mais disponíveis (listados na próxima seção) e a saída de pensamento.
Para o cronograma de descontinuação do Claude Mythos Preview, consulte Descontinuações de modelos.
model = "claude-mythos-preview" # Before
model = "claude-mythos-5" # AfterPensamento estendido e orçamentos de tokens de pensamento: O pensamento estendido manual (thinking: {type: "enabled", budget_tokens: N}) não é suportado no claude-mythos-5 e retorna um erro 400. O pensamento adaptativo está sempre ativado: o modelo determina quando e quanto pensar em cada requisição, e nenhuma configuração de thinking é necessária. thinking: {type: "disabled"} retorna um erro. budget_tokens não tem substituto direto: o pensamento é adaptativo, e o parâmetro effort é um controle separado no nível de saída, não um orçamento de pensamento.
Antes (Claude Mythos Preview):
client.messages.create(
model="claude-mythos-preview",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}],
)Depois (Claude Mythos 5):
client.messages.create(
model="claude-mythos-5",
max_tokens=16000,
messages=[{"role": "user", "content": "..."}],
)Prefill do assistente: O preenchimento prévio da mensagem do assistente não é suportado no claude-mythos-5 e retorna um erro 400, assim como no Claude Mythos Preview. Use instruções no prompt do sistema em vez disso.
Saída de pensamento: No claude-mythos-5, a cadeia de raciocínio bruta nunca é retornada, mas os blocos de pensamento ainda carregam texto resumido legível quando thinking.display está definido como summarized. Passe os blocos de pensamento de volta sem alterações ao continuar uma conversa no mesmo modelo. Consulte Saída de pensamento no Claude Fable 5 e Claude Mythos 5.
O claude-mythos-5 usa o mesmo tokenizador que o claude-mythos-preview (o tokenizador introduzido com o Claude Opus 4.7). As contagens de tokens permanecem praticamente inalteradas ao migrar do claude-mythos-preview. Em comparação com modelos anteriores ao Claude Opus 4.7, o mesmo conteúdo pode ser tokenizado em aproximadamente 30% mais tokens, variando conforme o conteúdo e o formato da carga de trabalho.
/v1/messages/count_tokens retorna valores praticamente inalterados para claude-mythos-5 em comparação com claude-mythos-preview. Refaça a linha de base de custo e latência nas suas próprias cargas de trabalho.
claude-mythos-preview para claude-mythos-5.thinking: {type: "enabled", budget_tokens: N}). O pensamento adaptativo está sempre ativado, e nenhum campo thinking é necessário.thinking: {type: "disabled"}. Desativar o pensamento retorna um erro no claude-mythos-5.budget_tokens. Ele não tem substituto direto: o pensamento é adaptativo, e o parâmetro effort é um controle separado no nível de saída, não um orçamento de pensamento.thinking o trata apenas como texto de exibição e passa os blocos de pensamento de volta sem alterações ao continuar no mesmo modelo. thinking.display tem como padrão "omitted" no claude-mythos-5, assim como no Claude Mythos Preview; defina display: "summarized" para receber resumos legíveis. Consulte Saída de pensamento no Claude Fable 5 e Claude Mythos 5.thinking e redacted_thinking dos turnos anteriores do assistente. Os blocos de pensamento do claude-mythos-5 estão vinculados ao modelo que os produziu, e modelos diferentes do Claude Fable 5 e Claude Mythos 5 os ignoram silenciosamente. Removê-los mantém as requisições entre modelos mínimas e uniformes.claude-mythos-preview.O Claude Fable 5 é o modelo mais capaz da Anthropic amplamente lançado, disponível ao público geral na Claude API, Claude Platform on AWS, Amazon Bedrock, Google Cloud e Microsoft Foundry.
A migração é, em grande parte, direta. O Claude Fable 5 usa a mesma Messages API e os mesmos padrões de uso de ferramentas que o Claude Opus 4.8. Ele suporta a mesma janela de contexto de 1M de tokens por padrão e o mesmo máximo de 128k tokens de saída. As contagens de tokens permanecem praticamente inalteradas porque ambos os modelos usam o mesmo tokenizador.
As principais alterações a verificar são o pensamento adaptativo sempre ativado, a saída de pensamento, as recusas do classificador de segurança e os preços. Antes de migrar aborda preços e retenção de dados; O que mudou aborda o restante.
O Claude Fable 5 tem preço de US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, em comparação com US$ 5 e US$ 25 para o Claude Opus 4.8. Consulte Preços do Claude para detalhes.
O Claude Fable 5 requer retenção de dados de 30 dias e não está disponível sob acordos de "zero data retention" (retenção zero de dados), ou ZDR; ele é designado como um Modelo Coberto. Uma requisição de uma organização cuja configuração de retenção de dados não atende a esse requisito retorna um erro 400 invalid_request_error. Organizações com um acordo ZDR devem entrar em contato com sua equipe de conta da Anthropic para discutir a configuração de retenção de dados; o Claude Opus 4.8 permanece disponível sob ZDR. Alternativamente, você pode configurar a retenção de dados por workspace; consulte Requisitos de retenção de dados específicos por modelo. No Amazon Bedrock, Google Cloud e Microsoft Foundry, a retenção de dados é governada por cada plataforma.
Se o seu código está no Claude Opus 4.7 ou anterior, primeiro aplique Migrando do Claude Opus 4.7 para o Claude Opus 4.8 e, para modelos anteriores ao Claude Opus 4.7, as etapas de migração do Claude Opus 4.7. Essas seções abordam alterações incompatíveis (parâmetros de amostragem rejeitados, pensamento estendido manual rejeitado, prefill removido, novo tokenizador) que esta seção não repete.
model = "claude-opus-4-8" # Before
model = "claude-fable-5" # AfterOs itens nesta seção descrevem as diferenças de API e comportamento que vale a pena verificar depois de trocar o ID do modelo.
O pensamento adaptativo está sempre ativado: O pensamento adaptativo é o único modo de pensamento no claude-fable-5. O modelo determina quando e quanto pensar em cada requisição, e nenhuma configuração de thinking é necessária. thinking: {type: "disabled"} retorna um erro. Use o parâmetro effort para controlar a profundidade do pensamento.
A mudança de comportamento a verificar: no Claude Opus 4.8, requisições sem um campo thinking são executadas sem pensamento; no claude-fable-5, essas mesmas requisições são executadas com pensamento adaptativo. max_tokens continua sendo um limite rígido na saída total, pensamento mais texto de resposta, então revise-o para cargas de trabalho que eram executadas sem pensamento no Claude Opus 4.8. Consulte Controle de custos.
Antes (Claude Opus 4.8):
client.messages.create(
model="claude-opus-4-8",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"},
messages=[{"role": "user", "content": "..."}],
)Depois (Claude Fable 5):
client.messages.create(
model="claude-fable-5",
max_tokens=16000,
output_config={"effort": "high"},
messages=[{"role": "user", "content": "..."}],
)Pensamento estendido e orçamentos de pensamento (inalterado): O pensamento estendido manual (thinking: {type: "enabled", budget_tokens: N}) não é suportado no claude-fable-5 e retorna um erro 400, assim como no Claude Opus 4.8. budget_tokens não tem substituto direto: o pensamento é adaptativo, e o parâmetro effort é um controle separado no nível de saída, não um orçamento de pensamento.
Prefill do assistente (inalterado): O preenchimento prévio da mensagem do assistente não é suportado no claude-fable-5 e retorna um erro 400, assim como no Claude Opus 4.8. Use instruções no prompt do sistema em vez disso.
Saída de pensamento: No claude-fable-5, a cadeia de raciocínio bruta nunca é retornada, mas os blocos de pensamento ainda carregam texto resumido legível quando thinking.display está definido como summarized. Passe os blocos de pensamento de volta sem alterações ao continuar uma conversa no mesmo modelo. Consulte Saída de pensamento no Claude Fable 5 e Claude Mythos 5.
Classificadores de segurança e o stop reason refusal: O claude-fable-5 executa classificadores de segurança nas requisições e durante a geração de respostas. Quando um classificador recusa uma requisição, a Messages API retorna stop_reason: "refusal" como uma resposta HTTP 200 bem-sucedida, não um erro. O campo stop_details.category informa qual classificador foi acionado, com categorias como "cyber", "bio" e "reasoning_extraction", ou null quando a recusa não corresponde a nenhuma categoria nomeada. Consulte a tabela de categorias de recusa para o conjunto completo.
Você não é cobrado pelos tokens de entrada de uma requisição recusada antes de qualquer saída ser gerada. Quando um classificador é acionado no meio do stream, a entrada e a saída já transmitida são cobradas; descarte a saída parcial.
Para reexecutar requisições recusadas em outro modelo automaticamente, passe o parâmetro opcional fallbacks, que está em beta na Claude API e no Claude Platform on AWS. O parâmetro não está disponível na Message Batches API nem no Amazon Bedrock, Google Cloud e Microsoft Foundry; nessas três plataformas, execute a nova tentativa no lado do cliente ou use o middleware de fallback de recusa do SDK. Consulte Tratamento de stop reasons.
Comece com effort high: O padrão do parâmetro effort continua sendo high. No Claude Opus 4.8, a recomendação para programação e trabalho de alta autonomia é definir xhigh explicitamente. No claude-fable-5, use high como padrão para a maioria das tarefas e reserve xhigh para as cargas de trabalho mais sensíveis à capacidade. Configurações de effort mais baixas no claude-fable-5 ainda têm bom desempenho e frequentemente superam o desempenho de xhigh em modelos anteriores. Reduza o effort se uma tarefa for concluída, mas demorar mais do que o necessário. Consulte Criando prompts para o Claude Fable 5.
Mínimo de cache de prompt mais baixo: O comprimento mínimo de prompt armazenável em cache no claude-fable-5 é de 512 tokens, menor que os 1.024 tokens no Claude Opus 4.8. Prompts que eram curtos demais para armazenar em cache no Claude Opus 4.8 agora podem criar entradas de cache, sem necessidade de alterações no código. No Amazon Bedrock, o mínimo para claude-fable-5 é de 1.024 tokens. Consulte Cache de prompt para os mínimos por modelo.
claude-fable-5 requer retenção de dados de 30 dias e retorna um erro 400 invalid_request_error caso contrário. Consulte Requisitos de retenção de dados específicos por modelo.claude-opus-4-8 para claude-fable-5.thinking: {type: "disabled"}. Desativar o pensamento retorna um erro no claude-fable-5, e requisições sem um campo thinking são executadas com pensamento adaptativo.claude-fable-5.thinking o trata apenas como texto de exibição e passa os blocos de pensamento de volta sem alterações ao continuar no mesmo modelo. thinking.display tem como padrão "omitted" no claude-fable-5, assim como no Claude Opus 4.8; defina display: "summarized" para receber resumos legíveis. Consulte Saída de pensamento no Claude Fable 5 e Claude Mythos 5.thinking e redacted_thinking dos turnos anteriores do assistente. Os blocos de pensamento do claude-fable-5 estão vinculados ao modelo que os produziu, e modelos diferentes do Claude Fable 5 e Claude Mythos 5 os ignoram silenciosamente. Removê-los mantém as requisições entre modelos mínimas e uniformes. A exceção é o resgate de um crédito de fallback, que requer o corpo da requisição ecoado sob as regras exatas desse recurso.stop_reason: "refusal" e leia o campo stop_details.category. Para reexecutar requisições recusadas em outro modelo automaticamente, considere o parâmetro opcional fallbacks (beta). Consulte Tratamento de stop reasons.effort. Comece com high para a maioria das tarefas, incluindo cargas de trabalho que eram executadas com xhigh no Claude Opus 4.8.claude-opus-4-8; o preço por token difere.O Claude Opus 4.8 é o modelo mais capaz da Anthropic na camada Opus. Ele é construído sobre o Claude Opus 4.7.
O Claude Opus 4.8 deve ter um forte desempenho imediato em prompts e avaliações existentes do Claude Opus 4.7. Não há alterações incompatíveis na API para código que já está em execução no Claude Opus 4.7. Ele suporta o mesmo conjunto de recursos que o Claude Opus 4.7, incluindo a janela de contexto de 1M de tokens, máximo de 128k tokens de saída, pensamento adaptativo, cache de prompt, processamento em lote, a Files API, suporte a PDF, visão e o conjunto completo de ferramentas do lado do servidor e do lado do cliente. Ele também adiciona mensagens de sistema no meio da conversa e documenta publicamente os detalhes de parada de recusa.
Se o seu código está no Claude Opus 4.6 ou anterior, aplique também as etapas de migração do Claude Opus 4.7 abaixo antes de atualizar para o Claude Opus 4.8. Essas etapas incluem alterações incompatíveis (parâmetros de amostragem rejeitados, pensamento estendido manual rejeitado, novo tokenizador) que a atualização para 4.8 sozinha não cobre.
# Migração do Opus
model = "claude-opus-4-7" # Before
model = "claude-opus-4-8" # AfterEstas não são alterações incompatíveis. Código que é executado no Claude Opus 4.7 continua funcionando sem alterações no Claude Opus 4.8. Os itens abaixo descrevem diferenças de comportamento que vale a pena verificar depois de trocar o ID do modelo.
Parâmetros de amostragem (inalterado): Definir temperature, top_p ou top_k para um valor não padrão retorna um erro 400 no Claude Opus 4.8, assim como no Claude Opus 4.7. Os tipos de requisição do SDK ainda definem esses campos para compatibilidade com modelos anteriores, então código que os define passa na verificação de tipos, mas a API rejeita a requisição no lado do servidor. Se você removeu esses parâmetros ao migrar para o Opus 4.7, nenhuma alteração adicional é necessária.
O padrão de effort é high: O padrão do parâmetro effort no Claude Opus 4.8 é high em todas as superfícies, incluindo Claude Code e a Messages API. Se você já define effort explicitamente, sua configuração permanece inalterada. Para programação e trabalho de alta autonomia, defina xhigh explicitamente. Reavalie sua configuração de effort em relação ao seu orçamento de latência e custo.
A janela de contexto de 1M é o padrão: O Claude Opus 4.8 serve a janela de contexto completa de 1M de tokens por padrão, sem cabeçalho beta e sem custo adicional de contexto longo. Se o seu cliente passa um cabeçalho beta de janela de contexto para compatibilidade com modelos mais antigos, você pode removê-lo no Claude Opus 4.8.
Mensagens de sistema no meio da conversa: O Claude Opus 4.8 aceita mensagens role: "system" imediatamente após um turno do usuário no array messages (sujeito a regras de posicionamento). Use o campo system de nível superior para instruções que se aplicam desde o início. Modelos anteriores, incluindo o Claude Opus 4.7, rejeitam role: "system" em messages com um erro 400. Se você mantém caminhos de código que reconstroem o histórico completo de mensagens para atualizar instruções, você pode simplificá-los e preservar acertos de cache de prompt em turnos anteriores.
Detalhes de parada de recusa: O objeto stop_details em respostas de recusa (disponível desde o Claude Opus 4.7) agora está documentado publicamente. Quando o modelo recusa uma requisição, ele identifica a categoria da recusa, além do stop reason refusal existente. Nenhum cabeçalho beta é necessário, e não há opção de desativação. Consulte Tratamento de stop reasons.
Mínimo de cache de prompt mais baixo: O comprimento mínimo de prompt armazenável em cache no Claude Opus 4.8 é de 1.024 tokens, menor que no Claude Opus 4.7. Prompts que eram curtos demais para armazenar em cache no Claude Opus 4.7 agora podem criar entradas de cache, sem necessidade de alterações no código. Consulte Cache de prompt para os mínimos por modelo.
Níveis de effort recalibrados: A alocação de tokens por trás de cada nível de effort muda no Claude Opus 4.8 em comparação com o Claude Opus 4.7: medium permite um pouco mais de pensamento, high um pouco menos, e xhigh substancialmente mais. Se você ajustou um nível de effort em relação ao custo ou latência do Claude Opus 4.7, refaça a linha de base no mesmo nível antes de ajustá-lo. Consulte Effort.
claude-opus-4-7 para claude-opus-4-8 (ou atualize os aliases).effort. O padrão é high em todas as superfícies; para programação e trabalho de alta autonomia, defina xhigh explicitamente.stop_details em recusas (disponível desde o Claude Opus 4.7; agora documentado publicamente).O Claude Opus 4.7 é altamente autônomo e tem desempenho excepcional em trabalho agêntico de longo horizonte, trabalho de conhecimento, tarefas de visão e tarefas de memória.
O Claude Opus 4.7 deve ter um forte desempenho imediato em prompts e avaliações existentes do Claude Opus 4.6 com o mesmo preço de $5 / $25 por MTok, mas há algumas alterações comportamentais e de API que vale a pena conhecer ao migrar. Ele suporta o mesmo conjunto de recursos que o Claude Opus 4.6, incluindo:
# Migração do Opus
model = "claude-opus-4-6" # Before
model = "claude-opus-4-7" # AfterPensamento estendido removido: thinking: {type: "enabled", budget_tokens: N} não é mais suportado no Claude Opus 4.7 ou modelos posteriores e retorna um erro 400. Mude para pensamento adaptativo (thinking: {type: "adaptive"}) e use o parâmetro effort para controlar a profundidade do pensamento. O pensamento adaptativo está desativado por padrão no Claude Opus 4.7: requisições sem um campo thinking são executadas sem pensamento, correspondendo ao comportamento do Opus 4.6. Defina thinking: {type: "adaptive"} explicitamente para ativá-lo.
Antes (Claude Opus 4.6):
client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "..."}],
)Depois (Claude Opus 4.7):
client.messages.create(
model="claude-opus-4-7",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "high"}, # or "max", "xhigh", "medium", "low"
messages=[{"role": "user", "content": "..."}],
)O pensamento adaptativo é direcionável através de prompts. Para orientação sobre como ajustar quando o modelo pensa demais ou de menos, consulte Calibrando effort e profundidade de pensamento.
Parâmetros de amostragem removidos: Definir temperature, top_p ou top_k para qualquer valor não padrão no Claude Opus 4.7 retorna um erro 400. O caminho de migração mais seguro é omitir esses parâmetros inteiramente dos payloads de requisição. Prompts são a forma recomendada de guiar o comportamento do modelo no Claude Opus 4.7. Se você estava usando temperature = 0 para determinismo, observe que isso nunca garantiu saídas idênticas em modelos anteriores.
Conteúdo de pensamento omitido por padrão: Os blocos de pensamento ainda aparecem no stream de resposta no Claude Opus 4.7, mas seu campo thinking está vazio, a menos que você opte explicitamente por recebê-lo. Esta é uma mudança silenciosa em relação ao Claude Opus 4.6, onde o padrão era retornar texto de pensamento resumido. Para restaurar o conteúdo de pensamento resumido no Claude Opus 4.7, defina thinking.display como "summarized":
thinking = {
"type": "adaptive",
"display": "summarized",
}O padrão é "omitted" no Claude Opus 4.7. Se o seu produto transmite o raciocínio para os usuários, o novo padrão aparece como uma longa pausa antes do início da saída; defina display: "summarized" para restaurar o progresso visível durante o pensamento. Consulte Pensamento estendido para detalhes.
Contagem de tokens atualizada: O Claude Opus 4.7 usa um novo tokenizador, contribuindo para seu desempenho aprimorado em uma ampla gama de tarefas. O novo tokenizador pode usar aproximadamente de 1x a 1,35x mais tokens ao processar texto em comparação com modelos anteriores (até ~35% a mais, variando conforme o conteúdo).
/v1/messages/count_tokens retornará um número diferente de tokens para o Claude Opus 4.7 do que retornava para o Claude Opus 4.6. A eficiência de tokens pode variar conforme o formato da carga de trabalho.
Intervenções de prompt, task_budget e effort podem ajudar a controlar custos e garantir o uso apropriado de tokens. Esses controles podem implicar em trocas com a inteligência do modelo. Atualize seus parâmetros max_tokens para dar margem adicional, incluindo gatilhos de compactação. O Claude Opus 4.7 fornece uma janela de contexto de 1M com preço padrão da API, sem custo adicional de contexto longo.
Remoção de prefill (herdado do Opus 4.6): O preenchimento prévio de mensagens do assistente retorna um erro 400 no Claude Opus 4.7. Use saídas estruturadas, instruções no prompt do sistema ou output_config.format em vez disso.
O parâmetro effort permite que você ajuste a inteligência do Claude versus o gasto de tokens, trocando capacidade por velocidade mais rápida e custos mais baixos. Comece com o novo nível de effort xhigh para casos de uso de programação e agênticos, e use no mínimo effort high para a maioria dos casos de uso sensíveis à inteligência. Experimente outros níveis de effort para ajustar ainda mais o uso de tokens e a inteligência:
max: O effort máximo pode proporcionar ganhos de desempenho em alguns casos de uso, mas pode apresentar retornos decrescentes com o aumento do uso de tokens. Essa configuração também pode, às vezes, ser propensa a pensar demais. Teste o effort máximo para tarefas que exigem muita inteligência.xhigh (novo): O effort extra alto é a melhor configuração para a maioria dos casos de uso de programação e agênticos.high: Essa configuração equilibra o uso de tokens e a inteligência. Para a maioria dos casos de uso sensíveis à inteligência, use no mínimo effort high.medium: Bom para casos de uso sensíveis a custo que precisam reduzir o uso de tokens enquanto abrem mão de inteligência.low: Reserve para tarefas curtas e delimitadas e cargas de trabalho sensíveis à latência que não são sensíveis à inteligência.O effort é mais importante para este modelo do que para qualquer Opus anterior. Experimente-o ativamente ao fazer a atualização.
O Claude Opus 4.7 tem várias diferenças comportamentais em relação ao Claude Opus 4.6 que não são mudanças que quebram a API, mas podem exigir atualizações de prompt ou remoção de scaffolding.
O comprimento da resposta varia conforme o caso de uso: O Claude Opus 4.7 calibra o comprimento da resposta de acordo com a complexidade que julga que a tarefa tem, em vez de usar uma verbosidade fixa por padrão. Isso geralmente significa respostas mais curtas em consultas simples e muito mais longas em análises abertas.
Se seu produto depende de um determinado estilo ou verbosidade de saída, pode ser necessário ajustar seus prompts. Por exemplo, para diminuir a verbosidade, adicione: "Forneça respostas concisas e focadas. Pule contexto não essencial e mantenha os exemplos mínimos." Se você observar tipos específicos de explicação excessiva, adicione instruções direcionadas em seu prompt para evitá-los.
Exemplos positivos mostrando como o Claude pode se comunicar com o nível apropriado de concisão tendem a ser mais eficazes do que exemplos negativos ou instruções que dizem ao modelo o que não fazer.
Seguimento de instruções mais literal: O Claude Opus 4.7 interpreta prompts de forma mais literal e explícita do que o Claude Opus 4.6, particularmente em níveis de esforço mais baixos. Ele não generalizará silenciosamente uma instrução de um item para outro e não inferirá solicitações que você não fez. A vantagem desse literalismo é precisão e menos retrabalho. Ele geralmente tem melhor desempenho para casos de uso de API com prompts cuidadosamente ajustados, extração estruturada e pipelines onde você deseja comportamento previsível. Uma revisão de prompt e harness pode ser especialmente útil para a migração para o Claude Opus 4.7.
Tom mais direto: Como acontece com qualquer novo modelo, o estilo de prosa em escrita de formato longo pode mudar. O Claude Opus 4.7 é mais direto e opinativo, com menos fraseado voltado à validação e menos emojis do que o estilo mais caloroso do Claude Opus 4.6. Se seu produto depende de uma voz específica, reavalie os prompts de estilo em relação à nova linha de base.
Atualizações de progresso integradas em traces agênticos: O Claude Opus 4.7 fornece atualizações mais regulares e de maior qualidade ao usuário ao longo de traces agênticos longos. Se você adicionou scaffolding para forçar mensagens de status intermediárias ("Após cada 3 chamadas de ferramenta, resuma o progresso"), tente removê-lo. Se você achar que o comprimento ou o conteúdo das atualizações voltadas ao usuário do Claude Opus 4.7 não estão bem calibrados para seu caso de uso, descreva explicitamente como essas atualizações devem ser no prompt e forneça exemplos.
Menos subagentes gerados por padrão: O Claude Opus 4.7 tende a gerar menos subagentes por padrão. No entanto, esse comportamento é direcionável por meio de prompting; dê ao Claude Opus 4.7 orientação explícita sobre quando subagentes são desejáveis.
Calibração de esforço mais rigorosa: Mudando significativamente em relação ao Claude Opus 4.6, o Claude Opus 4.7 respeita os níveis de esforço rigorosamente, especialmente na extremidade inferior. Em low e medium, o modelo limita seu trabalho ao que foi solicitado, em vez de ir além.
Isso é bom para latência e custo, mas em tarefas moderadamente complexas executadas com esforço low há algum risco de raciocínio insuficiente. Se você observar raciocínio superficial em problemas complexos, aumente o esforço para high ou xhigh em vez de contornar isso com prompting.
Se você precisar manter o esforço em low por questões de latência, adicione orientação direcionada: "Esta tarefa envolve raciocínio de múltiplas etapas. Pense cuidadosamente sobre o problema antes de responder." Consulte Níveis de esforço recomendados para o Claude Opus 4.7.
Menos chamadas de ferramenta por padrão: O Claude Opus 4.7 tem uma tendência a usar ferramentas com menos frequência do que o Claude Opus 4.6 e a usar mais raciocínio. Isso produz melhores resultados na maioria dos casos.
Para aumentar o uso de ferramentas, aumente a configuração de esforço. As configurações de esforço high ou xhigh mostram substancialmente mais uso de ferramentas em busca agêntica e codificação. Você também pode ajustar seu prompt para instruir explicitamente o modelo sobre quando e como usar adequadamente suas ferramentas.
Salvaguardas de cibersegurança em tempo real: Recém-adicionadas no Claude Opus 4.7, solicitações que envolvem tópicos proibidos ou de alto risco podem levar a recusas. Para trabalho legítimo de segurança, como testes de penetração, pesquisa de vulnerabilidades ou red-teaming, inscreva-se no Cyber Verification Program para solicitar restrições reduzidas. Consulte Salvaguardas, avisos e recursos para contexto.
Suporte a imagens de alta resolução: O Claude Opus 4.7 é o primeiro modelo Claude com suporte a imagens de alta resolução. A resolução máxima de imagem é de 2576 pixels na borda mais longa, acima dos 1568 pixels em modelos anteriores. Isso desbloqueia ganhos em cargas de trabalho intensivas em visão e é particularmente valioso para uso de computador, compreensão de capturas de tela e análise de documentos.
O suporte a alta resolução é automático e não requer cabeçalho beta ou opt-in do lado do cliente. Duas coisas a planejar:
max_tokens e as expectativas de custo para cargas de trabalho intensivas em imagens, ou reduza a resolução antes de enviar se você não precisar da fidelidade adicional.Consulte Suporte a imagens de alta resolução no Claude Opus 4.7 para detalhes.
Estas não são obrigatórias, mas melhorarão sua experiência:
Reavalie max_tokens: Como o mesmo texto produz uma contagem de tokens maior no Claude Opus 4.7, atualize seus parâmetros max_tokens para dar margem adicional, incluindo gatilhos de compactação. Intervenções de prompting, task_budget e effort podem ajudar a controlar custos e garantir uso apropriado de tokens.
Audite expectativas de contagem de tokens: Qualquer caminho de código que estime tokens do lado do cliente ou assuma uma proporção fixa de token para caractere deve ser retestado em relação ao Claude Opus 4.7. Use o endpoint de contagem de tokens para verificar.
Adote task budgets (beta): O Claude Opus 4.7 introduz task budgets (orçamentos de tarefa). Esses orçamentos permitem que você informe ao Claude quantos tokens ele tem para um loop agêntico completo, incluindo pensamento, chamadas de ferramenta, resultados de ferramenta e saída final. O modelo vê uma contagem regressiva em execução e a usa para priorizar o trabalho e finalizar a tarefa de forma elegante à medida que o orçamento é consumido. Para usar, defina o cabeçalho beta task-budgets-2026-03-13 e adicione o seguinte à sua configuração de saída:
output_config = {
"effort": "high",
"task_budget": {"type": "tokens", "total": 128000},
}Você pode precisar experimentar diferentes task budgets para seu caso de uso. Se o modelo receber um task budget muito restritivo, ele pode concluir a tarefa de forma menos completa, referenciando seu orçamento como a restrição.
Para tarefas agênticas abertas onde a qualidade importa mais do que a velocidade, não defina um task budget. Reserve task budgets para cargas de trabalho onde você precisa que o modelo limite seu trabalho a uma cota de tokens. O valor mínimo para um task budget é 20k tokens.
Um task budget não é um limite rígido; é uma sugestão da qual o modelo está ciente. Ele difere de max_tokens:
task_budget: um limite consultivo ao longo de todo o loop agêntico. O modelo o vê e o usa para regular seu ritmo.max_tokens: um teto rígido por requisição sobre tokens gerados. Não é passado ao modelo, então o modelo não está ciente dele.Use task_budget quando quiser que o modelo se automodere, e max_tokens como um teto rígido para limitar o uso.
Defina um max_tokens grande em esforço max ou xhigh: Se você estiver executando o Claude Opus 4.7 em esforço max ou xhigh, defina um orçamento grande de tokens de saída máximos para que o modelo tenha espaço para pensar e agir em seus subagentes e chamadas de ferramenta. Comece com 64k tokens e ajuste a partir daí.
Reduza a resolução de imagens se alta resolução for desnecessária: O Claude Opus 4.7 suporta imagens de até 2576px / 3,75MP. Imagens de alta resolução usam mais tokens. Se a fidelidade adicional de imagem for desnecessária, reduza a resolução das imagens antes de enviar ao Claude para evitar aumentos no uso de tokens. Consulte Imagens e visão.
claude-opus-4-6 para claude-opus-4-7 (ou atualize aliases).temperature, top_p e top_k dos payloads de requisição.thinking: {type: "enabled", budget_tokens: N} por thinking: {type: "adaptive"} mais o parâmetro effort.max_tokens para levar em conta a tokenização atualizada.xhigh ou max, aumente max_tokens para pelo menos 64k como ponto de partida.Se você está migrando do Claude Opus 4.5, Opus 4.1 (descontinuado) ou um modelo anterior diretamente para o Claude Opus 4.7, aplique todas as mudanças do Opus 4.7 acima mais as mudanças cumulativas nesta seção que entraram em vigor entre o Opus 4.5 e o Opus 4.7. Se você está migrando do Opus 4.6, você só precisa da seção do Opus 4.7 acima.
# Migração do Opus
model = "claude-opus-4-5" # Before
model = "claude-opus-4-7" # AfterRemoção de prefill é abordada nas mudanças que quebram compatibilidade do Opus 4.7 acima.
Aspas em parâmetros de ferramenta: O Claude Opus 4.6 e modelos posteriores podem produzir escape de string JSON ligeiramente diferente em argumentos de chamada de ferramenta (por exemplo, tratamento diferente de escapes Unicode ou escape de barra). Se você analisa o input de chamada de ferramenta como uma string bruta em vez de usar um parser JSON, verifique sua lógica de parsing. Parsers JSON padrão (como json.loads() ou JSON.parse()) lidam com essas diferenças automaticamente.
Essas mudanças melhoram sua experiência no Opus 4.7. Itens marcados como (obrigatório no Opus 4.7) eram recomendações opcionais quando o Opus 4.6 foi lançado, mas agora são obrigatórios; o restante permanece recomendado.
Migre para adaptive thinking (obrigatório no Opus 4.7): thinking: {type: "enabled", budget_tokens: N} retorna um erro 400 no Claude Opus 4.7. Mude para thinking: {type: "adaptive"} e use o parâmetro effort para controlar a profundidade do pensamento. Consulte Adaptive thinking.
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 32000},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Observe que a migração também muda de client.beta.messages.create para client.messages.create. Adaptive thinking e effort são recursos GA e não requerem o namespace beta do SDK ou quaisquer cabeçalhos beta.
Remova o cabeçalho beta de effort: O parâmetro effort agora é GA. Remova betas=["effort-2025-11-24"] de suas requisições.
Remova o cabeçalho beta de fine-grained tool streaming: Fine-grained tool streaming agora é GA. Remova betas=["fine-grained-tool-streaming-2025-05-14"] de suas requisições.
Remova o cabeçalho beta de interleaved thinking: Adaptive thinking habilita automaticamente interleaved thinking no Claude Opus 4.7, Opus 4.6 e Sonnet 4.6. Remova betas=["interleaved-thinking-2025-05-14"] de suas requisições. O cabeçalho ainda é funcional no Sonnet 4.6 com pensamento estendido manual, mas o modo manual está descontinuado.
Migre para output_config.format: Se estiver usando structured outputs, atualize output_format={...} para output_config={"format": {...}}. O parâmetro antigo permanece funcional, mas está descontinuado e será removido em uma versão futura do modelo.
Se você está migrando do Opus 4.1 (descontinuado) ou modelos anteriores diretamente para o Claude Opus 4.7, aplique as mudanças do Claude Opus 4.7 no topo deste guia e as mudanças cumulativas acima, mais as mudanças adicionais nesta seção.
# Do Opus 4.1
model = "claude-opus-4-1-20250805" # Before
model = "claude-opus-4-7" # After
# Do Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Before
model = "claude-opus-4-7" # AfterRemova parâmetros de amostragem
Esta é uma mudança que quebra compatibilidade ao migrar de modelos Claude 3.x.
A partir do Claude Opus 4.7, definir temperature, top_p ou top_k para qualquer valor não padrão retornará um erro 400. O caminho de migração mais seguro é omitir esses parâmetros inteiramente das requisições e usar prompting para guiar o comportamento do modelo. Se você estava usando temperature = 0 para determinismo, observe que isso nunca garantiu saídas idênticas.
# Antes - Isso causará erro nos modelos Claude 4+
response = client.messages.create(
model="claude-3-7-sonnet-20250219",
temperature=0.7,
top_p=0.9, # Non-default sampling params return 400 on Opus 4.7
# ...
)
# Depois
response = client.messages.create(
model="claude-opus-4-7",
# ...
)Atualize versões de ferramentas
Esta é uma mudança que quebra compatibilidade ao migrar de modelos Claude 3.x.
Atualize para as versões mais recentes de ferramentas. Remova qualquer código que use o comando undo_edit.
# Antes
tools = [{"type": "text_editor_20250124", "name": "str_replace_editor"}]
# Depois
tools = [{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"}]text_editor_20250728 e str_replace_based_edit_tool. Consulte a documentação da ferramenta de editor de texto para detalhes.code_execution_20250825. Consulte a documentação da ferramenta de execução de código para instruções de migração.Trate o stop reason refusal
Atualize sua aplicação para tratar stop reasons refusal:
response = client.messages.create(...)
if response.stop_reason == "refusal":
# Trate a recusa adequadamente
passTrate o stop reason model_context_window_exceeded
Modelos Claude 4.5+ retornam um stop reason model_context_window_exceeded quando a geração para devido a atingir o limite da janela de contexto, em vez do limite max_tokens solicitado. Atualize sua aplicação para tratar esse novo stop reason:
response = client.messages.create(...)
if response.stop_reason == "model_context_window_exceeded":
# Trate o limite da janela de contexto adequadamente
passVerifique o tratamento de parâmetros de ferramenta (quebras de linha finais)
Modelos Claude 4.5+ preservam quebras de linha finais em parâmetros de string de chamada de ferramenta que anteriormente eram removidas. Se suas ferramentas dependem de correspondência exata de string com parâmetros de chamada de ferramenta, verifique se sua lógica trata quebras de linha finais corretamente.
Atualize seus prompts para mudanças comportamentais
Modelos Claude 4+ têm um estilo de comunicação mais conciso e direto e requerem direção explícita. Revise as melhores práticas de prompting para orientação de otimização.
token-efficient-tools-2025-02-19 e output-128k-2025-02-19. Todos os modelos Claude 4+ têm uso de ferramentas eficiente em tokens integrado e esses cabeçalhos não têm efeito.claude-opus-4-7output_config.format em vez dissothinking: {type: "enabled", budget_tokens: N} por thinking: {type: "adaptive"} mais o parâmetro effort (retorna 400 no Opus 4.7)effort-2025-11-24 (effort agora é GA)fine-grained-tool-streaming-2025-05-14interleaved-thinking-2025-05-14 (adaptive thinking habilita interleaved thinking automaticamente)output_format para output_config.format (se aplicável)temperature, top_p e top_k (valores não padrão retornam 400 no Opus 4.7)text_editor_20250728, code_execution_20250825)refusalmodel_context_window_exceededtoken-efficient-tools-2025-02-19, output-128k-2025-02-19)O Claude Sonnet 5 oferece a melhor combinação de velocidade e inteligência na família de modelos Claude. Ele é construído sobre o Claude Sonnet 4.6.
O Claude Sonnet 5 é uma atualização direta para o Claude Sonnet 4.6 com o mesmo preço de $3 / $15 por MTok (preço introdutório de $2 / $10 por MTok até 31 de agosto de 2026; consulte Preços). Há duas mudanças de API que quebram compatibilidade para código já em execução no Claude Sonnet 4.6: pensamento estendido manual (thinking: {type: "enabled", budget_tokens: N}) e parâmetros de amostragem (temperature, top_p, top_k) definidos para valores não padrão não são mais aceitos e retornam um erro 400. Use adaptive thinking com o parâmetro effort em vez disso. O Claude Sonnet 5 suporta o mesmo conjunto de recursos que o Claude Sonnet 4.6, incluindo a janela de contexto de 1M de tokens, adaptive thinking, cache de prompt, processamento em lote, a Files API, suporte a PDF, visão e o conjunto completo de ferramentas do lado do servidor e do lado do cliente. Priority Tier não está disponível no Claude Sonnet 5. O Claude Sonnet 5 também usa um novo tokenizador.
Se seu código está no Claude Sonnet 4.5 ou anterior, aplique também as etapas de migração do Claude Sonnet 4.6 antes de atualizar para o Claude Sonnet 5. Essas etapas incluem mudanças que quebram compatibilidade (prefilling de mensagem do assistente rejeitado, diferenças de escape JSON em parâmetros de ferramenta) que a atualização para o Sonnet 5 sozinha não cobre.
# Migração para Sonnet
model = "claude-sonnet-4-6" # Before
model = "claude-sonnet-5" # AfterOs itens 4 e 5 na lista a seguir são mudanças que quebram compatibilidade. max_tokens permanece um limite rígido sobre a saída total (pensamento mais texto de resposta), então revisite-o para cargas de trabalho que rodavam sem pensamento no Claude Sonnet 4.6.
Novo tokenizador: O Claude Sonnet 5 usa um novo tokenizador. O mesmo texto de entrada produz aproximadamente 30% mais tokens do que no Claude Sonnet 4.6. Requisições, respostas e eventos de streaming mantêm o mesmo formato, e nenhuma mudança de código é necessária, mas qualquer coisa que você meça ou orce em tokens muda: campos usage e resultados de contagem de tokens para o mesmo texto são maiores, a janela de contexto de 1M de tokens comporta menos texto, e um limite max_tokens ajustado para o Claude Sonnet 4.6 pode truncar saída equivalente. O preço por token permanece inalterado, então o custo de uma requisição equivalente pode diferir. Execute novamente a contagem de tokens no Claude Sonnet 5 em vez de reutilizar contagens medidas em modelos anteriores.
128k tokens de saída máximos (inalterado): O Claude Sonnet 5 suporta até 128k tokens de saída, o mesmo que o Claude Sonnet 4.6. Valores existentes de max_tokens permanecem válidos. Leve em conta o novo tokenizador ao dimensioná-los.
Prefilling de mensagem do assistente (inalterado): Fazer prefill da mensagem do assistente retorna um erro 400 no Claude Sonnet 5, o mesmo que no Claude Sonnet 4.6. Se você removeu o prefill ao migrar para o Claude Sonnet 4.6, nenhuma mudança adicional é necessária. Use structured outputs, instruções no prompt do sistema ou output_config.format em vez disso.
Adaptive thinking ativado por padrão: No Claude Sonnet 4.6, requisições sem um campo thinking rodam sem pensamento; no Claude Sonnet 5, as mesmas requisições rodam com adaptive thinking. Para desativar o pensamento, passe thinking: {type: "disabled"}. Pensamento estendido manual (thinking: {type: "enabled", budget_tokens: N}) não é suportado e retorna um erro 400. Use o parâmetro effort (padrão high) para controlar a profundidade do pensamento.
Parâmetros de amostragem removidos: Parâmetros de amostragem (temperature, top_p, top_k) definidos para um valor não padrão não são aceitos e retornam um erro 400.
Salvaguardas de cibersegurança: O Claude Sonnet 5 é o primeiro modelo da camada Sonnet com salvaguardas de cibersegurança em tempo real. Requisições que envolvem tópicos de cibersegurança proibidos ou de alto risco podem ser recusadas. Recusas retornam como uma resposta HTTP 200 bem-sucedida com stop_reason: "refusal", não um erro. Consulte Salvaguardas, avisos e recursos para contexto.
claude-sonnet-4-6 para claude-sonnet-5.max_tokens dimensionados próximos ao comprimento de saída esperado e aumente-os até o máximo de 128k (inalterado em relação ao Claude Sonnet 4.6) onde for útil.thinking: {type: "enabled", budget_tokens: N} (retorna um erro 400). Adaptive thinking está ativado por padrão; passe {type: "disabled"} para desativá-lo, ou use o parâmetro effort para controlar a profundidade.temperature, top_p e top_k definidos para valores não padrão (eles retornam um erro 400 no Claude Sonnet 5).stop_reason: "refusal" se sua carga de trabalho puder tocar em tópicos de cibersegurança.max_tokens para cargas de trabalho que anteriormente rodavam sem pensamento.O Claude Sonnet 4.6 combina forte inteligência com desempenho rápido, apresentando capacidades aprimoradas de busca agêntica e execução de código gratuita quando usado com busca na web ou web fetch. É ideal para tarefas cotidianas de codificação, análise e conteúdo.
Para uma visão geral completa das capacidades, consulte a visão geral dos modelos.
O preço do Sonnet 4.6 é $3 por milhão de tokens de entrada, $15 por milhão de tokens de saída. Consulte Preços do Claude para detalhes.
Atualize o nome do seu modelo:
# Do Sonnet 4.5
model = "claude-sonnet-4-5" # Before
model = "claude-sonnet-4-6" # AfterPrefilling de mensagens do assistente não é mais suportado
Esta é uma mudança que quebra compatibilidade ao migrar do Sonnet 4.5 ou anterior.
Fazer prefill de mensagens do assistente retorna um erro 400 no Sonnet 4.6. Use structured outputs, instruções no prompt do sistema ou output_config.format em vez disso.
Casos de uso comuns de prefill e migrações:
Controlar formatação de saída (forçar saída JSON/YAML): Use structured outputs ou ferramentas com campos enum para tarefas de classificação.
Eliminar preâmbulos (remover frases como "Aqui está..."): Adicione instruções diretas no prompt do sistema: "Responda diretamente sem preâmbulo. Não comece com frases como 'Aqui está...', 'Com base em...', etc."
Evitar recusas inadequadas: O Claude está muito melhor em recusas apropriadas agora. Prompting claro na mensagem do usuário sem prefill deve ser suficiente.
Continuações (retomar respostas interrompidas): Mova a continuação para a mensagem do usuário: "Sua resposta anterior foi interrompida e terminou com [previous_response]. Continue de onde você parou."
Hidratação de contexto / consistência de papel (atualizar contexto em conversas longas): Injete o que anteriormente eram lembretes de assistente com prefill no turno do usuário em vez disso.
O escape JSON de parâmetros de ferramenta pode diferir
Esta é uma mudança que quebra compatibilidade ao migrar do Sonnet 4.5 ou anterior.
O escape de string JSON em parâmetros de ferramenta pode diferir de modelos anteriores. Parsers JSON padrão lidam com isso automaticamente, mas parsing personalizado baseado em string pode precisar de atualizações.
Atualize parâmetros de amostragem
Esta é uma mudança que quebra compatibilidade ao migrar de modelos Claude 3.x.
Use apenas temperature OU top_p, não ambos.
Atualize versões de ferramentas
Esta é uma mudança que quebra compatibilidade ao migrar de modelos Claude 3.x.
Atualize para as versões mais recentes de ferramentas (text_editor_20250728, code_execution_20250825). Remova qualquer código que use o comando undo_edit.
Trate o stop reason refusal
Atualize sua aplicação para tratar stop reasons refusal.
Atualize seus prompts para mudanças comportamentais
Modelos Claude 4 têm um estilo de comunicação mais conciso e direto. Revise as melhores práticas de prompting para orientação de otimização.
fine-grained-tool-streaming-2025-05-14: Fine-grained tool streaming agora é GA no Sonnet 4.6 e não requer mais um cabeçalho beta.output_format para output_config.format: O parâmetro output_format está descontinuado. Use output_config.format em vez disso.Considere migrar do Sonnet 4.5 para o Sonnet 4.6, que oferece mais inteligência pelo mesmo preço.
O Sonnet 4.6 usa por padrão um nível de "effort" (esforço) high, em contraste com o Sonnet 4.5, que não tinha parâmetro de effort. Considere ajustar o parâmetro de effort ao migrar do Sonnet 4.5 para o Sonnet 4.6. Se não for definido explicitamente, você poderá experimentar maior latência com o nível de effort padrão.
Se você não está usando pensamento estendido no Sonnet 4.5, pode continuar sem ele no Sonnet 4.6. Você deve definir explicitamente o effort para o nível apropriado ao seu caso de uso. Com effort low e pensamento desativado, você pode esperar desempenho similar ou melhor em relação ao Sonnet 4.5 sem pensamento estendido.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
output_config={"effort": "low"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Se você está usando pensamento estendido com budget_tokens no Sonnet 4.5, ele ainda funciona no Sonnet 4.6, mas está obsoleto. Migre para o pensamento adaptativo com o parâmetro de effort.
O pensamento adaptativo é o substituto recomendado para budget_tokens no Sonnet 4.6. Ele é particularmente adequado para os seguintes padrões de carga de trabalho:
high. Se latência ou uso de tokens for uma preocupação, reduza para medium.Ao usar o pensamento adaptativo, avalie os níveis de effort medium e high em suas tarefas. O nível certo depende do equilíbrio entre qualidade, latência e uso de tokens da sua carga de trabalho.
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=64000,
thinking={"type": "adaptive"},
output_config={"effort": "medium"},
messages=[{"role": "user", "content": "Your prompt here"}],
)Se você observar comportamento inconsistente ou regressões de qualidade com o pensamento adaptativo, tente primeiro reduzir a configuração de effort ou usar max_tokens como limite rígido. O pensamento estendido com budget_tokens ainda funciona no Sonnet 4.6, mas está obsoleto e não é mais recomendado.
Se você precisar manter budget_tokens temporariamente durante a migração, um orçamento em torno de 16k tokens fornece margem para problemas mais difíceis sem risco de uso descontrolado de tokens. Essa configuração está obsoleta e será removida em uma versão futura do modelo.
Para programação agêntica, design de frontend, fluxos de trabalho com uso intensivo de ferramentas e fluxos de trabalho empresariais complexos, comece com effort medium. Se você achar que a latência está muito alta, considere reduzir o effort para low. Se precisar de mais inteligência, considere aumentar o effort para high ou migrar para o Opus 4.7.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=16384,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "medium"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)Para chat, geração de conteúdo, busca, classificação e outras tarefas não relacionadas a programação, comece com effort low com pensamento estendido. Se precisar de mais profundidade, aumente o effort para medium.
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=8192,
thinking={"type": "enabled", "budget_tokens": 16384},
output_config={"effort": "low"},
betas=["interleaved-thinking-2025-05-14"],
messages=[{"role": "user", "content": "Your prompt here"}],
)claude-sonnet-4-6output_config.format em vez dissotext_editor_20250728, code_execution_20250825); versões legadas não são suportadas (se estiver migrando da 3.x)undo_edit (se aplicável)temperature OU top_p, não ambos (se estiver migrando da 3.x)refusal em sua aplicaçãofine-grained-tool-streaming-2025-05-14 (agora em GA)output_format para output_config.formatthinking: {type: "enabled", budget_tokens: N} para thinking: {type: "adaptive"} com o parâmetro de effort (budget_tokens está obsoleto e será removido em uma versão futura)O Claude Sonnet 4.5 combina inteligência robusta com desempenho rápido, tornando-o ideal para tarefas cotidianas de programação, análise e conteúdo.
Para uma visão geral completa das capacidades, consulte a visão geral dos modelos.
O preço do Sonnet 4.5 é de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. Consulte preços do Claude para mais detalhes.
Atualize o nome do seu modelo:
# Do Sonnet 3.7
model = "claude-3-7-sonnet-20250219" # Before
model = "claude-sonnet-4-5-20250929" # AfterEssas mudanças incompatíveis se aplicam ao migrar de modelos Claude 3.x Sonnet.
Atualize os parâmetros de amostragem
Esta é uma mudança incompatível ao migrar de modelos Claude 3.x.
Use apenas temperature OU top_p, não ambos.
Atualize as versões de ferramentas
Esta é uma mudança incompatível ao migrar de modelos Claude 3.x.
Atualize para as versões mais recentes de ferramentas (text_editor_20250728, code_execution_20250825). Remova qualquer código que use o comando undo_edit.
Trate o stop reason refusal
Atualize sua aplicação para tratar stop reasons refusal.
Atualize seus prompts para mudanças comportamentais
Os modelos Claude 4 têm um estilo de comunicação mais conciso e direto. Revise as melhores práticas de prompting para orientações de otimização.
claude-sonnet-4-5-20250929text_editor_20250728, code_execution_20250825); versões legadas não são suportadas (se estiver migrando da 3.x)undo_edit (se aplicável)temperature OU top_p, não ambos (se estiver migrando da 3.x)refusal em sua aplicaçãoO Claude Haiku 4.5 é o modelo Haiku mais rápido e inteligente, com desempenho próximo ao de fronteira, oferecendo qualidade de modelo premium para aplicações interativas e processamento de alto volume.
Para uma visão geral completa das capacidades, consulte a visão geral dos modelos.
O preço do Haiku 4.5 é de US$ 1 por milhão de tokens de entrada e US$ 5 por milhão de tokens de saída. Consulte preços do Claude para mais detalhes.
Atualize o nome do seu modelo:
# Do Haiku 3.5
model = "claude-3-5-haiku-20241022" # Before
model = "claude-haiku-4-5-20251001" # AfterRevise os novos limites de taxa: o Haiku 4.5 tem limites de taxa separados do Haiku 3.5. Consulte a documentação de limites de taxa para mais detalhes.
Para melhorias significativas de desempenho em tarefas de programação e raciocínio, considere habilitar o pensamento estendido com thinking: {type: "enabled", budget_tokens: N}.
O pensamento estendido impacta a eficiência do cache de prompt.
O pensamento estendido está obsoleto nos modelos Claude 4.6 e foi removido no Claude Opus 4.7. Se estiver usando modelos mais recentes, use o pensamento adaptativo em vez disso.
Explore novas capacidades: consulte a visão geral dos modelos para detalhes sobre consciência de contexto, maior capacidade de saída (64k tokens), maior inteligência e velocidade aprimorada.
Essas mudanças incompatíveis se aplicam ao migrar de modelos Claude 3.x Haiku.
Atualize os parâmetros de amostragem
Esta é uma mudança incompatível ao migrar de modelos Claude 3.x.
Use apenas temperature OU top_p, não ambos.
Atualize as versões de ferramentas
Esta é uma mudança incompatível ao migrar de modelos Claude 3.x.
Atualize para as versões mais recentes de ferramentas (text_editor_20250728, code_execution_20250825). Remova qualquer código que use o comando undo_edit.
Trate o stop reason refusal
Atualize sua aplicação para tratar stop reasons refusal.
Atualize seus prompts para mudanças comportamentais
Os modelos Claude 4 têm um estilo de comunicação mais conciso e direto. Revise as melhores práticas de prompting para orientações de otimização.
claude-haiku-4-5-20251001text_editor_20250728, code_execution_20250825); versões legadas não são suportadasundo_edit (se aplicável)temperature OU top_p, não ambosrefusal em sua aplicaçãoWas this page helpful?