O Claude Opus 4.8 foi desenvolvido para codificação agêntica complexa e trabalho empresarial. Ele é construído sobre o Claude Opus 4.7. Esta página resume todas as novidades no lançamento, incluindo o "fast mode" (modo rápido, em prévia de pesquisa na API do Claude) e um comprimento mínimo de prompt cacheável reduzido para 1.024 tokens.
| Modelo | ID do modelo na API | Descrição |
|---|---|---|
| Claude Opus 4.8 | claude-opus-4-8 | Para codificação agêntica complexa e trabalho empresarial |
O Claude Opus 4.8 oferece suporte à janela de contexto de 1M de tokens por padrão na API do Claude, Amazon Bedrock, Google Cloud e Microsoft Foundry, 128k tokens máximos de saída, pensamento adaptativo e o mesmo conjunto de ferramentas e recursos de plataforma que o Claude Opus 4.7.
Para preços e especificações completas, consulte a visão geral dos modelos.
O Claude Opus 4.8 aceita mensagens com role: "system" imediatamente após um turno do usuário no array messages (sujeito às regras de posicionamento). Isso permite que você anexe instruções atualizadas mais adiante em uma conversa de longa duração sem repetir o prompt do sistema completo. Atualizar instruções dessa forma preserva os acertos do cache de prompt nos turnos anteriores e reduz o custo de entrada em loops agênticos. Nenhum cabeçalho beta é necessário. Consulte Mensagens de sistema no meio da conversa para detalhes de uso.
O objeto stop_details em respostas de recusa (disponível desde o Claude Opus 4.7) agora está documentado publicamente. Quando o Claude se recusa a concluir uma solicitação, esse objeto descreve a categoria da recusa, além do motivo de parada refusal existente. Sua aplicação pode usá-lo para distinguir diferentes classes de solicitações recusadas e direcionar o usuário para o próximo passo correto. Nenhum cabeçalho beta é necessário. Consulte Recusas e fallback para a lista de categorias e Motivos de parada e fallback para orientações de tratamento.
O padrão do parâmetro effort no Claude Opus 4.8 é high em todas as superfícies, incluindo a API do Claude e o Claude Code. Se você define o effort explicitamente hoje, sua configuração permanece inalterada. Consulte Effort para orientações por nível.
O fast mode (modo rápido) agora está disponível para o Claude Opus 4.8 como prévia de pesquisa na API do Claude. Defina speed: "fast" com o cabeçalho beta fast-mode-2026-02-01 para obter até 2,5x mais tokens de saída por segundo do mesmo modelo com preço premium. Consulte Fast mode para acesso, modelos compatíveis e preços.
O comprimento mínimo de prompt cacheável no Claude Opus 4.8 é de 1.024 tokens, reduzido de 2.048 tokens no Claude Opus 4.7. Prompts que eram curtos demais para serem cacheados no Claude Opus 4.7 agora podem criar entradas de cache sem alterações de código. Consulte Cache de prompt para os mínimos por modelo.
Essas restrições permanecem inalteradas em relação ao Claude Opus 4.7, portanto, código que já roda no Claude Opus 4.7 não precisa de alterações. Elas se aplicam apenas à Messages API. Os Claude Managed Agents não são afetados.
Definir temperature, top_p ou top_k com um valor não padrão retorna um erro 400 no Claude Opus 4.8, assim como no Claude Opus 4.7. Omita esses parâmetros e use prompting para orientar o comportamento do modelo.
Assim como o Claude Opus 4.7, o Claude Opus 4.8 não oferece suporte a orçamentos de pensamento estendido. Definir thinking: {type: "enabled", budget_tokens: N} retorna um erro 400.
O diff a seguir atualiza uma requisição escrita para o Claude Opus 4.6 ou anterior para rodar no Claude Opus 4.8. As linhas removidas (-) definem o ID do modelo antigo e o orçamento manual de pensamento que o Claude Opus 4.8 rejeita. As linhas adicionadas (+) definem o novo ID do modelo, mudam para pensamento adaptativo e controlam a profundidade do pensamento com o parâmetro effort, passado no campo de nível superior output_config. O modelo determina quando e quanto pensar em cada turno. Se você remover o campo thinking completamente, as requisições são executadas sem pensamento:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
- model="claude-opus-4-6",
+ model="claude-opus-4-8",
max_tokens=16000,
- thinking={"type": "enabled", "budget_tokens": 10000},
+ thinking={"type": "adaptive"},
+ output_config={"effort": "high"},
messages=[
{
"role": "user",
"content": "Explain why the sum of two even numbers is always even.",
}
],
)Em comparação com o Claude Opus 4.7, o Claude Opus 4.8 visa melhorias comportamentais em:
Com o pensamento adaptativo habilitado, o Claude Opus 4.8 aciona o raciocínio apenas quando determina que o turno precisa dele. Em consultas simples e etapas agênticas curtas, ele responde diretamente. Em problemas complexos de múltiplas etapas, ele raciocina antes de responder. Isso reduz tokens de pensamento desperdiçados em cargas de trabalho bimodais em comparação com o Claude Opus 4.7 no mesmo nível de effort. Assim como no Claude Opus 4.7, o pensamento fica desativado a menos que você defina explicitamente thinking: {type: "adaptive"} na sua requisição.
Estas não são mudanças que quebram a API, mas podem exigir atualizações de prompt. Consulte Migrando para o Claude Opus 4.8 para orientações completas.
medium permite um pouco mais de pensamento, high um pouco menos, e xhigh substancialmente mais. Se você ajustou um nível de effort com base no Claude Opus 4.7, refaça a linha de base de custo e latência nesse nível antes de ajustá-lo.Para instruções de migração passo a passo e a lista de verificação completa de migração, consulte Migrando para o Claude Opus 4.8. Se você está atualizando do Claude Opus 4.6 ou anterior, aplique também as etapas de migração do Claude Opus 4.7. Essas etapas cobrem mudanças incompatíveis que a atualização para o Claude Opus 4.8 sozinha não cobre. Se você usa o Claude Code ou o Agent SDK, a skill da API do Claude pode aplicar essas etapas de migração à sua base de código automaticamente.
Guia para migrar para os modelos Claude mais recentes a partir de versões anteriores do Claude.
Controle quantos tokens o Claude usa ao responder com o parâmetro effort, equilibrando entre completude da resposta e eficiência de tokens.
Deixe o Claude determinar dinamicamente quando e quanto usar o pensamento estendido com o modo de pensamento adaptativo.
Como mensagens de sistema no meio da conversa preservam acertos de cache.
Saiba o que cada valor de stop_reason significa e como lidar com truncamento, uso de ferramentas, turnos pausados e recusas na sua aplicação.
Obtenha até 2,5x mais tokens de saída por segundo dos modelos Claude Opus.
Was this page helpful?