This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.
O parâmetro effort permite que você controle o quanto Claude está disposto a gastar tokens ao responder a solicitações. Isso oferece a capacidade de equilibrar entre a minuciosidade da resposta e a eficiência de tokens, tudo com um único modelo. O parâmetro effort está geralmente disponível em todos os modelos suportados sem necessidade de cabeçalho beta.
O parâmetro effort é suportado por Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e Claude Opus 4.5.
Para Claude Opus 4.6 e Sonnet 4.6, effort substitui budget_tokens como a forma recomendada de controlar a profundidade do pensamento. Combine effort com adaptive thinking (thinking: {type: "adaptive"}) para a melhor experiência. Embora budget_tokens ainda seja aceito em Opus 4.6 e Sonnet 4.6, está descontinuado e será removido em uma futura versão do modelo. Em high (padrão) e max effort, Claude quase sempre pensará. Em níveis de esforço mais baixos, pode pular o pensamento para problemas mais simples.
Por padrão, Claude usa alto esforço, gastando quantos tokens forem necessários para resultados excelentes. Você pode aumentar o nível de esforço para max para a capacidade absoluta mais alta, ou diminuir para ser mais conservador com o uso de tokens, otimizando para velocidade e custo enquanto aceita alguma redução na capacidade.
Definir effort como "high" produz exatamente o mesmo comportamento de omitir o parâmetro effort inteiramente.
O parâmetro effort afeta todos os tokens na resposta, incluindo:
Esta abordagem tem duas grandes vantagens:
| Nível | Descrição | Caso de uso típico |
|---|---|---|
max | Capacidade máxima absoluta sem restrições no gasto de tokens. Disponível em Claude Mythos Preview, Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6. | Tarefas que exigem o raciocínio mais profundo possível e análise mais minuciosa |
xhigh | Capacidade estendida para trabalho de longo horizonte. Disponível em Claude Opus 4.7. | Tarefas de codificação e agentes de longa duração (mais de 30 minutos) com orçamentos de tokens na casa dos milhões |
high | Capacidade alta. Equivalente a não definir o parâmetro. | Raciocínio complexo, problemas de codificação difíceis, tarefas de agentes |
medium | Abordagem equilibrada com economia moderada de tokens. | Tarefas de agentes que exigem equilíbrio entre velocidade, custo e desempenho |
low | Mais eficiente. Economia significativa de tokens com alguma redução de capacidade. | Tarefas mais simples que precisam da melhor velocidade e menores custos, como subagentos |
Esforço é um sinal comportamental, não um orçamento de tokens rigoroso. Em níveis de esforço mais baixos, Claude ainda pensará em problemas suficientemente difíceis, mas pensará menos do que faria em níveis de esforço mais altos para o mesmo problema.
Sonnet 4.6 usa como padrão high effort. Defina explicitamente o esforço ao usar Sonnet 4.6 para evitar latência inesperada:
Comece com xhigh para codificação e casos de uso de agentes, e use high como o mínimo para a maioria das cargas de trabalho sensíveis à inteligência. Diminua para medium para cargas de trabalho sensíveis ao custo, ou aumente para max apenas quando suas avaliações mostrarem espaço mensurável em xhigh.
O padrão da API é high. Para usar xhigh, defina effort explicitamente; o valor que você passa substitui o padrão.
| Esforço | Orientação para Claude Opus 4.7 |
|---|---|
low | Eficiente, mas melhor para tarefas curtas e delimitadas. Combine low com listas de verificação explícitas se sua tarefa tiver várias seções. |
medium | A substituição para o fluxo de trabalho médio onde você deseja bons resultados enquanto reduz custos. |
high | Casos de uso avançados que ainda precisam de equilíbrio entre inteligência e consumo de tokens. Este é frequentemente o ponto ideal equilibrando qualidade e eficiência de tokens. |
xhigh | O ponto de partida recomendado para codificação e trabalho de agentes, e para tarefas exploratórias como chamadas de ferramentas repetidas, busca web detalhada e busca em base de conhecimento. Espere uso de tokens significativamente mais alto do que high. |
max | Reserve para problemas genuinamente de fronteira. Na maioria das cargas de trabalho max adiciona custo significativo para ganhos de qualidade relativamente pequenos, e em algumas tarefas de saída estruturada ou menos sensíveis à inteligência pode levar a excesso de pensamento. |
Claude Opus 4.7 também respeita os níveis de esforço de forma mais rigorosa do que Claude Opus 4.6, especialmente em low e medium. Em níveis de esforço mais baixos, o modelo limita seu trabalho ao que foi solicitado em vez de ir além. Se você observar raciocínio superficial em problemas complexos com Claude Opus 4.7, aumente o esforço em vez de contornar com prompts. Se você deve manter o esforço baixo por latência, adicione orientação direcionada como "Esta tarefa envolve raciocínio em várias etapas. Pense cuidadosamente antes de responder."
Ao executar Claude Opus 4.7 em xhigh ou max effort, defina um grande max_tokens para que o modelo tenha espaço para pensar e agir entre subagentos e chamadas de ferramentas. Começar com 64k tokens e ajustar a partir daí é um padrão razoável.
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
messages=[
{
"role": "user",
"content": "Analyze the trade-offs between microservices and monolithic architectures",
}
],
output_config={"effort": "medium"},
)
print(response.content[0].text)Ao usar ferramentas, o parâmetro effort afeta tanto as explicações em torno das chamadas de ferramentas quanto as próprias chamadas de ferramentas. Níveis de esforço mais baixos tendem a:
Níveis de esforço mais altos podem:
O parâmetro effort funciona junto com o pensamento estendido. Seu comportamento depende do modelo:
thinking necessária). thinking: {type: "disabled"} é rejeitado. Esforço controla a profundidade do pensamento da mesma forma que em Opus 4.7 e Opus 4.6.thinking: {type: "adaptive"}), onde effort é o controle recomendado para a profundidade do pensamento. Pensamento estendido manual (thinking: {type: "enabled", budget_tokens: N}) não é mais suportado em Opus 4.7; use adaptive thinking com effort em vez disso. Em high, xhigh e max effort, Claude quase sempre pensa profundamente. Em níveis mais baixos, pode pular o pensamento para problemas mais simples.thinking: {type: "adaptive"}), onde effort é o controle recomendado para a profundidade do pensamento. Embora budget_tokens ainda seja aceito em Opus 4.6, está descontinuado e será removido em uma futura versão. Em high e max effort, Claude quase sempre pensa profundamente. Em níveis mais baixos, pode pular o pensamento para problemas mais simples.thinking: {type: "enabled", budget_tokens: N}) ainda é funcional mas descontinuado.thinking: {type: "enabled", budget_tokens: N}), onde effort funciona junto com o orçamento de tokens de pensamento. Defina o nível de esforço para sua tarefa, depois defina o orçamento de tokens de pensamento com base na complexidade da tarefa.O parâmetro effort pode ser usado com ou sem pensamento estendido ativado. Quando usado sem pensamento, ainda controla o gasto total de tokens para respostas de texto e chamadas de ferramentas.
high, mas o ponto de partida correto depende do seu modelo e carga de trabalho.Was this page helpful?