Loading...
    • Guia do Desenvolvedor
    • Referência da API
    • MCP
    • Recursos
    • Notas de lançamento
    Search...
    ⌘K
    Primeiros passos
    Introdução ao ClaudeInício rápido
    Modelos e preços
    Visão geral dos modelosEscolhendo um modeloNovidades no Claude 4.6Guia de migraçãoDescontinuação de modelosPreços
    Construir com Claude
    Visão geral de recursosUsando a API MessagesTratando motivos de paradaMelhores práticas de prompting
    Capacidades do modelo
    Pensamento estendidoPensamento adaptativoEsforçoModo rápido (visualização de pesquisa)Saídas estruturadasCitaçõesStreaming de mensagensProcessamento em loteSuporte a PDFResultados de pesquisaSuporte multilíngueEmbeddingsVisão
    Ferramentas
    Visão geralComo implementar o uso de ferramentasFerramenta de pesquisa na webFerramenta de busca na webFerramenta de execução de códigoFerramenta de memóriaFerramenta BashFerramenta de uso do computadorFerramenta de editor de texto
    Infraestrutura de ferramentas
    Pesquisa de ferramentasChamada de ferramentas programáticaStreaming de ferramentas de granulação fina
    Gerenciamento de contexto
    Janelas de contextoCompactaçãoEdição de contextoCache de promptsContagem de tokens
    Arquivos e ativos
    API de arquivos
    Habilidades do agente
    Visão geralInício rápidoMelhores práticasHabilidades para empresasUsando habilidades com a API
    SDK do agente
    Visão geralInício rápidoSDK TypeScriptTypeScript V2 (visualização)SDK PythonGuia de migração
    MCP na API
    Conector MCPServidores MCP remotos
    Claude em plataformas de terceiros
    Amazon BedrockMicrosoft FoundryVertex AI
    Engenharia de prompts
    Visão geralGerador de promptsUsar modelos de promptsMelhorador de promptsSeja claro e diretoUse exemplos (prompting multishot)Deixe Claude pensar (CoT)Use tags XMLDê um papel ao Claude (prompts do sistema)Encadear prompts complexosDicas de contexto longoDicas de pensamento estendido
    Testar e avaliar
    Definir critérios de sucessoDesenvolver casos de testeUsando a ferramenta de avaliaçãoReduzindo latência
    Fortalecer proteções
    Reduzir alucinaçõesAumentar consistência de saídaMitigar jailbreaksRecusas de streamingReduzir vazamento de promptsManter Claude em personagem
    Administração e monitoramento
    Visão geral da API de administraçãoResidência de dadosEspaços de trabalhoAPI de uso e custoAPI de análise de código ClaudeRetenção zero de dados
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Capacidades do modelo

    Esforço

    Controle quantos tokens Claude usa ao responder com o parâmetro effort, equilibrando entre a minuciosidade da resposta e a eficiência de tokens.

    O parâmetro effort permite que você controle o quão disposto Claude está em gastar tokens ao responder a solicitações. Isso oferece a capacidade de equilibrar entre a minuciosidade da resposta e a eficiência de tokens, tudo com um único modelo. O parâmetro effort está geralmente disponível em todos os modelos suportados sem exigir um cabeçalho beta.

    O parâmetro effort é suportado por Claude Opus 4.6 e Claude Opus 4.5.

    Para Claude Opus 4.6, effort substitui budget_tokens como a forma recomendada de controlar a profundidade do pensamento. Combine effort com adaptive thinking (thinking: {type: "adaptive"}) para a melhor experiência. Embora budget_tokens ainda seja aceito no Opus 4.6, está deprecado e será removido em um lançamento futuro do modelo. Em esforço high (padrão) e max, Claude quase sempre pensará. Em níveis de esforço mais baixos, pode pular o pensamento para problemas mais simples.

    Como o esforço funciona

    Por padrão, Claude usa esforço alto—gastando quantos tokens forem necessários para resultados excelentes. Você pode aumentar o nível de esforço para max para a capacidade absoluta mais alta, ou diminuir para ser mais conservador com o uso de tokens, otimizando para velocidade e custo enquanto aceita alguma redução na capacidade.

    Definir effort como "high" produz exatamente o mesmo comportamento que omitir o parâmetro effort completamente.

    Was this page helpful?

    • Como o esforço funciona
    • Níveis de esforço
    • Uso básico
    • Quando devo ajustar o parâmetro effort?
    • Esforço com uso de ferramentas
    • Esforço com pensamento estendido
    • Melhores práticas

    O parâmetro effort afeta todos os tokens na resposta, incluindo:

    • Respostas de texto e explicações
    • Chamadas de ferramentas e argumentos de função
    • Pensamento estendido (quando ativado)

    Esta abordagem tem duas grandes vantagens:

    1. Não requer que o pensamento seja ativado para usá-lo.
    2. Pode afetar todo o gasto de tokens, incluindo chamadas de ferramentas. Por exemplo, esforço mais baixo significaria que Claude faz menos chamadas de ferramentas. Isso oferece um grau muito maior de controle sobre a eficiência.

    Níveis de esforço

    NívelDescriçãoCaso de uso típico
    maxCapacidade máxima absoluta sem restrições no gasto de tokens. Apenas Opus 4.6 — solicitações usando max em outros modelos retornarão um erro.Tarefas que exigem o raciocínio mais profundo possível e análise mais minuciosa
    highAlta capacidade. Equivalente a não definir o parâmetro.Raciocínio complexo, problemas de codificação difíceis, tarefas de agentes
    mediumAbordagem equilibrada com economia moderada de tokens.Tarefas de agentes que exigem um equilíbrio entre velocidade, custo e desempenho
    lowMais eficiente. Economia significativa de tokens com alguma redução de capacidade.Tarefas mais simples que precisam da melhor velocidade e menores custos, como subagentos

    Esforço é um sinal comportamental, não um orçamento de tokens rigoroso. Em níveis de esforço mais baixos, Claude ainda pensará em problemas suficientemente difíceis — apenas pensará menos do que faria em níveis de esforço mais altos para o mesmo problema.

    Uso básico

    import anthropic
    
    client = anthropic.Anthropic()
    
    response = client.messages.create(
        model="claude-opus-4-6",
        max_tokens=4096,
        messages=[{
            "role": "user",
            "content": "Analyze the trade-offs between microservices and monolithic architectures"
        }],
        output_config={
            "effort": "medium"
        }
    )
    
    print(response.content[0].text)

    Quando devo ajustar o parâmetro effort?

    • Use max effort quando você precisar da capacidade absoluta mais alta sem restrições—o raciocínio mais minucioso e análise mais profunda. Disponível apenas no Opus 4.6; solicitações usando max em outros modelos retornarão um erro.
    • Use high effort (o padrão) quando você precisar do melhor trabalho de Claude—raciocínio complexo, análise nuançada, problemas de codificação difíceis, ou qualquer tarefa onde a qualidade é a prioridade máxima.
    • Use medium effort como uma opção equilibrada quando você quer desempenho sólido sem o gasto total de tokens do esforço alto.
    • Use low effort quando você está otimizando para velocidade (porque Claude responde com menos tokens) ou custo—por exemplo, tarefas simples de classificação, buscas rápidas, ou casos de uso de alto volume onde melhorias marginais de qualidade não justificam latência adicional ou gasto.

    Esforço com uso de ferramentas

    Ao usar ferramentas, o parâmetro effort afeta tanto as explicações em torno das chamadas de ferramentas quanto as próprias chamadas de ferramentas. Níveis de esforço mais baixos tendem a:

    • Combinar múltiplas operações em menos chamadas de ferramentas
    • Fazer menos chamadas de ferramentas
    • Proceder diretamente à ação sem preâmbulo
    • Usar mensagens de confirmação tersas após a conclusão

    Níveis de esforço mais altos podem:

    • Fazer mais chamadas de ferramentas
    • Explicar o plano antes de tomar ação
    • Fornecer resumos detalhados de mudanças
    • Incluir comentários de código mais abrangentes

    Esforço com pensamento estendido

    O parâmetro effort funciona junto com o pensamento estendido. Seu comportamento depende do modelo:

    • Claude Opus 4.6 usa adaptive thinking (thinking: {type: "adaptive"}), onde effort é o controle recomendado para a profundidade do pensamento. Embora budget_tokens ainda seja aceito no Opus 4.6, está deprecado e será removido em um lançamento futuro. Em esforço high e max, Claude quase sempre pensa profundamente. Em níveis mais baixos, pode pular o pensamento para problemas mais simples.
    • Claude Opus 4.5 usa pensamento manual (thinking: {type: "enabled", budget_tokens: N}), onde effort funciona junto com o orçamento de tokens de pensamento. Defina o nível de esforço para sua tarefa, depois defina o orçamento de tokens de pensamento com base na complexidade da tarefa.

    O parâmetro effort pode ser usado com ou sem pensamento estendido ativado. Quando usado sem pensamento, ainda controla o gasto total de tokens para respostas de texto e chamadas de ferramentas.

    Melhores práticas

    1. Comece com high: Use níveis de esforço mais baixos para equilibrar desempenho com eficiência de tokens.
    2. Use low para tarefas sensíveis à velocidade ou simples: Quando a latência importa ou as tarefas são diretas, esforço baixo pode reduzir significativamente os tempos de resposta e custos.
    3. Teste seu caso de uso: O impacto dos níveis de esforço varia por tipo de tarefa. Avalie o desempenho em seus casos de uso específicos antes de implantar.
    4. Considere esforço dinâmico: Ajuste o esforço com base na complexidade da tarefa. Consultas simples podem justificar esforço baixo enquanto codificação de agentes e raciocínio complexo se beneficiam de esforço alto.