Claude pode interagir com ambientes de computador através da ferramenta de uso do computador, que fornece recursos de captura de tela e controle de mouse/teclado para interação autônoma com desktop. No WebArena, um benchmark para navegação web autônoma em sites reais, Claude alcança resultados de ponta entre sistemas de agente único, demonstrando forte capacidade de concluir tarefas de navegador com múltiplas etapas de ponta a ponta.
O uso do computador está em beta e requer um cabeçalho beta:
"computer-use-2025-11-24" para Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e Claude Opus 4.5"computer-use-2025-01-24" para Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.1 (descontinuado), Claude Sonnet 4 (desativado, exceto no Bedrock e Google Cloud) e Claude Opus 4 (desativado, exceto no Google Cloud)Entre em contato através do formulário de feedback para compartilhar sua opinião sobre este recurso.
Este recurso é elegível para Zero Data Retention (ZDR). Quando sua organização possui um acordo de ZDR, os dados enviados por meio deste recurso não são armazenados após a resposta da API ser retornada.
O uso do computador é um recurso beta que permite que Claude interaja com ambientes de desktop. Esta ferramenta fornece:
Embora o uso do computador possa ser complementado com outras ferramentas, como bash e editor de texto, para fluxos de trabalho de automação mais abrangentes, o uso do computador refere-se especificamente à capacidade da ferramenta de uso do computador de ver e controlar ambientes de desktop.
Para suporte de modelos, consulte a Referência de ferramentas.
O uso do computador é um recurso beta com riscos únicos, distintos dos recursos padrão da API. Esses riscos são maiores ao interagir com a internet.
Para minimizar riscos, considere tomar precauções como:
Em algumas circunstâncias, Claude seguirá comandos encontrados em conteúdo mesmo que entrem em conflito com as instruções do usuário. Por exemplo, instruções para Claude em páginas web ou contidas em imagens podem substituir instruções ou fazer com que Claude cometa erros. Tome precauções para isolar Claude de dados e ações sensíveis para evitar riscos relacionados a injeção de prompt.
A Anthropic treinou o modelo para resistir a essas injeções de prompt e adicionou uma camada extra de defesa. Se você usar as ferramentas de uso do computador, classificadores serão executados automaticamente em seus prompts para sinalizar possíveis instâncias de injeções de prompt. Quando esses classificadores identificam possíveis injeções de prompt em capturas de tela, eles automaticamente direcionam o modelo a pedir confirmação do usuário antes de prosseguir com a próxima ação. Essa proteção extra não será ideal para todos os casos de uso (por exemplo, casos de uso sem um humano no loop), então se você quiser desativá-la, entre em contato com o suporte.
Essas precauções continuam sendo importantes mesmo com a camada de defesa do classificador em vigor.
Informe os usuários finais sobre os riscos relevantes e obtenha o consentimento deles antes de habilitar o uso do computador em seus próprios produtos.
Comece com a implementação de referência de uso do computador que inclui uma interface web, contêiner Docker, exemplos de implementações de ferramentas e um loop de agente.
Veja como começar com o uso do computador:
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8", # or another compatible model
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
betas=["computer-use-2025-11-24"],
)
print(response)Um cabeçalho beta é necessário apenas para a ferramenta de uso do computador.
O exemplo anterior mostra as três ferramentas sendo usadas juntas, o que requer o cabeçalho beta porque inclui a ferramenta de uso do computador.
Forneça a Claude a ferramenta de uso do computador e um prompt do usuário
Claude seleciona a ferramenta de uso do computador
stop_reason de tool_use, sinalizando uma requisição de uso de ferramentas.Extraia a entrada da ferramenta, avalie a ferramenta em um computador e retorne os resultados
user contendo um bloco de conteúdo tool_result.Claude continua chamando ferramentas de uso do computador até concluir a tarefa
stop_reason de tool_use e você deve retornar ao passo 3.A repetição dos passos 3 e 4 sem entrada do usuário é chamada de "agent loop" (loop de agente), ou seja, Claude respondendo com uma requisição de uso de ferramentas e sua aplicação respondendo a Claude com os resultados da avaliação dessa requisição.
O uso do computador requer um ambiente de computação isolado (sandbox) onde Claude possa interagir com segurança com aplicações e a web. Este ambiente inclui:
Display virtual: Um servidor de display X11 virtual (usando Xvfb) que renderiza a interface de desktop que Claude verá através de capturas de tela e controlará com ações de mouse/teclado.
Ambiente de desktop: Uma UI leve com gerenciador de janelas (Mutter) e painel (Tint2) rodando em Linux, que fornece uma interface gráfica consistente para Claude interagir.
Aplicações: Aplicações Linux pré-instaladas como Firefox, LibreOffice, editores de texto e gerenciadores de arquivos que Claude pode usar para concluir tarefas.
Implementações de ferramentas: Código de integração que traduz as requisições abstratas de ferramentas de Claude (como "mover mouse" ou "capturar tela") em operações reais no ambiente virtual.
Loop de agente: Um programa que gerencia a comunicação entre Claude e o ambiente, enviando as ações de Claude para o ambiente e retornando os resultados (capturas de tela, saídas de comandos) de volta para Claude.
Quando você usa o uso do computador, Claude não se conecta diretamente a esse ambiente. Em vez disso, sua aplicação:
Para segurança e isolamento, a implementação de referência executa tudo isso dentro de um contêiner Docker com mapeamentos de porta apropriados para visualizar e interagir com o ambiente.
Uma implementação de referência está disponível e inclui tudo o que você precisa para começar com o uso do computador:
O núcleo do uso do computador é o "agent loop" (loop de agente): um ciclo em que Claude solicita ações de ferramentas, sua aplicação as executa e retorna os resultados para Claude. Aqui está um exemplo simplificado:
O loop continua até que Claude responda sem solicitar nenhuma ferramenta (conclusão da tarefa) ou até que o limite máximo de iterações seja atingido. Essa salvaguarda previne possíveis loops infinitos que poderiam resultar em custos inesperados de API.
Experimente a implementação de referência antes de ler o restante desta documentação.
Aqui estão algumas dicas sobre como obter saídas da melhor qualidade:
After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.<robot_credentials>. Usar o uso do computador em aplicações que exigem login aumenta o risco de resultados ruins como consequência de injeção de prompt. Revise Mitigar jailbreaks e injeções de prompt antes de fornecer credenciais de login ao modelo.content de um turno do usuário, coloque o texto de instrução antes da imagem de captura de tela. Fornecer a descrição do alvo antes de a imagem ser processada melhora a precisão do clique.computer_20251124 com enable_zoom: true definido, Claude amplia uma região quando perguntado sobre texto pequeno ou elementos específicos de UI que não são legíveis na resolução padrão da captura de tela, como nomes de arquivos em uma barra lateral, títulos de abas, texto da barra de status, números de linha ou rótulos de botões. Se Claude não estiver ampliando quando você espera, pergunte sobre uma região ou elemento específico em vez da tela como um todo.Se você encontrar repetidamente um conjunto claro de problemas ou souber com antecedência as tarefas que Claude precisará concluir, use o prompt do sistema para fornecer a Claude dicas ou instruções explícitas sobre como realizar as tarefas com sucesso.
Para agentes que abrangem múltiplas sessões, execute verificação de ponta a ponta no início de cada sessão, não apenas após a implementação. Verificações baseadas em navegador detectam regressões de sessões anteriores que a revisão apenas no nível de código não detecta. Consulte Effective harnesses for long-running agents para mais detalhes.
Quando uma das ferramentas com esquema da Anthropic é solicitada através da API do Claude, um prompt do sistema específico para uso do computador é gerado. É semelhante ao prompt do sistema de uso de ferramentas, mas começa com:
You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.
Assim como no uso de ferramentas regular, o campo system_prompt fornecido pelo usuário ainda é respeitado e usado na construção do prompt do sistema combinado.
A ferramenta de uso do computador suporta estas ações:
Ações básicas (todas as versões)
[x, y]Ações aprimoradas (computer_20250124)
Disponíveis em todos os modelos que suportam uso do computador:
Ações aprimoradas (computer_20251124)
Disponíveis em Claude Sonnet 5, Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e Claude Opus 4.5:
computer_20250124enable_zoom: true na definição da ferramenta. Recebe um parâmetro region com coordenadas [x1, y1, x2, y2] definindo os cantos superior esquerdo e inferior direito da área a ser inspecionada.| Parâmetro | Obrigatório | Descrição |
|---|---|---|
type | Sim | Versão da ferramenta (computer_20251124 ou computer_20250124) |
name | Sim | Deve ser "computer" |
display_width_px | Sim | Largura do display em pixels |
display_height_px | Sim | Altura do display em pixels |
display_number | Não | Número do display para ambientes X11 |
enable_zoom | Não | Habilitar ação de zoom (apenas computer_20251124). Defina como true para permitir que Claude amplie regiões específicas da tela. Padrão: false |
Importante: Sua aplicação deve executar explicitamente a ferramenta de uso do computador; Claude não pode executá-la diretamente. Você é responsável por implementar a captura de tela, movimentos do mouse, entradas de teclado e outras ações com base nas requisições de Claude.
Para combinar o uso do computador com pensamento estendido, consulte Pensamento estendido.
Especificamente para uso do computador, benchmarks internos sugerem estas configurações de effort:
high como padrão; use low para cargas de trabalho de alto throughput ou sensíveis a custo.medium como padrão (melhor relação precisão-custo). Evite max, que adiciona custo de tokens sem melhorar a precisão em tarefas de UI. Nesses modelos, low usa menos tokens de saída do que desabilitar o pensamento completamente (menos erros significam menos tentativas), tornando-o uma opção forte para loops sensíveis a custo.Para adicionar outras ferramentas junto com o uso do computador, inclua-as no mesmo array tools. A seção Início rápido mostra esse padrão com a ferramenta bash e a ferramenta de editor de texto. Você pode adicionar suas próprias definições de ferramentas personalizadas da mesma forma.
A implementação de referência foi criada para ajudar você a começar com o uso do computador. Ela inclui todos os componentes necessários para que Claude use um computador. No entanto, você pode construir seu próprio ambiente para uso do computador de acordo com suas necessidades. Você precisará de:
tool_use usando suas implementações de ferramentasA ferramenta de uso do computador é implementada como uma ferramenta sem esquema. Ao usar esta ferramenta, você não precisa fornecer um esquema de entrada como com outras ferramentas; o esquema está embutido no modelo de Claude e não pode ser modificado.
Configure seu ambiente de computação
Crie um display virtual ou conecte-se a um display existente com o qual Claude irá interagir. Isso normalmente envolve configurar Xvfb (X Virtual Framebuffer) ou tecnologia similar.
Implemente manipuladores de ações
Crie funções para lidar com cada tipo de ação que Claude pode solicitar:
Processe as chamadas de ferramentas de Claude
Extraia e execute chamadas de ferramentas das respostas de Claude:
Implemente o loop de agente
Crie um loop que continua até Claude concluir a tarefa:
Ao implementar a ferramenta de uso do computador, vários erros podem ocorrer. Veja como tratá-los:
Capturas de tela enviadas para a ferramenta de computador já devem caber dentro dos limites de tamanho de imagem de Claude (consulte limites de tamanho de imagem). A API não redimensiona imagens grandes demais; uma captura de tela que excede o limite é rejeitada com um erro de validação HTTP 400.
Os limites variam por modelo. Claude Sonnet 5, Claude Opus 4.8 e Claude Opus 4.7 aceitam até 2576 pixels na borda mais longa; modelos anteriores aceitam até 1568 pixels na borda mais longa e aproximadamente 1,15 megapixels no total. O exemplo a seguir usa os limites de 1568 px / 1,15 MP dos modelos anteriores; substitua pelo limite do seu modelo.
Se sua tela for maior que o limite, redimensione a captura de tela antes de enviá-la, defina display_width_px/display_height_px para as dimensões redimensionadas e escale as coordenadas retornadas por Claude de volta para o espaço da tela original:
Displays Retina do macOS capturam telas com uma proporção de pixels de dispositivo de 2, então a imagem tem o dobro da resolução das coordenadas lógicas da tela. Reduza a captura de tela em 2x antes de enviar, ou divida pela metade as coordenadas que Claude retorna antes de emitir o clique.
Se os cliques erram seus alvos, a causa geralmente é uma das seguintes:
| Sintoma | Causa provável | Tente |
|---|---|---|
| Cliques consistentemente deslocados em uma direção | display_width_px/display_height_px não correspondem às dimensões da imagem realmente enviada | Garanta que as dimensões do display correspondam exatamente à captura de tela que você envia |
| Cliques caem na área certa mas erram o alvo | O alvo é muito pequeno, detalhes foram perdidos ao reduzir uma fonte 4K+, ou a proporção de aspecto foi distorcida | Defina enable_zoom: true; capture em DPI menor ou recorte para a região relevante; preserve a proporção de aspecto ao redimensionar |
| Claude clica no elemento totalmente errado | Instrução ambígua, ou elementos visualmente semelhantes próximos | Use prompts posicionais ("o botão azul Submit no canto inferior direito"); divida a interação em etapas menores |
| A precisão é consistentemente ruim | Resolução muito baixa | Tente 1280x720 como linha de base |
A escolha do modelo afeta a precisão do clique. Claude Sonnet 4.6 é mecanicamente mais preciso ao clicar do que Claude Opus 4.6 e é mais robusto quando capturas de tela exigem redução significativa. Claude Opus 4.7 reduz essa diferença: sua precisão de clique é aproximadamente comparável à do Sonnet 4.6, e seu limite de resolução mais alto significa que menos redução é necessária.
A funcionalidade de uso de computador está em beta. Embora as capacidades do Claude sejam de última geração, os desenvolvedores devem estar cientes de suas limitações:
left_mouse_down, left_mouse_up) e combinações de teclas modificadoras para selecionar células individuais. Operações complexas em planilhas ainda podem exigir várias tentativas.Sempre revise e verifique cuidadosamente as ações e logs de uso de computador do Claude. Não use o Claude para tarefas que exigem precisão perfeita ou informações sensíveis do usuário sem supervisão humana.
O uso de computador é uma ferramenta do lado do cliente. Todas as capturas de tela, ações do mouse, entradas de teclado e quaisquer arquivos envolvidos em uma sessão são capturados e armazenados no seu ambiente, não pela Anthropic. A Anthropic processa as imagens de captura de tela e solicitações de ação em tempo real como parte da chamada de API, mas não as retém após a resposta ser retornada.
Como sua aplicação controla onde e como os dados de uso de computador são armazenados, o uso de computador é elegível para ZDR. Para elegibilidade ZDR em todos os recursos, consulte API e retenção de dados.
O uso do computador segue a precificação padrão de uso de ferramentas. Ao usar a ferramenta de uso do computador:
Sobrecarga do prompt do sistema: O beta de uso do computador adiciona de 466 a 499 tokens ao prompt do sistema
Uso de tokens da ferramenta de uso do computador:
| Modelo | Tokens de entrada por definição de ferramenta |
|---|---|
| Modelos Claude 4.x | 735 tokens |
Consumo adicional de tokens:
Se você também estiver usando as ferramentas bash ou editor de texto junto com o uso do computador, essas ferramentas têm seus próprios custos de tokens, conforme documentado em suas respectivas páginas.
Continue para a próxima ferramenta: visualize, crie e edite arquivos com o Claude
Comece com a implementação completa baseada em Docker
Saiba mais sobre uso de ferramentas e criação de ferramentas personalizadas
Recomendações com benchmarks para resolução, esforço de pensamento e gerenciamento de contexto
Was this page helpful?