Claude Platform Docs
  • Messages
  • Agents gérés
  • Administration

Search...
⌘K
Premiers pas
Introduction à ClaudeDémarrage rapide
Développer avec Claude
Aperçu des fonctionnalitésUtilisation de l'API MessagesRaisons d'arrêt et repliRefus et repliCrédit de repli
Capacités du modèle
Réflexion étendueRéflexion adaptativeEffortBudgets de tâches (bêta)Mode rapide (aperçu de recherche)Sorties structuréesCitationsStreaming des messagesTraitement par lotsRésultats de rechercheStreaming des refusPrise en charge multilingueEmbeddings
Outils
AperçuFonctionnement de l'utilisation d'outilsTutoriel : Créer un agent utilisant des outilsDéfinir des outilsGérer les appels d'outilsUtilisation d'outils en parallèleTool Runner (SDK)Utilisation d'outils stricteUtilisation d'outils avec mise en cache des promptsOutils serveurDépannageOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil conseillerOutil de mémoireOutil BashOutil d'utilisation de l'ordinateurOutil d'éditeur de texte
Infrastructure des outils
Référence des outilsGérer le contexte des outilsCombinaisons d'outilsRecherche d'outilsAppel d'outils programmatiqueStreaming d'outils granulaire
Gestion du contexte
Fenêtres de contexteCompactageÉdition du contexteMise en cache des promptsMessages système en cours de conversationCréer un mode d'orchestrationDiagnostics de cache (bêta)Comptage de tokens
Travailler avec des fichiers
API FilesPrise en charge des PDFImages et vision
Compétences
AperçuDémarrage rapideBonnes pratiquesCompétences pour l'entrepriseCompétences dans l'API
MCP
Serveurs MCP distantsConnecteur MCP
Claude sur les plateformes cloud
Amazon BedrockAmazon Bedrock (ancien)Claude Platform sur AWSMicrosoft FoundryVertex AI

Log in
Outil d'utilisation de l'ordinateur
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Claude Platform Docs

Solutions

  • AI agents
  • Code modernization
  • Coding
  • Customer support
  • Education
  • Financial services
  • Government
  • Life sciences

Partners

  • Claude on AWS
  • Claude on Google Cloud

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Company

  • Anthropic
  • Careers
  • Economic Futures
  • Research
  • News
  • Responsible Scaling Policy
  • Security and compliance
  • Transparency

Learn

  • Blog
  • Courses
  • Use cases
  • Connectors
  • Customer stories
  • Engineering at Anthropic
  • Events
  • Powered by Claude
  • Service partners
  • Startups program

Help and security

  • Availability
  • Status
  • Support
  • Discord

Terms and policies

  • Privacy policy
  • Responsible disclosure policy
  • Terms of service: Commercial
  • Terms of service: Consumer
  • Usage policy
Messages/Outils

Outil d'utilisation de l'ordinateur

Claude peut interagir avec des environnements informatiques grâce à l'outil d'utilisation de l'ordinateur, qui offre des capacités de capture d'écran et de contrôle de la souris et du clavier pour une interaction autonome avec le bureau. Sur WebArena, un benchmark de navigation web autonome sur des sites web réels, Claude obtient des résultats à la pointe de la technologie parmi les systèmes à agent unique, démontrant une forte capacité à accomplir des tâches de navigateur en plusieurs étapes de bout en bout.



L'utilisation de l'ordinateur est en version bêta et nécessite un en-tête bêta :

  • "computer-use-2025-11-24" pour Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 et Claude Opus 4.5
  • "computer-use-2025-01-24" pour Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.1 (obsolète), Claude Sonnet 4 (retiré, sauf sur Bedrock et Vertex AI) et Claude Opus 4 (retiré, sauf sur Vertex AI)

Contactez-nous via le formulaire de commentaires pour partager vos retours sur cette fonctionnalité.



Cette fonctionnalité est éligible à la Zero Data Retention (ZDR). Lorsque votre organisation dispose d'un accord ZDR, les données envoyées via cette fonctionnalité ne sont pas stockées après le retour de la réponse de l'API.

Vue d'ensemble

L'utilisation de l'ordinateur est une fonctionnalité bêta qui permet à Claude d'interagir avec des environnements de bureau. Cet outil fournit :

  • Capture d'écran : Voir ce qui est actuellement affiché à l'écran
  • Contrôle de la souris : Cliquer, faire glisser et déplacer le curseur
  • Saisie au clavier : Taper du texte et utiliser des raccourcis clavier
  • Automatisation du bureau : Interagir avec n'importe quelle application ou interface

Bien que l'utilisation de l'ordinateur puisse être complétée par d'autres outils tels que bash et l'éditeur de texte pour des flux de travail d'automatisation plus complets, l'utilisation de l'ordinateur fait spécifiquement référence à la capacité de l'outil d'utilisation de l'ordinateur à voir et contrôler des environnements de bureau.

Pour la prise en charge des modèles, consultez la Référence des outils.

Considérations de sécurité

L'utilisation de l'ordinateur est une fonctionnalité bêta présentant des risques uniques, distincts des fonctionnalités standard de l'API. Ces risques sont accrus lors de l'interaction avec Internet.



Pour minimiser les risques, envisagez de prendre des précautions telles que :

  1. Utiliser une machine virtuelle ou un conteneur dédié avec des privilèges minimaux pour prévenir les attaques directes sur le système ou les accidents.
  2. Éviter de donner au modèle l'accès à des données sensibles, telles que les informations de connexion à des comptes, pour prévenir le vol d'informations.
  3. Limiter l'accès à Internet à une liste d'autorisation de domaines pour réduire l'exposition à du contenu malveillant.
  4. Demander à un humain de confirmer les décisions qui pourraient entraîner des conséquences significatives dans le monde réel et toute tâche nécessitant un consentement affirmatif, comme accepter des cookies, effectuer des transactions financières ou accepter des conditions d'utilisation.

Dans certaines circonstances, Claude suivra des commandes trouvées dans le contenu même si elles entrent en conflit avec les instructions de l'utilisateur. Par exemple, des instructions à Claude présentes sur des pages web ou contenues dans des images pourraient remplacer les instructions ou amener Claude à commettre des erreurs. Prenez des précautions pour isoler Claude des données et actions sensibles afin d'éviter les risques liés à l'injection de prompts.

Anthropic a entraîné le modèle à résister à ces injections de prompts et a ajouté une couche de défense supplémentaire. Si vous utilisez les outils d'utilisation de l'ordinateur, des classificateurs s'exécuteront automatiquement sur vos prompts pour signaler les cas potentiels d'injections de prompts. Lorsque ces classificateurs identifient des injections de prompts potentielles dans les captures d'écran, ils orienteront automatiquement le modèle pour qu'il demande une confirmation de l'utilisateur avant de procéder à l'action suivante. Cette protection supplémentaire ne sera pas idéale pour tous les cas d'usage (par exemple, les cas d'usage sans humain dans la boucle), donc si vous souhaitez vous désinscrire et la désactiver, contactez le support.

Ces précautions restent importantes même avec la couche de défense des classificateurs en place.

Informez les utilisateurs finaux des risques pertinents et obtenez leur consentement avant d'activer l'utilisation de l'ordinateur dans vos propres produits.


Implémentation de référence pour l'utilisation de l'ordinateur


Démarrez avec l'implémentation de référence pour l'utilisation de l'ordinateur qui inclut une interface web, un conteneur Docker, des exemples d'implémentations d'outils et une boucle d'agent.

Démarrage rapide

Voici comment démarrer avec l'utilisation de l'ordinateur :

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",  # or another compatible model
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2025-11-24"],
)
print(response)


Un en-tête bêta n'est requis que pour l'outil d'utilisation de l'ordinateur.

L'exemple précédent montre les trois outils utilisés ensemble, ce qui nécessite l'en-tête bêta car il inclut l'outil d'utilisation de l'ordinateur.


Fonctionnement de l'utilisation de l'ordinateur

  1. 1

    Fournir à Claude l'outil d'utilisation de l'ordinateur et un prompt utilisateur

    • Ajoutez l'outil d'utilisation de l'ordinateur (et éventuellement d'autres outils) à votre requête API.
    • Incluez un prompt utilisateur qui nécessite une interaction avec le bureau, par exemple : « Enregistre une image de chat sur mon bureau. »
  2. 2

    Claude sélectionne l'outil d'utilisation de l'ordinateur

    • Claude évalue si l'outil d'utilisation de l'ordinateur peut aider à répondre à la requête de l'utilisateur.
    • Si oui, Claude construit une requête d'utilisation d'outils correctement formatée.
    • La réponse de l'API a un stop_reason de tool_use, signalant une requête d'utilisation d'outils.
  3. 3

    Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et renvoyer les résultats

    • De votre côté, extrayez le nom de l'outil et l'entrée de la requête de Claude.
    • Utilisez l'outil sur un conteneur ou une machine virtuelle.
    • Poursuivez la conversation avec un nouveau message user contenant un bloc de contenu tool_result.
  4. 4

    Claude continue d'appeler les outils d'utilisation de l'ordinateur jusqu'à ce qu'il ait terminé la tâche

    • Claude analyse les résultats de l'outil pour déterminer si une utilisation d'outils supplémentaire est nécessaire ou si la tâche a été accomplie.
    • Si Claude détermine qu'un autre outil est nécessaire, il répond avec un autre stop_reason de tool_use et vous devez revenir à l'étape 3.
    • Sinon, il rédige une réponse textuelle pour l'utilisateur.

La répétition des étapes 3 et 4 sans intervention de l'utilisateur est appelée « boucle d'agent » (c'est-à-dire que Claude répond avec une requête d'utilisation d'outils et votre application répond à Claude avec les résultats de l'évaluation de cette requête).

L'environnement informatique

L'utilisation de l'ordinateur nécessite un environnement informatique isolé (sandbox) où Claude peut interagir en toute sécurité avec des applications et le web. Cet environnement comprend :

  1. Affichage virtuel : Un serveur d'affichage X11 virtuel (utilisant Xvfb) qui rend l'interface de bureau que Claude verra à travers des captures d'écran et contrôlera avec des actions de souris et de clavier.

  2. Environnement de bureau : Une interface utilisateur légère avec un gestionnaire de fenêtres (Mutter) et un panneau (Tint2) fonctionnant sous Linux, qui fournit une interface graphique cohérente avec laquelle Claude peut interagir.

  3. Applications : Des applications Linux préinstallées telles que Firefox, LibreOffice, des éditeurs de texte et des gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.

  4. Implémentations d'outils : Du code d'intégration qui traduit les requêtes d'outils abstraites de Claude (telles que « déplacer la souris » ou « prendre une capture d'écran ») en opérations réelles dans l'environnement virtuel.

  5. Boucle d'agent : Un programme qui gère la communication entre Claude et l'environnement, envoyant les actions de Claude à l'environnement et renvoyant les résultats (captures d'écran, sorties de commandes) à Claude.

Lorsque vous utilisez l'utilisation de l'ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :

  1. Reçoit les requêtes d'utilisation d'outils de Claude
  2. Les traduit en actions dans votre environnement informatique
  3. Capture les résultats (tels que les captures d'écran et les sorties de commandes)
  4. Renvoie ces résultats à Claude

Pour des raisons de sécurité et d'isolation, l'implémentation de référence exécute tout cela à l'intérieur d'un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l'environnement.


Comment implémenter l'utilisation de l'ordinateur

Commencer avec l'implémentation de référence

Une implémentation de référence est disponible et inclut tout ce dont vous avez besoin pour démarrer avec l'utilisation de l'ordinateur :

  • Un environnement conteneurisé adapté à l'utilisation de l'ordinateur avec Claude
  • Des implémentations des outils d'utilisation de l'ordinateur
  • Une boucle d'agent qui interagit avec l'API Claude et exécute les outils d'utilisation de l'ordinateur
  • Une interface web pour interagir avec le conteneur, la boucle d'agent et les outils.

Comprendre la boucle agentique

Le cœur de l'utilisation de l'ordinateur est la « boucle d'agent » : un cycle où Claude demande des actions d'outils, votre application les exécute et renvoie les résultats à Claude. Voici un exemple simplifié :

La boucle continue jusqu'à ce que Claude réponde sans demander d'outils (achèvement de la tâche) ou que la limite maximale d'itérations soit atteinte. Cette protection empêche les boucles infinies potentielles qui pourraient entraîner des coûts d'API inattendus.

Essayez l'implémentation de référence avant de lire le reste de cette documentation.

Optimiser les performances du modèle avec le prompting

Voici quelques conseils pour obtenir des résultats de la meilleure qualité :

  1. Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
  2. Claude suppose parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour éviter cela, vous pouvez donner à Claude le prompt suivant : After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.
  3. Certains éléments d'interface utilisateur (tels que les listes déroulantes et les barres de défilement) peuvent être difficiles à manipuler pour Claude à l'aide de mouvements de souris. Si vous rencontrez ce problème, essayez de demander au modèle d'utiliser des raccourcis clavier.
  4. Pour les tâches répétables ou les interactions d'interface utilisateur, incluez des exemples de captures d'écran et d'appels d'outils de résultats réussis dans votre prompt.
  5. Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d'utilisateur et le mot de passe dans votre prompt à l'intérieur de balises XML telles que <robot_credentials>. L'utilisation de l'ordinateur dans des applications nécessitant une connexion augmente le risque de mauvais résultats en raison de l'injection de prompts. Consultez Atténuer les jailbreaks et les injections de prompts avant de fournir au modèle des identifiants de connexion.
  6. Lors de la construction du tableau content d'un tour utilisateur, placez le texte d'instruction avant l'image de capture d'écran. Fournir la description de la cible avant que l'image ne soit traitée améliore la précision des clics.
  7. Lors de l'utilisation de computer_20251124 avec enable_zoom: true défini, Claude zoome sur une région lorsqu'on lui pose des questions sur du petit texte ou des éléments d'interface utilisateur spécifiques qui ne sont pas lisibles à la résolution par défaut de la capture d'écran, tels que les noms de fichiers dans une barre latérale, les titres d'onglets, le texte de la barre d'état, les numéros de ligne ou les libellés de boutons. Si Claude ne zoome pas alors que vous vous y attendez, posez une question sur une région ou un élément spécifique plutôt que sur l'écran dans son ensemble.


Si vous rencontrez de manière répétée un ensemble clair de problèmes ou si vous connaissez à l'avance les tâches que Claude devra accomplir, utilisez l'invite système pour fournir à Claude des conseils ou des instructions explicites sur la façon d'accomplir les tâches avec succès.



Pour les agents qui s'étendent sur plusieurs sessions, exécutez une vérification de bout en bout au début de chaque session, et pas seulement après l'implémentation. Les vérifications basées sur le navigateur détectent les régressions des sessions précédentes que la revue de code seule ne détecte pas. Consultez Effective harnesses for long-running agents pour plus de détails.

Invites système

Lorsqu'un des outils de schéma Anthropic est demandé via l'API Claude, une invite système spécifique à l'utilisation de l'ordinateur est générée. Elle est similaire à l'invite système d'utilisation d'outils mais commence par :

You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.

Comme pour l'utilisation d'outils classique, le champ system_prompt fourni par l'utilisateur est toujours respecté et utilisé dans la construction de l'invite système combinée.

Actions disponibles

L'outil d'utilisation de l'ordinateur prend en charge ces actions :

Actions de base (toutes les versions)

  • screenshot : Capturer l'affichage actuel
  • left_click : Cliquer aux coordonnées [x, y]
  • type : Taper une chaîne de texte
  • key : Appuyer sur une touche ou une combinaison de touches (par exemple, "ctrl+s")
  • mouse_move : Déplacer le curseur vers des coordonnées

Actions améliorées (computer_20250124) Disponibles sur tous les modèles qui prennent en charge l'utilisation de l'ordinateur :

  • scroll : Faire défiler dans n'importe quelle direction avec contrôle de la quantité
  • left_click_drag : Cliquer et faire glisser entre des coordonnées
  • right_click, middle_click : Boutons de souris supplémentaires
  • double_click, triple_click : Clics multiples
  • left_mouse_down, left_mouse_up : Contrôle fin des clics
  • hold_key : Maintenir une touche enfoncée pendant une durée spécifiée (en secondes)
  • wait : Pause entre les actions

Actions améliorées (computer_20251124) Disponibles dans Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 et Claude Opus 4.5 :

  • Toutes les actions de computer_20250124
  • zoom : Afficher une région spécifique de l'écran en pleine résolution. Nécessite enable_zoom: true dans la définition de l'outil. Prend un paramètre region avec les coordonnées [x1, y1, x2, y2] définissant les coins supérieur gauche et inférieur droit de la zone à inspecter.

Paramètres de l'outil

ParamètreRequisDescription
typeOuiVersion de l'outil (computer_20251124 ou computer_20250124)
nameOuiDoit être "computer"
display_width_pxOuiLargeur de l'affichage en pixels
display_height_pxOuiHauteur de l'affichage en pixels
display_numberNonNuméro d'affichage pour les environnements X11
enable_zoomNonActiver l'action de zoom (computer_20251124 uniquement). Définissez sur true pour permettre à Claude de zoomer sur des régions spécifiques de l'écran. Par défaut : false


Important : Votre application doit exécuter explicitement l'outil d'utilisation de l'ordinateur ; Claude ne peut pas l'exécuter directement. Vous êtes responsable de l'implémentation de la capture d'écran, des mouvements de souris, des saisies au clavier et des autres actions en fonction des requêtes de Claude.

Combinaison avec la réflexion étendue

Pour combiner l'utilisation de l'ordinateur avec la réflexion étendue, consultez Réflexion étendue.



Pour l'utilisation de l'ordinateur spécifiquement, les benchmarks internes suggèrent ces paramètres effort :

  • Claude Opus 4.7 : utilisez high par défaut ; utilisez low pour les charges de travail à haut débit ou sensibles aux coûts.
  • Claude Sonnet 4.6 et Claude Opus 4.6 : utilisez medium par défaut (meilleur rapport précision/coût). Évitez max, qui ajoute un coût en tokens sans améliorer la précision sur les tâches d'interface utilisateur. Sur ces modèles, low utilise moins de tokens de sortie que la désactivation complète de la réflexion (moins d'erreurs signifie moins de nouvelles tentatives), ce qui en fait une option solide pour les boucles sensibles aux coûts.

Compléter l'utilisation de l'ordinateur avec d'autres outils

Pour ajouter d'autres outils aux côtés de l'utilisation de l'ordinateur, incluez-les dans le même tableau tools. La section Démarrage rapide montre ce modèle avec l'outil bash et l'outil d'éditeur de texte. Vous pouvez ajouter vos propres définitions d'outils personnalisés de la même manière.

Créer un environnement d'utilisation de l'ordinateur personnalisé

L'implémentation de référence est destinée à vous aider à démarrer avec l'utilisation de l'ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez créer votre propre environnement pour l'utilisation de l'ordinateur selon vos besoins. Vous aurez besoin de :

  • Un environnement virtualisé ou conteneurisé adapté à l'utilisation de l'ordinateur avec Claude
  • Une implémentation d'au moins un des outils d'utilisation de l'ordinateur de schéma Anthropic
  • Une boucle d'agent qui interagit avec l'API Claude et exécute les résultats tool_use en utilisant vos implémentations d'outils
  • Une API ou une interface utilisateur qui permet la saisie utilisateur pour démarrer la boucle d'agent

Implémenter l'outil d'utilisation de l'ordinateur

L'outil d'utilisation de l'ordinateur est implémenté comme un outil sans schéma. Lorsque vous utilisez cet outil, vous n'avez pas besoin de fournir un schéma d'entrée comme avec d'autres outils ; le schéma est intégré au modèle de Claude et ne peut pas être modifié.

  1. 1

    Configurer votre environnement informatique

    Créez un affichage virtuel ou connectez-vous à un affichage existant avec lequel Claude interagira. Cela implique généralement de configurer Xvfb (X Virtual Framebuffer) ou une technologie similaire.

  2. 2

    Implémenter les gestionnaires d'actions

    Créez des fonctions pour gérer chaque type d'action que Claude pourrait demander :

  3. 3

    Traiter les appels d'outils de Claude

    Extrayez et exécutez les appels d'outils à partir des réponses de Claude :

  4. 4

    Implémenter la boucle d'agent

    Créez une boucle qui continue jusqu'à ce que Claude termine la tâche :

Gérer les erreurs

Lors de l'implémentation de l'outil d'utilisation de l'ordinateur, diverses erreurs peuvent survenir. Voici comment les gérer :

Dimensionner les captures d'écran pour respecter les limites d'image

Les captures d'écran envoyées à l'outil d'utilisation de l'ordinateur doivent déjà respecter les limites de taille d'image de Claude (voir limites de taille d'image). L'API ne redimensionne pas les images surdimensionnées ; une capture d'écran qui dépasse la limite est rejetée avec une erreur de validation HTTP 400.



Les limites varient selon le modèle. Claude Opus 4.8 et Claude Opus 4.7 acceptent jusqu'à 2576 pixels sur le bord long ; les modèles antérieurs acceptent jusqu'à 1568 pixels sur le bord long et environ 1,15 mégapixels au total. L'exemple suivant utilise les limites des modèles antérieurs de 1568 px / 1,15 MP ; substituez la limite de votre modèle.

Si votre écran est plus grand que la limite, redimensionnez la capture d'écran avant de l'envoyer, définissez display_width_px/display_height_px aux dimensions redimensionnées, et remettez à l'échelle les coordonnées renvoyées par Claude vers l'espace d'écran d'origine :



Les écrans Retina macOS capturent des captures d'écran avec un ratio de pixels de périphérique de 2, donc l'image a une résolution deux fois supérieure aux coordonnées logiques de l'écran. Soit réduisez la capture d'écran de 2x avant de l'envoyer, soit divisez par deux les coordonnées renvoyées par Claude avant d'effectuer le clic.

Diagnostiquer les problèmes de clic

Si les clics manquent leurs cibles, la cause est généralement l'une des suivantes :

SymptômeCause probableEssayez
Clics systématiquement décalés dans une directiondisplay_width_px/display_height_px ne correspondent pas aux dimensions de l'image réellement envoyéeAssurez-vous que les dimensions d'affichage correspondent exactement à la capture d'écran que vous envoyez
Les clics atterrissent dans la bonne zone mais manquent la cibleLa cible est très petite, des détails ont été perdus lors de la réduction d'une source 4K+, ou le rapport d'aspect a été déforméDéfinissez enable_zoom: true ; capturez à un DPI inférieur ou recadrez sur la région pertinente ; préservez le rapport d'aspect lors du redimensionnement
Claude clique sur le mauvais élémentInstruction ambiguë, ou éléments visuellement similaires à proximitéUtilisez des prompts positionnels (« le bouton bleu Submit en bas à droite ») ; décomposez l'interaction en étapes plus petites
La précision est systématiquement médiocreRésolution trop faibleEssayez 1280x720 comme référence


Le choix du modèle affecte la précision des clics. Claude Sonnet 4.6 est mécaniquement plus précis pour cliquer que Claude Opus 4.6 et est plus robuste lorsque les captures d'écran nécessitent une forte réduction. Claude Opus 4.7 réduit cet écart : sa précision de clic est à peu près comparable à celle de Sonnet 4.6, et sa limite de résolution plus élevée signifie que moins de réduction est nécessaire.

Suivre les bonnes pratiques d'implémentation


Comprendre les limitations de l'utilisation de l'ordinateur

La fonctionnalité d'utilisation de l'ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :

  1. Latence : La « latency » (latence) actuelle de l'utilisation de l'ordinateur pour les interactions humain-IA peut être trop lente par rapport aux actions informatiques habituelles dirigées par un humain. Concentrez-vous sur les cas d'usage où la vitesse n'est pas critique (par exemple, la collecte d'informations en arrière-plan, les tests logiciels automatisés) dans des environnements de confiance.
  2. Précision et fiabilité de la vision par ordinateur : Claude peut commettre des erreurs ou halluciner lors de la génération de coordonnées spécifiques pendant la production d'actions. La réflexion étendue peut vous aider à comprendre le raisonnement du modèle et à identifier les problèmes potentiels.
  3. Précision et fiabilité de la sélection d'outils : Claude peut commettre des erreurs ou halluciner lors de la sélection d'outils pendant la génération d'actions, ou entreprendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être moindre lors de l'interaction avec des applications de niche ou plusieurs applications simultanément. Formulez soigneusement vos prompts au modèle lorsque vous demandez des tâches complexes.
  4. Fiabilité du défilement : L'action de défilement prend en charge le contrôle de la direction (haut, bas, gauche, droite) et une quantité spécifiée. Dans les applications où le défilement ne prend pas effet, des alternatives au clavier telles que Page suivante peuvent aider.
  5. Interaction avec les feuilles de calcul : Utilisez les actions de contrôle précis de la souris (left_mouse_down, left_mouse_up) et les combinaisons de touches de modification pour sélectionner des cellules individuelles. Les opérations complexes sur les feuilles de calcul peuvent néanmoins nécessiter plusieurs tentatives.
  6. Création de comptes et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visite des sites web, sa capacité à créer des comptes, à générer et partager du contenu, ou à se livrer d'une autre manière à l'usurpation d'identité humaine sur les sites web et plateformes de réseaux sociaux est limitée. Cette capacité pourra être mise à jour à l'avenir.
  7. Vulnérabilités : Des vulnérabilités telles que le « jailbreaking » (contournement des restrictions) ou l'injection de prompts peuvent persister dans les systèmes d'IA de pointe, y compris l'API bêta d'utilisation de l'ordinateur. Dans certaines circonstances, Claude suivra des commandes trouvées dans le contenu, parfois même en contradiction avec les instructions de l'utilisateur. Par exemple, des instructions destinées à Claude présentes sur des pages web ou contenues dans des images peuvent supplanter les instructions ou amener Claude à commettre des erreurs. Envisagez les mesures suivantes : a. Limiter l'utilisation de l'ordinateur à des environnements de confiance tels que des machines virtuelles ou des conteneurs avec des privilèges minimaux b. Éviter de donner à l'utilisation de l'ordinateur l'accès à des comptes ou données sensibles sans supervision stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d'activer ou de demander les autorisations nécessaires aux fonctionnalités d'utilisation de l'ordinateur dans vos applications
  8. Actions inappropriées ou illégales : Conformément aux Conditions d'utilisation d'Anthropic, vous ne devez pas employer l'utilisation de l'ordinateur pour enfreindre des lois ou la Politique d'utilisation acceptable.

Examinez et vérifiez toujours attentivement les actions et les journaux d'utilisation de l'ordinateur de Claude. N'utilisez pas Claude pour des tâches nécessitant une précision parfaite ou impliquant des informations utilisateur sensibles sans supervision humaine.

Conservation des données

L'utilisation de l'ordinateur est un outil côté client. Toutes les captures d'écran, actions de souris, saisies au clavier et tous les fichiers impliqués dans une session sont capturés et stockés dans votre environnement, et non par Anthropic. Anthropic traite les images de capture d'écran et les requêtes d'action en temps réel dans le cadre de l'appel API, mais ne les conserve pas une fois la réponse renvoyée.

Étant donné que votre application contrôle où et comment les données d'utilisation de l'ordinateur sont stockées, l'utilisation de l'ordinateur est éligible au ZDR. Pour l'éligibilité au ZDR sur l'ensemble des fonctionnalités, consultez API et conservation des données.

Tarification

L'utilisation de l'ordinateur suit la tarification standard de l'utilisation d'outils. Lors de l'utilisation de l'outil d'utilisation de l'ordinateur :

Surcharge de l'invite système : la version bêta de l'utilisation de l'ordinateur ajoute 466 à 499 tokens à l'invite système

Consommation de tokens de l'outil d'utilisation de l'ordinateur :

ModèleTokens d'entrée par définition d'outil
Modèles Claude 4.x735 tokens

Consommation de tokens supplémentaire :

  • Images de captures d'écran (voir la tarification Vision)
  • Résultats d'exécution d'outils renvoyés à Claude


Si vous utilisez également les outils bash ou d'éditeur de texte en parallèle de l'utilisation de l'ordinateur, ces outils ont leurs propres coûts en tokens, comme documenté dans leurs pages respectives.

Étapes suivantes


Outil d'éditeur de texte

Passez à l'outil suivant : visualisez, créez et modifiez des fichiers avec Claude

Implémentation de référence


Démarrez avec l'implémentation complète basée sur Docker


Documentation sur les outils

Apprenez-en davantage sur l'utilisation d'outils et la création d'outils personnalisés

Bonnes pratiques en détail


Recommandations évaluées par benchmark pour la résolution, l'effort de réflexion et la gestion du contexte

Was this page helpful?

  • Vue d'ensemble
  • Considérations de sécurité
  • Démarrage rapide
  • Fonctionnement de l'utilisation de l'ordinateur
  • L'environnement informatique
  • Comment implémenter l'utilisation de l'ordinateur
  • Commencer avec l'implémentation de référence
  • Comprendre la boucle agentique
  • Optimiser les performances du modèle avec le prompting
  • Invites système
  • Actions disponibles
  • Paramètres de l'outil
  • Combinaison avec la réflexion étendue
  • Compléter l'utilisation de l'ordinateur avec d'autres outils
  • Créer un environnement d'utilisation de l'ordinateur personnalisé
  • Comprendre les limitations de l'utilisation de l'ordinateur
  • Conservation des données
  • Tarification
  • Étapes suivantes