Claude peut interagir avec des environnements informatiques grâce à l'outil d'utilisation de l'ordinateur, qui offre des capacités de capture d'écran et de contrôle de la souris et du clavier pour une interaction autonome avec le bureau. Sur WebArena, un benchmark de navigation web autonome sur des sites web réels, Claude obtient des résultats à la pointe de la technologie parmi les systèmes à agent unique, démontrant une forte capacité à accomplir des tâches de navigateur en plusieurs étapes de bout en bout.
L'utilisation de l'ordinateur est en version bêta et nécessite un en-tête bêta :
"computer-use-2025-11-24" pour Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 et Claude Opus 4.5"computer-use-2025-01-24" pour Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.1 (obsolète), Claude Sonnet 4 (retiré, sauf sur Bedrock et Vertex AI) et Claude Opus 4 (retiré, sauf sur Vertex AI)Contactez-nous via le formulaire de commentaires pour partager vos retours sur cette fonctionnalité.
Cette fonctionnalité est éligible à la Zero Data Retention (ZDR). Lorsque votre organisation dispose d'un accord ZDR, les données envoyées via cette fonctionnalité ne sont pas stockées après le retour de la réponse de l'API.
L'utilisation de l'ordinateur est une fonctionnalité bêta qui permet à Claude d'interagir avec des environnements de bureau. Cet outil fournit :
Bien que l'utilisation de l'ordinateur puisse être complétée par d'autres outils tels que bash et l'éditeur de texte pour des flux de travail d'automatisation plus complets, l'utilisation de l'ordinateur fait spécifiquement référence à la capacité de l'outil d'utilisation de l'ordinateur à voir et contrôler des environnements de bureau.
Pour la prise en charge des modèles, consultez la Référence des outils.
L'utilisation de l'ordinateur est une fonctionnalité bêta présentant des risques uniques, distincts des fonctionnalités standard de l'API. Ces risques sont accrus lors de l'interaction avec Internet.
Pour minimiser les risques, envisagez de prendre des précautions telles que :
Dans certaines circonstances, Claude suivra des commandes trouvées dans le contenu même si elles entrent en conflit avec les instructions de l'utilisateur. Par exemple, des instructions à Claude présentes sur des pages web ou contenues dans des images pourraient remplacer les instructions ou amener Claude à commettre des erreurs. Prenez des précautions pour isoler Claude des données et actions sensibles afin d'éviter les risques liés à l'injection de prompts.
Anthropic a entraîné le modèle à résister à ces injections de prompts et a ajouté une couche de défense supplémentaire. Si vous utilisez les outils d'utilisation de l'ordinateur, des classificateurs s'exécuteront automatiquement sur vos prompts pour signaler les cas potentiels d'injections de prompts. Lorsque ces classificateurs identifient des injections de prompts potentielles dans les captures d'écran, ils orienteront automatiquement le modèle pour qu'il demande une confirmation de l'utilisateur avant de procéder à l'action suivante. Cette protection supplémentaire ne sera pas idéale pour tous les cas d'usage (par exemple, les cas d'usage sans humain dans la boucle), donc si vous souhaitez vous désinscrire et la désactiver, contactez le support.
Ces précautions restent importantes même avec la couche de défense des classificateurs en place.
Informez les utilisateurs finaux des risques pertinents et obtenez leur consentement avant d'activer l'utilisation de l'ordinateur dans vos propres produits.
Démarrez avec l'implémentation de référence pour l'utilisation de l'ordinateur qui inclut une interface web, un conteneur Docker, des exemples d'implémentations d'outils et une boucle d'agent.
Voici comment démarrer avec l'utilisation de l'ordinateur :
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-8", # or another compatible model
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
betas=["computer-use-2025-11-24"],
)
print(response)Un en-tête bêta n'est requis que pour l'outil d'utilisation de l'ordinateur.
L'exemple précédent montre les trois outils utilisés ensemble, ce qui nécessite l'en-tête bêta car il inclut l'outil d'utilisation de l'ordinateur.
Fournir à Claude l'outil d'utilisation de l'ordinateur et un prompt utilisateur
Claude sélectionne l'outil d'utilisation de l'ordinateur
stop_reason de tool_use, signalant une requête d'utilisation d'outils.Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et renvoyer les résultats
user contenant un bloc de contenu tool_result.Claude continue d'appeler les outils d'utilisation de l'ordinateur jusqu'à ce qu'il ait terminé la tâche
stop_reason de tool_use et vous devez revenir à l'étape 3.La répétition des étapes 3 et 4 sans intervention de l'utilisateur est appelée « boucle d'agent » (c'est-à-dire que Claude répond avec une requête d'utilisation d'outils et votre application répond à Claude avec les résultats de l'évaluation de cette requête).
L'utilisation de l'ordinateur nécessite un environnement informatique isolé (sandbox) où Claude peut interagir en toute sécurité avec des applications et le web. Cet environnement comprend :
Affichage virtuel : Un serveur d'affichage X11 virtuel (utilisant Xvfb) qui rend l'interface de bureau que Claude verra à travers des captures d'écran et contrôlera avec des actions de souris et de clavier.
Environnement de bureau : Une interface utilisateur légère avec un gestionnaire de fenêtres (Mutter) et un panneau (Tint2) fonctionnant sous Linux, qui fournit une interface graphique cohérente avec laquelle Claude peut interagir.
Applications : Des applications Linux préinstallées telles que Firefox, LibreOffice, des éditeurs de texte et des gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.
Implémentations d'outils : Du code d'intégration qui traduit les requêtes d'outils abstraites de Claude (telles que « déplacer la souris » ou « prendre une capture d'écran ») en opérations réelles dans l'environnement virtuel.
Boucle d'agent : Un programme qui gère la communication entre Claude et l'environnement, envoyant les actions de Claude à l'environnement et renvoyant les résultats (captures d'écran, sorties de commandes) à Claude.
Lorsque vous utilisez l'utilisation de l'ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :
Pour des raisons de sécurité et d'isolation, l'implémentation de référence exécute tout cela à l'intérieur d'un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l'environnement.
Une implémentation de référence est disponible et inclut tout ce dont vous avez besoin pour démarrer avec l'utilisation de l'ordinateur :
Le cœur de l'utilisation de l'ordinateur est la « boucle d'agent » : un cycle où Claude demande des actions d'outils, votre application les exécute et renvoie les résultats à Claude. Voici un exemple simplifié :
La boucle continue jusqu'à ce que Claude réponde sans demander d'outils (achèvement de la tâche) ou que la limite maximale d'itérations soit atteinte. Cette protection empêche les boucles infinies potentielles qui pourraient entraîner des coûts d'API inattendus.
Essayez l'implémentation de référence avant de lire le reste de cette documentation.
Voici quelques conseils pour obtenir des résultats de la meilleure qualité :
After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.<robot_credentials>. L'utilisation de l'ordinateur dans des applications nécessitant une connexion augmente le risque de mauvais résultats en raison de l'injection de prompts. Consultez Atténuer les jailbreaks et les injections de prompts avant de fournir au modèle des identifiants de connexion.content d'un tour utilisateur, placez le texte d'instruction avant l'image de capture d'écran. Fournir la description de la cible avant que l'image ne soit traitée améliore la précision des clics.computer_20251124 avec enable_zoom: true défini, Claude zoome sur une région lorsqu'on lui pose des questions sur du petit texte ou des éléments d'interface utilisateur spécifiques qui ne sont pas lisibles à la résolution par défaut de la capture d'écran, tels que les noms de fichiers dans une barre latérale, les titres d'onglets, le texte de la barre d'état, les numéros de ligne ou les libellés de boutons. Si Claude ne zoome pas alors que vous vous y attendez, posez une question sur une région ou un élément spécifique plutôt que sur l'écran dans son ensemble.Si vous rencontrez de manière répétée un ensemble clair de problèmes ou si vous connaissez à l'avance les tâches que Claude devra accomplir, utilisez l'invite système pour fournir à Claude des conseils ou des instructions explicites sur la façon d'accomplir les tâches avec succès.
Pour les agents qui s'étendent sur plusieurs sessions, exécutez une vérification de bout en bout au début de chaque session, et pas seulement après l'implémentation. Les vérifications basées sur le navigateur détectent les régressions des sessions précédentes que la revue de code seule ne détecte pas. Consultez Effective harnesses for long-running agents pour plus de détails.
Lorsqu'un des outils de schéma Anthropic est demandé via l'API Claude, une invite système spécifique à l'utilisation de l'ordinateur est générée. Elle est similaire à l'invite système d'utilisation d'outils mais commence par :
You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.
Comme pour l'utilisation d'outils classique, le champ system_prompt fourni par l'utilisateur est toujours respecté et utilisé dans la construction de l'invite système combinée.
L'outil d'utilisation de l'ordinateur prend en charge ces actions :
Actions de base (toutes les versions)
[x, y]Actions améliorées (computer_20250124)
Disponibles sur tous les modèles qui prennent en charge l'utilisation de l'ordinateur :
Actions améliorées (computer_20251124)
Disponibles dans Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 et Claude Opus 4.5 :
computer_20250124enable_zoom: true dans la définition de l'outil. Prend un paramètre region avec les coordonnées [x1, y1, x2, y2] définissant les coins supérieur gauche et inférieur droit de la zone à inspecter.| Paramètre | Requis | Description |
|---|---|---|
type | Oui | Version de l'outil (computer_20251124 ou computer_20250124) |
name | Oui | Doit être "computer" |
display_width_px | Oui | Largeur de l'affichage en pixels |
display_height_px | Oui | Hauteur de l'affichage en pixels |
display_number | Non | Numéro d'affichage pour les environnements X11 |
enable_zoom | Non | Activer l'action de zoom (computer_20251124 uniquement). Définissez sur true pour permettre à Claude de zoomer sur des régions spécifiques de l'écran. Par défaut : false |
Important : Votre application doit exécuter explicitement l'outil d'utilisation de l'ordinateur ; Claude ne peut pas l'exécuter directement. Vous êtes responsable de l'implémentation de la capture d'écran, des mouvements de souris, des saisies au clavier et des autres actions en fonction des requêtes de Claude.
Pour combiner l'utilisation de l'ordinateur avec la réflexion étendue, consultez Réflexion étendue.
Pour l'utilisation de l'ordinateur spécifiquement, les benchmarks internes suggèrent ces paramètres effort :
high par défaut ; utilisez low pour les charges de travail à haut débit ou sensibles aux coûts.medium par défaut (meilleur rapport précision/coût). Évitez max, qui ajoute un coût en tokens sans améliorer la précision sur les tâches d'interface utilisateur. Sur ces modèles, low utilise moins de tokens de sortie que la désactivation complète de la réflexion (moins d'erreurs signifie moins de nouvelles tentatives), ce qui en fait une option solide pour les boucles sensibles aux coûts.Pour ajouter d'autres outils aux côtés de l'utilisation de l'ordinateur, incluez-les dans le même tableau tools. La section Démarrage rapide montre ce modèle avec l'outil bash et l'outil d'éditeur de texte. Vous pouvez ajouter vos propres définitions d'outils personnalisés de la même manière.
L'implémentation de référence est destinée à vous aider à démarrer avec l'utilisation de l'ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez créer votre propre environnement pour l'utilisation de l'ordinateur selon vos besoins. Vous aurez besoin de :
tool_use en utilisant vos implémentations d'outilsL'outil d'utilisation de l'ordinateur est implémenté comme un outil sans schéma. Lorsque vous utilisez cet outil, vous n'avez pas besoin de fournir un schéma d'entrée comme avec d'autres outils ; le schéma est intégré au modèle de Claude et ne peut pas être modifié.
Configurer votre environnement informatique
Créez un affichage virtuel ou connectez-vous à un affichage existant avec lequel Claude interagira. Cela implique généralement de configurer Xvfb (X Virtual Framebuffer) ou une technologie similaire.
Implémenter les gestionnaires d'actions
Créez des fonctions pour gérer chaque type d'action que Claude pourrait demander :
Traiter les appels d'outils de Claude
Extrayez et exécutez les appels d'outils à partir des réponses de Claude :
Implémenter la boucle d'agent
Créez une boucle qui continue jusqu'à ce que Claude termine la tâche :
Lors de l'implémentation de l'outil d'utilisation de l'ordinateur, diverses erreurs peuvent survenir. Voici comment les gérer :
Les captures d'écran envoyées à l'outil d'utilisation de l'ordinateur doivent déjà respecter les limites de taille d'image de Claude (voir limites de taille d'image). L'API ne redimensionne pas les images surdimensionnées ; une capture d'écran qui dépasse la limite est rejetée avec une erreur de validation HTTP 400.
Les limites varient selon le modèle. Claude Opus 4.8 et Claude Opus 4.7 acceptent jusqu'à 2576 pixels sur le bord long ; les modèles antérieurs acceptent jusqu'à 1568 pixels sur le bord long et environ 1,15 mégapixels au total. L'exemple suivant utilise les limites des modèles antérieurs de 1568 px / 1,15 MP ; substituez la limite de votre modèle.
Si votre écran est plus grand que la limite, redimensionnez la capture d'écran avant de l'envoyer, définissez display_width_px/display_height_px aux dimensions redimensionnées, et remettez à l'échelle les coordonnées renvoyées par Claude vers l'espace d'écran d'origine :
Les écrans Retina macOS capturent des captures d'écran avec un ratio de pixels de périphérique de 2, donc l'image a une résolution deux fois supérieure aux coordonnées logiques de l'écran. Soit réduisez la capture d'écran de 2x avant de l'envoyer, soit divisez par deux les coordonnées renvoyées par Claude avant d'effectuer le clic.
Si les clics manquent leurs cibles, la cause est généralement l'une des suivantes :
| Symptôme | Cause probable | Essayez |
|---|---|---|
| Clics systématiquement décalés dans une direction | display_width_px/display_height_px ne correspondent pas aux dimensions de l'image réellement envoyée | Assurez-vous que les dimensions d'affichage correspondent exactement à la capture d'écran que vous envoyez |
| Les clics atterrissent dans la bonne zone mais manquent la cible | La cible est très petite, des détails ont été perdus lors de la réduction d'une source 4K+, ou le rapport d'aspect a été déformé | Définissez enable_zoom: true ; capturez à un DPI inférieur ou recadrez sur la région pertinente ; préservez le rapport d'aspect lors du redimensionnement |
| Claude clique sur le mauvais élément | Instruction ambiguë, ou éléments visuellement similaires à proximité | Utilisez des prompts positionnels (« le bouton bleu Submit en bas à droite ») ; décomposez l'interaction en étapes plus petites |
| La précision est systématiquement médiocre | Résolution trop faible | Essayez 1280x720 comme référence |
Le choix du modèle affecte la précision des clics. Claude Sonnet 4.6 est mécaniquement plus précis pour cliquer que Claude Opus 4.6 et est plus robuste lorsque les captures d'écran nécessitent une forte réduction. Claude Opus 4.7 réduit cet écart : sa précision de clic est à peu près comparable à celle de Sonnet 4.6, et sa limite de résolution plus élevée signifie que moins de réduction est nécessaire.
La fonctionnalité d'utilisation de l'ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :
left_mouse_down, left_mouse_up) et les combinaisons de touches de modification pour sélectionner des cellules individuelles. Les opérations complexes sur les feuilles de calcul peuvent néanmoins nécessiter plusieurs tentatives.Examinez et vérifiez toujours attentivement les actions et les journaux d'utilisation de l'ordinateur de Claude. N'utilisez pas Claude pour des tâches nécessitant une précision parfaite ou impliquant des informations utilisateur sensibles sans supervision humaine.
L'utilisation de l'ordinateur est un outil côté client. Toutes les captures d'écran, actions de souris, saisies au clavier et tous les fichiers impliqués dans une session sont capturés et stockés dans votre environnement, et non par Anthropic. Anthropic traite les images de capture d'écran et les requêtes d'action en temps réel dans le cadre de l'appel API, mais ne les conserve pas une fois la réponse renvoyée.
Étant donné que votre application contrôle où et comment les données d'utilisation de l'ordinateur sont stockées, l'utilisation de l'ordinateur est éligible au ZDR. Pour l'éligibilité au ZDR sur l'ensemble des fonctionnalités, consultez API et conservation des données.
L'utilisation de l'ordinateur suit la tarification standard de l'utilisation d'outils. Lors de l'utilisation de l'outil d'utilisation de l'ordinateur :
Surcharge de l'invite système : la version bêta de l'utilisation de l'ordinateur ajoute 466 à 499 tokens à l'invite système
Consommation de tokens de l'outil d'utilisation de l'ordinateur :
| Modèle | Tokens d'entrée par définition d'outil |
|---|---|
| Modèles Claude 4.x | 735 tokens |
Consommation de tokens supplémentaire :
Si vous utilisez également les outils bash ou d'éditeur de texte en parallèle de l'utilisation de l'ordinateur, ces outils ont leurs propres coûts en tokens, comme documenté dans leurs pages respectives.
Passez à l'outil suivant : visualisez, créez et modifiez des fichiers avec Claude
Démarrez avec l'implémentation complète basée sur Docker
Apprenez-en davantage sur l'utilisation d'outils et la création d'outils personnalisés
Recommandations évaluées par benchmark pour la résolution, l'effort de réflexion et la gestion du contexte
Was this page helpful?