Loading...
    • Guide du développeur
    • Référence API
    • MCP
    • Ressources
    • Notes de version
    Search...
    ⌘K
    Premiers pas
    Introduction à ClaudeDémarrage rapide
    Modèles et tarification
    Aperçu des modèlesChoisir un modèleNouveautés dans Claude 4.6Guide de migrationDépréciation des modèlesTarification
    Créer avec Claude
    Aperçu des fonctionnalitésUtiliser l'API MessagesGérer les raisons d'arrêtBonnes pratiques de prompting
    Capacités du modèle
    Extended thinkingAdaptive thinkingEffortMode rapide (aperçu de recherche)Sorties structuréesCitationsStreaming de messagesTraitement par lotsSupport PDFRésultats de rechercheSupport multilingueEmbeddingsVision
    Outils
    AperçuComment implémenter l'utilisation d'outilsOutil de recherche webOutil de récupération webOutil d'exécution de codeOutil de mémoireOutil BashOutil Computer useOutil d'éditeur de texte
    Infrastructure d'outils
    Recherche d'outilsAppel d'outils programmatiqueStreaming d'outils à granularité fine
    Gestion du contexte
    Fenêtres de contexteCompactionÉdition du contexteMise en cache des promptsComptage des tokens
    Fichiers et ressources
    API Files
    Agent Skills
    AperçuDémarrage rapideBonnes pratiquesSkills pour l'entrepriseUtiliser Skills avec l'API
    Agent SDK
    AperçuDémarrage rapideSDK TypeScriptTypeScript V2 (aperçu)SDK PythonGuide de migration
    MCP dans l'API
    Connecteur MCPServeurs MCP distants
    Claude sur des plateformes tierces
    Amazon BedrockMicrosoft FoundryVertex AI
    Ingénierie des prompts
    AperçuGénérateur de promptsUtiliser des modèles de promptsAméliorateur de promptsÊtre clair et directUtiliser des exemples (prompting multi-shots)Laisser Claude réfléchir (CoT)Utiliser des balises XMLDonner un rôle à Claude (prompts système)Chaîner des prompts complexesConseils pour le contexte longConseils pour extended thinking
    Tester et évaluer
    Définir les critères de succèsDévelopper des cas de testUtiliser l'outil d'évaluationRéduire la latence
    Renforcer les garde-fous
    Réduire les hallucinationsAugmenter la cohérence des résultatsAtténuer les jailbreaksRefus en streamingRéduire les fuites de promptsGarder Claude dans le rôle
    Administration et surveillance
    Aperçu de l'API AdminRésidence des donnéesEspaces de travailAPI d'utilisation et de coûtsAPI Claude Code AnalyticsZéro rétention de données
    Console
    Log in
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...
    Loading...

    Solutions

    • AI agents
    • Code modernization
    • Coding
    • Customer support
    • Education
    • Financial services
    • Government
    • Life sciences

    Partners

    • Amazon Bedrock
    • Google Cloud's Vertex AI

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Company

    • Anthropic
    • Careers
    • Economic Futures
    • Research
    • News
    • Responsible Scaling Policy
    • Security and compliance
    • Transparency

    Learn

    • Blog
    • Catalog
    • Courses
    • Use cases
    • Connectors
    • Customer stories
    • Engineering at Anthropic
    • Events
    • Powered by Claude
    • Service partners
    • Startups program

    Help and security

    • Availability
    • Status
    • Support
    • Discord

    Terms and policies

    • Privacy policy
    • Responsible disclosure policy
    • Terms of service: Commercial
    • Terms of service: Consumer
    • Usage policy
    Outils

    Outil d'utilisation de l'ordinateur

    Permettez à Claude d'interagir avec des environnements de bureau grâce à des captures d'écran et au contrôle de la souris/du clavier.

    Was this page helpful?

    • Vue d'ensemble
    • Compatibilité des modèles
    • Considérations de sécurité
    • Démarrage rapide
    • Comment fonctionne l'utilisation de l'ordinateur
    • L'environnement informatique
    • Comment implémenter l'utilisation de l'ordinateur
    • Commencer avec l'implémentation de référence
    • Comprendre la boucle multi-agent
    • Optimiser les performances du modèle avec le prompting
    • Prompts système
    • Actions disponibles
    • Paramètres de l'outil
    • Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7
    • Augmenter l'utilisation de l'ordinateur avec d'autres outils
    • Créer un environnement d'utilisation de l'ordinateur personnalisé
    • Comprendre les limitations de l'utilisation de l'ordinateur
    • Conservation des données
    • Tarification
    • Prochaines étapes

    Claude peut interagir avec des environnements informatiques grâce à l'outil d'utilisation de l'ordinateur, qui offre des capacités de capture d'écran et un contrôle de la souris/du clavier pour une interaction autonome avec le bureau. Sur WebArena, un benchmark pour la navigation web autonome sur de vrais sites web, Claude obtient des résultats à l'état de l'art parmi les systèmes à agent unique, démontrant une forte capacité à accomplir des tâches de navigation multi-étapes de bout en bout.

    L'utilisation de l'ordinateur est en version bêta et nécessite un en-tête bêta :

    • "computer-use-2025-11-24" pour Claude Opus 4.6, Claude Sonnet 4.6, Claude Opus 4.5
    • "computer-use-2025-01-24" pour Sonnet 4.5, Haiku 4.5, Opus 4.1, Sonnet 4, Opus 4, et Sonnet 3.7 (déprécié)

    Partagez vos retours sur cette fonctionnalité via le formulaire de feedback.

    This feature is eligible for Zero Data Retention (ZDR). When your organization has a ZDR arrangement, data sent through this feature is not stored after the API response is returned.

    Vue d'ensemble

    L'utilisation de l'ordinateur est une fonctionnalité bêta qui permet à Claude d'interagir avec des environnements de bureau. Cet outil offre :

    • Capture d'écran : Voir ce qui est actuellement affiché à l'écran
    • Contrôle de la souris : Cliquer, faire glisser et déplacer le curseur
    • Saisie au clavier : Taper du texte et utiliser des raccourcis clavier
    • Automatisation du bureau : Interagir avec n'importe quelle application ou interface

    Bien que l'utilisation de l'ordinateur puisse être complétée par d'autres outils comme bash et l'éditeur de texte pour des flux de travail d'automatisation plus complets, l'utilisation de l'ordinateur désigne spécifiquement la capacité de l'outil d'utilisation de l'ordinateur à voir et contrôler les environnements de bureau.

    Compatibilité des modèles

    L'utilisation de l'ordinateur est disponible pour les modèles Claude suivants :

    ModèleVersion de l'outilIndicateur bêta
    Claude Opus 4.6, Claude Sonnet 4.6, Claude Opus 4.5computer_20251124computer-use-2025-11-24
    Tous les autres modèles pris en chargecomputer_20250124computer-use-2025-01-24

    Claude Opus 4.6, Claude Sonnet 4.6 et Claude Opus 4.5 introduisent la version d'outil computer_20251124 avec de nouvelles capacités, notamment l'action de zoom pour l'inspection détaillée de régions de l'écran. Tous les autres modèles (Sonnet 4.5, Haiku 4.5, Sonnet 4, Opus 4, Opus 4.1 et Sonnet 3.7) utilisent la version d'outil computer_20250124.

    Les versions d'outils plus anciennes ne sont pas garanties d'être rétrocompatibles avec les modèles plus récents. Utilisez toujours la version de l'outil qui correspond à votre version de modèle.

    Considérations de sécurité

    L'utilisation de l'ordinateur est une fonctionnalité bêta présentant des risques uniques distincts des fonctionnalités API standard. Ces risques sont accrus lors d'interactions avec Internet.

    Pour minimiser les risques, envisagez de prendre des précautions telles que :

    1. Utiliser une machine virtuelle ou un conteneur dédié avec des privilèges minimaux pour éviter les attaques directes sur le système ou les accidents.
    2. Éviter de donner au modèle accès à des données sensibles, telles que les informations de connexion aux comptes, pour prévenir le vol d'informations.
    3. Limiter l'accès à Internet à une liste d'autorisation de domaines pour réduire l'exposition aux contenus malveillants.
    4. Demander à un humain de confirmer les décisions pouvant entraîner des conséquences réelles significatives ainsi que toute tâche nécessitant un consentement affirmatif, comme l'acceptation de cookies, l'exécution de transactions financières ou l'acceptation de conditions d'utilisation.

    Dans certaines circonstances, Claude suivra des commandes trouvées dans le contenu même si cela entre en conflit avec les instructions de l'utilisateur. Par exemple, les instructions de Claude sur des pages web ou contenues dans des images peuvent remplacer les instructions ou amener Claude à faire des erreurs. Prenez des précautions pour isoler Claude des données et actions sensibles afin d'éviter les risques liés à l'injection de prompts.

    Le modèle a été entraîné pour résister à ces injections de prompts, et une couche de défense supplémentaire a été ajoutée. Si vous utilisez les outils d'utilisation de l'ordinateur, des classificateurs s'exécuteront automatiquement sur vos prompts pour signaler les instances potentielles d'injections de prompts. Lorsque ces classificateurs identifient des injections de prompts potentielles dans les captures d'écran, ils orienteront automatiquement le modèle pour qu'il demande une confirmation de l'utilisateur avant de procéder à l'action suivante. Cette protection supplémentaire ne sera pas idéale pour tous les cas d'utilisation (par exemple, les cas d'utilisation sans humain dans la boucle), donc si vous souhaitez vous désinscrire et la désactiver, veuillez contacter le support.

    Ces précautions restent importantes même avec la couche de défense par classificateur en place.

    Informez les utilisateurs finaux des risques pertinents et obtenez leur consentement avant d'activer l'utilisation de l'ordinateur dans vos propres produits.

    Implémentation de référence pour l'utilisation de l'ordinateur

    Démarrez rapidement avec l'implémentation de référence pour l'utilisation de l'ordinateur qui comprend une interface web, un conteneur Docker, des exemples d'implémentations d'outils et une boucle d'agent.

    Remarque : L'implémentation a été mise à jour pour inclure de nouveaux outils pour les modèles Claude 4 et Claude Sonnet 3.7. Assurez-vous de récupérer la dernière version du dépôt pour accéder à ces nouvelles fonctionnalités.

    Utilisez ce formulaire pour fournir des retours sur la qualité des réponses du modèle, l'API elle-même ou la qualité de la documentation.

    Démarrage rapide

    Voici comment démarrer avec l'utilisation de l'ordinateur :

    Un en-tête bêta n'est requis que pour l'outil d'utilisation de l'ordinateur.

    L'exemple ci-dessus montre les trois outils utilisés ensemble, ce qui nécessite l'en-tête bêta car il inclut l'outil d'utilisation de l'ordinateur.


    Comment fonctionne l'utilisation de l'ordinateur

    La répétition des étapes 3 et 4 sans entrée utilisateur est appelée la "boucle d'agent" (c'est-à-dire que Claude répond avec une requête d'utilisation d'outil et votre application répond à Claude avec les résultats de l'évaluation de cette requête).

    L'environnement informatique

    L'utilisation de l'ordinateur nécessite un environnement informatique en bac à sable où Claude peut interagir en toute sécurité avec des applications et le web. Cet environnement comprend :

    1. Affichage virtuel : Un serveur d'affichage X11 virtuel (utilisant Xvfb) qui rend l'interface de bureau que Claude verra via des captures d'écran et contrôlera avec des actions de souris/clavier.

    2. Environnement de bureau : Une interface utilisateur légère avec un gestionnaire de fenêtres (Mutter) et un panneau (Tint2) fonctionnant sous Linux, qui fournit une interface graphique cohérente pour que Claude puisse interagir.

    3. Applications : Des applications Linux pré-installées comme Firefox, LibreOffice, des éditeurs de texte et des gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.

    4. Implémentations d'outils : Du code d'intégration qui traduit les requêtes d'outils abstraites de Claude (comme "déplacer la souris" ou "prendre une capture d'écran") en opérations réelles dans l'environnement virtuel.

    5. Boucle d'agent : Un programme qui gère la communication entre Claude et l'environnement, envoyant les actions de Claude à l'environnement et retournant les résultats (captures d'écran, sorties de commandes) à Claude.

    Lorsque vous utilisez l'utilisation de l'ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :

    1. Reçoit les requêtes d'utilisation d'outils de Claude
    2. Les traduit en actions dans votre environnement informatique
    3. Capture les résultats (captures d'écran, sorties de commandes, etc.)
    4. Retourne ces résultats à Claude

    Pour la sécurité et l'isolation, l'implémentation de référence exécute tout cela dans un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l'environnement.


    Comment implémenter l'utilisation de l'ordinateur

    Commencer avec l'implémentation de référence

    Une implémentation de référence est disponible et comprend tout ce dont vous avez besoin pour démarrer rapidement avec l'utilisation de l'ordinateur :

    • Un environnement conteneurisé adapté à l'utilisation de l'ordinateur avec Claude
    • Des implémentations des outils d'utilisation de l'ordinateur
    • Une boucle d'agent qui interagit avec l'API Claude et exécute les outils d'utilisation de l'ordinateur
    • Une interface web pour interagir avec le conteneur, la boucle d'agent et les outils.

    Comprendre la boucle multi-agent

    Le cœur de l'utilisation de l'ordinateur est la "boucle d'agent" - un cycle où Claude demande des actions d'outils, votre application les exécute et retourne les résultats à Claude. Voici un exemple simplifié :

    async def sampling_loop(
        *,
        model: str,
        messages: list[dict],
        api_key: str,
        max_tokens: int = 4096,
        tool_version: str,
        thinking_budget: int | None = None,
        max_iterations: int = 10,  # Add iteration limit to prevent infinite loops
    ):
        """
        A simple agent loop for Claude computer use interactions.
    
        This function handles the back-and-forth between:
        1. Sending user messages to Claude
        2. Claude requesting to use tools
        3. Your app executing those tools
        4. Sending tool results back to Claude
        """
        # Set up tools and API parameters
        client = Anthropic(api_key=api_key)
        beta_flag = (
            "computer-use-2025-11-24"
            if "20251124" in tool_version
            else "computer-use-2025-01-24"
            if "20250124" in tool_version
            else "computer-use-2024-10-22"
        )
    
        # Configure tools - you should already have these initialized elsewhere
        tools = [
            {
                "type": f"computer_{tool_version}",
                "name": "computer",
                "display_width_px": 1024,
                "display_height_px": 768,
            },
            {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
            {"type": f"bash_{tool_version}", "name": "bash"},
        ]
    
        # Main agent loop (with iteration limit to prevent runaway API costs)
        iterations = 0
        while True and iterations < max_iterations:
            iterations += 1
            # Set up optional thinking parameter (for Claude Sonnet 3.7)
            thinking = None
            if thinking_budget:
                thinking = {"type": "enabled", "budget_tokens": thinking_budget}
    
            # Call the Claude API
            response = client.beta.messages.create(
                model=model,
                max_tokens=max_tokens,
                messages=messages,
                tools=tools,
                betas=[beta_flag],
                thinking=thinking,
            )
    
            # Add Claude's response to the conversation history
            response_content = response.content
            messages.append({"role": "assistant", "content": response_content})
    
            # Check if Claude used any tools
            tool_results = []
            for block in response_content:
                if block.type == "tool_use":
                    # In a real app, you would execute the tool here
                    # For example: result = run_tool(block.name, block.input)
                    result = {"result": "Tool executed successfully"}
    
                    # Format the result for Claude
                    tool_results.append(
                        {"type": "tool_result", "tool_use_id": block.id, "content": result}
                    )
    
            # If no tools were used, Claude is done - return the final messages
            if not tool_results:
                return messages
    
            # Add tool results to messages for the next iteration with Claude
            messages.append({"role": "user", "content": tool_results})

    La boucle continue jusqu'à ce que Claude réponde sans demander d'outils (tâche terminée) ou que la limite maximale d'itérations soit atteinte. Cette protection empêche les boucles infinies potentielles qui pourraient entraîner des coûts API inattendus.

    Essayez l'implémentation de référence avant de lire le reste de cette documentation.

    Optimiser les performances du modèle avec le prompting

    Voici quelques conseils pour obtenir des sorties de la meilleure qualité :

    1. Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
    2. Claude suppose parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour éviter cela, vous pouvez demander à Claude avec After each step, take a screenshot and carefully evaluate if you have achieved the right outcome. Explicitly show your thinking: "I have evaluated step X..." If not correct, try again. Only when you confirm a step was executed correctly should you move on to the next one.
    3. Certains éléments d'interface utilisateur (comme les menus déroulants et les barres de défilement) peuvent être difficiles à manipuler pour Claude avec des mouvements de souris. Si vous rencontrez ce problème, essayez de demander au modèle d'utiliser des raccourcis clavier.
    4. Pour les tâches répétables ou les interactions avec l'interface utilisateur, incluez des captures d'écran d'exemple et des appels d'outils de résultats réussis dans votre prompt.
    5. Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d'utilisateur et le mot de passe dans votre prompt dans des balises xml comme <robot_credentials>. L'utilisation de l'ordinateur dans des applications nécessitant une connexion augmente le risque de mauvais résultats en raison d'injections de prompts. Consultez le guide sur l'atténuation des injections de prompts avant de fournir des identifiants de connexion au modèle.

    Si vous rencontrez régulièrement un ensemble clair de problèmes ou si vous connaissez à l'avance les tâches que Claude devra accomplir, utilisez le prompt système pour fournir à Claude des conseils ou des instructions explicites sur la façon d'accomplir les tâches avec succès.

    Pour les agents qui s'étendent sur plusieurs sessions, effectuez une vérification de bout en bout au début de chaque session, pas seulement après l'implémentation. Les vérifications basées sur le navigateur détectent les régressions des sessions précédentes que la révision au niveau du code seule manque. Voir Effective harnesses for long-running agents pour plus de détails.

    Prompts système

    Lorsqu'un des outils définis par Anthropic est demandé via l'API Claude, un prompt système spécifique à l'utilisation de l'ordinateur est généré. Il est similaire au prompt système d'utilisation d'outils mais commence par :

    You have access to a set of functions you can use to answer the user's question. This includes access to a sandboxed computing environment. You do NOT currently have the ability to inspect files or interact with external resources, except by invoking the below functions.

    Comme pour l'utilisation d'outils ordinaire, le champ system_prompt fourni par l'utilisateur est toujours respecté et utilisé dans la construction du prompt système combiné.

    Actions disponibles

    L'outil d'utilisation de l'ordinateur prend en charge ces actions :

    Actions de base (toutes les versions)

    • screenshot - Capturer l'affichage actuel
    • left_click - Cliquer aux coordonnées [x, y]
    • type - Taper une chaîne de texte
    • key - Appuyer sur une touche ou une combinaison de touches (par exemple, "ctrl+s")
    • mouse_move - Déplacer le curseur vers des coordonnées

    Actions améliorées (computer_20250124) Disponibles dans les modèles Claude 4 et Claude Sonnet 3.7 :

    • scroll - Faire défiler dans n'importe quelle direction avec contrôle de la quantité
    • left_click_drag - Cliquer et faire glisser entre des coordonnées
    • right_click, middle_click - Boutons de souris supplémentaires
    • double_click, triple_click - Clics multiples
    • left_mouse_down, left_mouse_up - Contrôle fin des clics
    • hold_key - Maintenir une touche enfoncée pendant une durée spécifiée (en secondes)
    • wait - Pause entre les actions

    Actions améliorées (computer_20251124) Disponibles dans Claude Opus 4.6 et Claude Opus 4.5 :

    • Toutes les actions de computer_20250124
    • zoom - Afficher une région spécifique de l'écran en pleine résolution. Nécessite enable_zoom: true dans la définition de l'outil. Prend un paramètre region avec des coordonnées [x1, y1, x2, y2] définissant les coins supérieur gauche et inférieur droit de la zone à inspecter.

    Paramètres de l'outil

    ParamètreRequisDescription
    typeOuiVersion de l'outil (computer_20251124, computer_20250124, ou computer_20241022)
    nameOuiDoit être "computer"
    display_width_pxOuiLargeur d'affichage en pixels
    display_height_pxOuiHauteur d'affichage en pixels
    display_numberNonNuméro d'affichage pour les environnements X11

    Important : L'outil d'utilisation de l'ordinateur doit être explicitement exécuté par votre application - Claude ne peut pas l'exécuter directement. Vous êtes responsable de l'implémentation de la capture d'écran, des mouvements de souris, des entrées clavier et d'autres actions basées sur les requêtes de Claude.

    Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7

    Claude Sonnet 3.7 a introduit une nouvelle capacité de "réflexion" qui vous permet de voir le processus de raisonnement du modèle lorsqu'il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude aborde un problème et peut être particulièrement précieuse pour le débogage ou à des fins éducatives.

    Pour activer la réflexion, ajoutez un paramètre thinking à votre requête API :

    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }

    Le paramètre budget_tokens spécifie combien de tokens Claude peut utiliser pour la réflexion. Cela est soustrait de votre budget global max_tokens.

    Lorsque la réflexion est activée, Claude retournera son processus de raisonnement dans le cadre de la réponse, ce qui peut vous aider à :

    1. Comprendre le processus de prise de décision du modèle
    2. Identifier les problèmes ou idées fausses potentiels
    3. Apprendre de l'approche de Claude pour la résolution de problèmes
    4. Obtenir plus de visibilité sur les opérations complexes à plusieurs étapes

    Voici un exemple de ce à quoi pourrait ressembler la sortie de réflexion :

    [Thinking]
    I need to save a picture of a cat to the desktop. Let me break this down into steps:
    
    1. First, I'll take a screenshot to see what's on the desktop
    2. Then I'll look for a web browser to search for cat images
    3. After finding a suitable image, I'll need to save it to the desktop
    
    Let me start by taking a screenshot to see what's available...

    Augmenter l'utilisation de l'ordinateur avec d'autres outils

    L'outil d'utilisation de l'ordinateur peut être combiné avec d'autres outils pour créer des flux de travail d'automatisation plus puissants. Cela est particulièrement utile lorsque vous avez besoin de :

    • Exécuter des commandes système (outil bash)
    • Modifier des fichiers de configuration ou des scripts (outil éditeur de texte)
    • Intégrer des API ou services personnalisés (outils personnalisés)

    Créer un environnement d'utilisation de l'ordinateur personnalisé

    L'implémentation de référence est destinée à vous aider à démarrer avec l'utilisation de l'ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez créer votre propre environnement d'utilisation de l'ordinateur selon vos besoins. Vous aurez besoin de :

    • Un environnement virtualisé ou conteneurisé adapté à l'utilisation de l'ordinateur avec Claude
    • Une implémentation d'au moins un des outils d'utilisation de l'ordinateur définis par Anthropic
    • Une boucle d'agent qui interagit avec l'API Claude et exécute les résultats tool_use en utilisant vos implémentations d'outils
    • Une API ou une interface utilisateur permettant à l'utilisateur de démarrer la boucle d'agent

    Implémenter l'outil d'utilisation de l'ordinateur

    L'outil d'utilisation de l'ordinateur est implémenté comme un outil sans schéma. Lors de l'utilisation de cet outil, vous n'avez pas besoin de fournir un schéma d'entrée comme avec d'autres outils ; le schéma est intégré dans le modèle de Claude et ne peut pas être modifié.

    Gérer les erreurs

    Lors de l'implémentation de l'outil d'utilisation de l'ordinateur, diverses erreurs peuvent survenir. Voici comment les gérer :

    Gérer la mise à l'échelle des coordonnées pour les résolutions plus élevées

    L'API limite les images à un maximum de 1568 pixels sur le bord le plus long et environ 1,15 mégapixels au total (voir redimensionnement d'image pour plus de détails). Par exemple, un écran de 1512x982 est sous-échantillonné à environ 1330x864. Claude analyse cette image plus petite et renvoie des coordonnées dans cet espace, mais votre outil exécute les clics dans l'espace d'écran d'origine.

    Cela peut faire manquer les cibles aux coordonnées de clic de Claude, sauf si vous gérez la transformation des coordonnées.

    Pour corriger cela, redimensionnez vous-même les captures d'écran et remettez à l'échelle les coordonnées de Claude :

    Suivre les meilleures pratiques d'implémentation


    Comprendre les limitations de l'utilisation de l'ordinateur

    La fonctionnalité d'utilisation de l'ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe de la technologie, les développeurs doivent être conscients de ses limitations :

    1. Latence : la latence actuelle de l'utilisation de l'ordinateur pour les interactions humain-IA peut être trop lente par rapport aux actions informatiques habituellement dirigées par des humains. Concentrez-vous sur des cas d'utilisation où la vitesse n'est pas critique (par exemple, la collecte d'informations en arrière-plan, les tests logiciels automatisés) dans des environnements de confiance.
    2. Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la génération de coordonnées spécifiques lors de la génération d'actions. Claude Sonnet 3.7 introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et à identifier les problèmes potentiels.
    3. Précision et fiabilité de la sélection des outils : Claude peut faire des erreurs ou halluciner lors de la sélection des outils lors de la génération d'actions ou prendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être moindre lors de l'interaction avec des applications de niche ou plusieurs applications simultanément. Formulez soigneusement les instructions au modèle lors de la demande de tâches complexes.
    4. Fiabilité du défilement : Claude Sonnet 3.7 a introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut désormais faire défiler explicitement dans n'importe quelle direction (haut/bas/gauche/droite) d'une quantité spécifiée.
    5. Interaction avec les feuilles de calcul : Les clics de souris pour l'interaction avec les feuilles de calcul se sont améliorés dans Claude Sonnet 3.7 avec l'ajout d'actions de contrôle de souris plus précises comme left_mouse_down, , et un nouveau support de touches modificatrices. La sélection de cellules peut être plus fiable en utilisant ces contrôles fins et en combinant les touches modificatrices avec les clics.

    Examinez et vérifiez toujours soigneusement les actions et journaux d'utilisation de l'ordinateur de Claude. N'utilisez pas Claude pour des tâches nécessitant une précision parfaite ou des informations utilisateur sensibles sans surveillance humaine.

    Conservation des données

    L'utilisation de l'ordinateur est un outil côté client. Toutes les captures d'écran, actions de souris, saisies au clavier et tous les fichiers impliqués dans une session sont capturés et stockés dans votre environnement, et non par Anthropic. Anthropic traite les images de capture d'écran et les demandes d'action en temps réel dans le cadre de l'appel API, mais ne les conserve pas après le retour de la réponse.

    Étant donné que votre application contrôle où et comment les données d'utilisation de l'ordinateur sont stockées, l'utilisation de l'ordinateur est éligible à la ZDR. Pour l'éligibilité ZDR sur toutes les fonctionnalités, voir API et conservation des données.

    Tarification

    Computer use follows the standard tool use pricing. When using the computer use tool:

    System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt

    Computer use tool token usage:

    ModelInput tokens per tool definition
    Claude 4.x models735 tokens
    Claude Sonnet 3.7 (deprecated)735 tokens

    Additional token consumption:

    • Screenshot images (see Vision pricing)
    • Tool execution results returned to Claude

    If you're also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

    Prochaines étapes

    Implémentation de référence

    Démarrez rapidement avec l'implémentation complète basée sur Docker

    curl https://api.anthropic.com/v1/messages \
      -H "content-type: application/json" \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: computer-use-2025-11-24" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 1024,
        "tools": [
          {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1
          },
          {
            "type": "text_editor_20250728",
            "name": "str_replace_based_edit_tool"
          },
          {
            "type": "bash_20250124",
            "name": "bash"
          }
        ],
        "messages": [
          {
            "role": "user",
            "content": "Save a picture of a cat to my desktop."
          }
        ]
      }'
    1. 1

      Fournir à Claude l'outil d'utilisation de l'ordinateur et un prompt utilisateur

      • Ajoutez l'outil d'utilisation de l'ordinateur (et éventuellement d'autres outils) à votre requête API.
      • Incluez un prompt utilisateur nécessitant une interaction avec le bureau, par exemple, "Enregistre une image d'un chat sur mon bureau."
    2. 2

      Claude décide d'utiliser l'outil d'utilisation de l'ordinateur

      • Claude évalue si l'outil d'utilisation de l'ordinateur peut aider avec la requête de l'utilisateur.
      • Si oui, Claude construit une requête d'utilisation d'outil correctement formatée.
      • La réponse API a un stop_reason de tool_use, signalant l'intention de Claude.
    3. 3

      Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur et retourner les résultats

      • De votre côté, extrayez le nom de l'outil et l'entrée de la requête de Claude.
      • Utilisez l'outil sur un conteneur ou une machine virtuelle.
      • Continuez la conversation avec un nouveau message user contenant un bloc de contenu tool_result.
    4. 4

      Claude continue d'appeler les outils d'utilisation de l'ordinateur jusqu'à ce que la tâche soit terminée

      • Claude analyse les résultats des outils pour déterminer si davantage d'utilisation d'outils est nécessaire ou si la tâche est terminée.
      • Si Claude décide qu'il a besoin d'un autre outil, il répond avec un autre stop_reason tool_use et vous devez revenir à l'étape 3.
      • Sinon, il rédige une réponse textuelle à l'utilisateur.
    enable_zoom
    Non
    Activer l'action de zoom (uniquement computer_20251124). Définir à true pour permettre à Claude de zoomer sur des régions spécifiques de l'écran. Par défaut : false
    curl https://api.anthropic.com/v1/messages \
      -H "content-type: application/json" \
      -H "x-api-key: $ANTHROPIC_API_KEY" \
      -H "anthropic-version: 2023-06-01" \
      -H "anthropic-beta: computer-use-2025-11-24" \
      -d '{
        "model": "claude-opus-4-6",
        "max_tokens": 2000,
        "tools": [
          {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1
          },
          {
            "type": "text_editor_20250728",
            "name": "str_replace_based_edit_tool"
          },
          {
            "type": "bash_20250124",
            "name": "bash"
          },
          {
            "name": "get_weather",
            "description": "Get the current weather in a given location",
            "input_schema": {
              "type": "object",
              "properties": {
                "location": {
                  "type": "string",
                  "description": "The city and state, e.g. San Francisco, CA"
                },
                "unit": {
                  "type": "string",
                  "enum": ["celsius", "fahrenheit"],
                  "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
                }
              },
              "required": ["location"]
            }
          }
        ],
        "messages": [
          {
            "role": "user",
            "content": "Find flights from San Francisco to a place with warmer weather."
          }
        ],
        "thinking": {
          "type": "enabled",
          "budget_tokens": 1024
        }
      }'
    1. 1

      Configurer votre environnement informatique

      Créez un affichage virtuel ou connectez-vous à un affichage existant avec lequel Claude interagira. Cela implique généralement la configuration de Xvfb (X Virtual Framebuffer) ou d'une technologie similaire.

    2. 2

      Implémenter les gestionnaires d'actions

      Créez des fonctions pour gérer chaque type d'action que Claude pourrait demander :

      def handle_computer_action(action_type, params):
          if action_type == "screenshot":
              return capture_screenshot()
          elif action_type == "left_click":
              x, y = params["coordinate"]
              return click_at(x, y)
          elif action_type == "type":
              return type_text(params["text"])
          # ... handle other actions
    3. 3

      Traiter les appels d'outils de Claude

      Extrayez et exécutez les appels d'outils des réponses de Claude :

      for content in response.content:
          if content.type == "tool_use":
              action = content.input["action"]
              result = handle_computer_action(action, content.input)
      
              # Return result to Claude
              tool_result = {
                  "type": "tool_result",
                  "tool_use_id": content.id,
                  "content": result,
              }
    4. 4

      Implémenter la boucle d'agent

      Créez une boucle qui continue jusqu'à ce que Claude termine la tâche :

      while True:
          response = client.beta.messages.create(...)
      
          # Check if Claude used any tools
          tool_results = process_tool_calls(response)
      
          if not tool_results:
              # No more tool use, task complete
              break
      
          # Continue conversation with tool results
          messages.append({"role": "user", "content": tool_results})

    import math
    
    
    def get_scale_factor(width, height):
        """Calculate scale factor to meet API constraints."""
        long_edge = max(width, height)
        total_pixels = width * height
    
        long_edge_scale = 1568 / long_edge
        total_pixels_scale = math.sqrt(1_150_000 / total_pixels)
    
        return min(1.0, long_edge_scale, total_pixels_scale)
    
    
    # When capturing screenshot
    scale = get_scale_factor(screen_width, screen_height)
    scaled_width = int(screen_width * scale)
    scaled_height = int(screen_height * scale)
    
    # Resize image to scaled dimensions before sending to Claude
    screenshot = capture_and_resize(scaled_width, scaled_height)
    
    
    # When handling Claude's coordinates, scale them back up
    def execute_click(x, y):
        screen_x = x / scale
        screen_y = y / scale
        perform_click(screen_x, screen_y)

    left_mouse_up
  1. Création de comptes et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visite des sites web, la capacité de Claude à créer des comptes ou à générer et partager du contenu ou à s'engager autrement dans l'usurpation d'identité humaine sur les sites et plateformes de médias sociaux est limitée. Cette capacité pourra être mise à jour à l'avenir.
  2. Vulnérabilités : Des vulnérabilités comme le jailbreaking ou l'injection de prompt peuvent persister dans les systèmes d'IA de pointe, y compris l'API d'utilisation de l'ordinateur en version bêta. Dans certaines circonstances, Claude suivra des commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l'utilisateur. Par exemple, les instructions de Claude sur des pages web ou contenues dans des images peuvent remplacer des instructions ou amener Claude à faire des erreurs. Considérez les points suivants : a. Limiter l'utilisation de l'ordinateur à des environnements de confiance tels que des machines virtuelles ou des conteneurs avec des privilèges minimaux b. Éviter de donner à l'utilisation de l'ordinateur l'accès à des comptes ou des données sensibles sans surveillance stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d'activer ou de demander les autorisations nécessaires aux fonctionnalités d'utilisation de l'ordinateur dans vos applications
  3. Actions inappropriées ou illégales : Conformément aux conditions d'utilisation d'Anthropic, vous ne devez pas utiliser l'utilisation de l'ordinateur pour violer des lois ou la Politique d'utilisation acceptable.
  4. Documentation des outils

    En savoir plus sur l'utilisation des outils et la création d'outils personnalisés